• 正文
    • AI大模型持續(xù)擴展趨勢下,萬卡通用算力成為標配
    • “國產(chǎn)智算萬卡集群——做難而正確的事”
    • 相信AGI到來,致力于全功能的通用加速計算平臺
  • 推薦器件
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

國產(chǎn)GPU:身處通用計算黃金時刻,智算萬卡是最低標配

原創(chuàng)
2024/07/04
3095
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

日前,摩爾線程宣布AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案實現(xiàn)重大升級,從千卡級別大幅擴展至萬卡規(guī)模。該集群以全功能GPU為底座,專為萬億參數(shù)級別的復雜大模型訓練而設計,旨在打造能夠承載萬卡規(guī)模、具備萬P級浮點運算能力的國產(chǎn)通用加速計算平臺。

“摩爾線程推出夸娥(KUAE)萬卡智算集群解決方案,希望能夠建設一個規(guī)模超萬卡、場景更通用、生態(tài)兼容好的加速計算平臺,并優(yōu)先解決大模型訓練的難題”,摩爾線程創(chuàng)始人兼CEO張建中表示:“夸娥萬卡智算集群作為摩爾線程全棧AI戰(zhàn)略的一塊重要拼圖,可為各行各業(yè)數(shù)智化轉型提供澎湃算力?!?/p>

AI大模型持續(xù)擴展趨勢下,萬卡通用算力成為標配

張建中指出,“通用加速計算平臺正處在黃金時刻,我們看到了Scaling Law這個演進規(guī)律:需要單點規(guī)模夠大并且通用的算力,才能快速跟上技術演進變化。如果規(guī)模夠大、計算通用、生態(tài)兼容這三點都做好的話,對使用者來說就是非常好用的平臺。”

摩爾線程創(chuàng)始人兼CEO 張建中

所謂萬卡集群,是指由一萬張及以上的計算加速卡(如GPU)組成的高性能計算系統(tǒng),用以訓練基礎大模型。該類集群充分整合高性能GPU計算、高性能RDMA網(wǎng)絡、高性能并行文件存儲、智算平臺等關鍵技術,將底層基礎設施整合成為一臺“超級計算機”,可支持千億級甚至萬億級參數(shù)規(guī)模的大模型訓練,有助于大幅壓縮大模型訓練時間,以實現(xiàn)模型能力的快速迭代。

一些重要的趨勢正在演進:一方面,Transformer架構仍在加速進步,它雖然是目前的主流架構,但是并不會大一統(tǒng),其他創(chuàng)新架構仍在不斷出現(xiàn),如Mamba、RWKV和RetNet等,旨在提升計算效率,加速迭代創(chuàng)新。

另一方面,AI+3D+HPC在實現(xiàn)加速融合,從而帶來計算范式的變化。比如AI+3D、AI+仿真計算、AI+FP64科學計算等,這些都需要通用加速計算平臺,才能滿足更多場景對多元計算的需求。

應對上述趨勢,一個“大且通用”的加速計算平臺越來越成為標配,以縮短訓練時間,實現(xiàn)模型能力的快速迭代。

國際頭部公司正在積極部署千卡乃至超萬卡規(guī)模的計算集群,比如:Google推出的超級計算機 A3 Virtual Machines,擁有26000塊 Nvidia H100 GPU,同時基于自研芯片搭建了TPUv5p 8960卡集群;Meta 今年初公布了2個24576塊Nvidia H100的集群,用于支持下一代生成式Al模型的訓練。

國內(nèi)市場方面,通信運營商、頭部互聯(lián)網(wǎng)、大型AI研發(fā)企業(yè)、AI初創(chuàng)企業(yè)等都在超萬卡集群的建設和使用過程中不斷推動技術革新。例如字節(jié)跳動、阿里巴巴百度等互聯(lián)網(wǎng)公司正在積極推進超萬卡集群的建設。其中,字節(jié)跳動搭建了12288 卡的Ampere架構訓練集群,研發(fā)MegaScale生產(chǎn)系統(tǒng)用于訓練大語言模型;科大訊飛在2023年建成了首個支持大模型訓練的超萬卡集群算力平臺“飛星一號”。

“國產(chǎn)智算萬卡集群——做難而正確的事”

萬卡集群并不是一萬張GPU卡的簡單堆疊,而是一個超級復雜的系統(tǒng)工程。

張建中指出,萬卡集群當前面臨的主要問題,包括超大規(guī)模組網(wǎng)互聯(lián)、集群有效計算效率、訓練高穩(wěn)定與高可用、故障快速定位與可診斷工具、生態(tài)Day0級快速遷移、未來場景通用計算等。

這其中涉及諸多的技術難點,僅以超大規(guī)模組網(wǎng)互聯(lián)、集群有效計算效率(MFU)以及訓練的高穩(wěn)定性這三項技術細節(jié)來看:

超大規(guī)模組網(wǎng)互聯(lián)包括參數(shù)面網(wǎng)絡、數(shù)據(jù)面網(wǎng)絡、業(yè)務面網(wǎng)絡、管理面網(wǎng)絡等,而不同的網(wǎng)絡需要采取不同的組網(wǎng)部署方式。超萬卡集群對參數(shù)面網(wǎng)絡(計算網(wǎng)絡)的要求最高,因為它主要用于計算節(jié)點之間的參數(shù)交換,要求具備高帶寬無損能力。并且,參數(shù)面網(wǎng)絡的速度與穩(wěn)定性決定著整個集群的運行效率,要通過各種擁塞控制優(yōu)化機制、負載均衡以及故障快速感知等技術手段,才能保證網(wǎng)絡傳輸?shù)牧銇G包無損、高吞吐與高穩(wěn)定等。

集群有效計算效率即MFU方面,大量實踐表明,集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升,因為受限于芯片計算性能(芯片及算子使用效率)、GPU顯存的訪問性能(內(nèi)存和I/O訪問瓶頸)、卡間互聯(lián)帶寬、有效的分布式并行策略等。

在訓練的高穩(wěn)定與高可用方面,由于超萬卡集群是由數(shù)千臺GPU服務器、數(shù)千臺交換機、數(shù)萬根光纖/數(shù)萬顆光模塊構成,訓練任務涉及上千萬器件的共同作業(yè),任何一個部件比如一個網(wǎng)卡、一個光模塊或一個GPU故障,整個集群就會宕機導致訓練中斷。因此,萬卡集群高穩(wěn)定和高可用是個非常大的難題。

“盡管萬卡建設難,挑戰(zhàn)巨大,但摩爾線程堅信,這是一條難而正確的道路,我們致力于通過夸娥萬卡智算集群,為AI大模型與通用人工智能的發(fā)展提供堅實的支撐”,張建中表示。

以國產(chǎn)全功能GPU為技術底座,摩爾線程的夸娥萬卡智算解決方案實現(xiàn)了幾大核心的護城河:

  • 大算力,萬卡萬P:單集群規(guī)模超萬卡,浮點運算能力達10Exa-Flops,提供PB級顯存容量和超高速卡間與節(jié)點間互聯(lián)帶寬,實現(xiàn)算力、顯存和帶寬的協(xié)同優(yōu)化。
  • 超高穩(wěn)定,月級長穩(wěn)訓練:平均無故障運行時間超15天,支持30天以上長穩(wěn)訓練,周均訓練有效率超過99%,采用多級可靠機制實現(xiàn)軟硬件故障快速定位和訓練任務快速恢復。
  • 極致優(yōu)化,超高MFU:MFU最高達60%,通過系統(tǒng)軟件、框架、算法優(yōu)化,支持自適應混合并行策略和顯存優(yōu)化,有效縮減計算時間和顯存占用,提升訓練效率。
  • 全能通用,生態(tài)友好:適用于多種架構和模態(tài)的大模型,可加速LLM、MoE、多模態(tài)、Mamba等不同架構、不同模態(tài)的大模型。基于MUSA編程語言和CUDA兼容能力,可實現(xiàn)新模型快速遷移和生態(tài)適配,加速業(yè)務上線。

相信AGI到來,致力于全功能的通用加速計算平臺

張建中解釋說,集群不是“堆卡“,主要在于單位功耗的算力在提升,而這來源于整個架構的改善、效率的提升,需要整個系統(tǒng)的調優(yōu)。實際上,從千卡到萬卡的升級建設過程中,萬卡平均每瓦的算力提升了很多。

同時,國產(chǎn)集群具有生態(tài)兼容性優(yōu)勢,開發(fā)者移植到夸娥集群上,幾乎不需要修改代碼,遷移成本接近0,可以在數(shù)小時之內(nèi)就完成遷移工作,能夠顯著節(jié)約用戶和廠商的資源。

依據(jù)以往千卡級集群的建設和使用經(jīng)驗來看,如果是首次適配,通常數(shù)小時之內(nèi)就可以在平臺上運行起來;而對于已適配的大模型,用戶無需額外工作即可運行。對于性能調優(yōu)來說,是一個相對耗時的過程,因不同模型和芯片廠商的策略而有不同。

毫無疑問,在算力規(guī)模持續(xù)擴大的趨勢下,網(wǎng)絡通信能力成為一大關鍵。特別是對于建設萬卡以上的集群來說,交換機技術是必備的。

據(jù)了解,摩爾線程目前在卡間互連采用自研MTLink,現(xiàn)在已經(jīng)更迭到2.0版本。交換機方面,采用的行業(yè)的交換機芯片搭建集群。張建中表示,摩爾線程后續(xù)會進行自研,或與行業(yè)合作伙伴共同研發(fā)下一代的大規(guī)模交換機。

他認為,AGI一定會到來。隨著各種不同算法進步,真正算力平臺應用場景的建設,越來越多的大模型應用場景會得到驗證。當萬卡集群建立起來,Scaling(擴展性)向上,準確度、精度、IQ能力都在提升的話,就會產(chǎn)生實際價值,因此未來的集群建設會是逐步提升的過程。

雖然暫時可能無法完全解決全行業(yè)的算力短缺問題,但張建中表示有決心解決大模型領域缺少大算力的問題。摩爾線程將提供提供全功能的通用加速計算平臺,增加行業(yè)選擇,激發(fā)開發(fā)者的創(chuàng)新潛力,鼓勵他們探索更廣泛的應用場景,以促進更多的創(chuàng)新。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
DS3234SN#T&R 1 Maxim Integrated Products Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20
$8.47 查看
STM32F103CBT6TR 1 STMicroelectronics Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

ECAD模型

下載ECAD模型
$9.18 查看
R5F104MKGFB#50 1 Renesas Electronics Corporation Low Power, High Function, General Purpose Microcontrollers for Motor Control, Industrial and Metering Applications, LQFP, /Tray

ECAD模型

下載ECAD模型
暫無數(shù)據(jù) 查看
摩爾線程

摩爾線程

摩爾線程致力于創(chuàng)新面向元計算應用的新一代GPU,構建融合視覺計算、3D圖形計算、科學計算及人工智能計算的綜合計算平臺,建立基于云原生GPU計算的生態(tài)系統(tǒng),助力驅動數(shù)字經(jīng)濟發(fā)展。

摩爾線程致力于創(chuàng)新面向元計算應用的新一代GPU,構建融合視覺計算、3D圖形計算、科學計算及人工智能計算的綜合計算平臺,建立基于云原生GPU計算的生態(tài)系統(tǒng),助力驅動數(shù)字經(jīng)濟發(fā)展。收起

查看更多

相關推薦