隨著生成式人工智能功能的日益強大,使得模型訓(xùn)練需求呈現(xiàn)爆發(fā)式增長。在這一背景下,任何單一的圖形處理器(GPU)、異構(gòu)處理器(XPU)或其他人工智能加速器,都已難以滿足人工智能工作負(fù)載的龐大計算需求。
這種需求的激增,有力地推動了人工智能基礎(chǔ)設(shè)施建設(shè)的持續(xù)擴張。大模型的Scaling Law(尺度定律)在未來一段時間內(nèi)將保持其有效性。所謂Scaling Law,指的是數(shù)據(jù)量和參數(shù)規(guī)模增加,模型的性能也隨之提升??梢灶A(yù)見,在不久的將來,成千上萬,甚至數(shù)十萬個人工智能加速器必須協(xié)同工作,并且它們的集群規(guī)模會隨著訓(xùn)練參數(shù)的持續(xù)增加而不斷擴大。
全球AI集群建設(shè)持續(xù)擴展:從“萬卡集群”到“十萬卡集群”
當(dāng)前,“萬卡集群”被業(yè)界視為這一輪大模型競賽的“入場券”,而如今,“十萬卡集群”正成為科技巨頭們競逐的新高地。
早在去年7月,馬斯克便宣布旗下初創(chuàng)人工智能公司xAI在美國孟菲斯建立了一個超級集群,號稱是“全球最強大的AI訓(xùn)練集群”。該集群由100,000個英偉達(dá)的液冷H100 GPU組成,并在單個RDMA結(jié)構(gòu)(即遠(yuǎn)程直接數(shù)據(jù)存取結(jié)構(gòu))上運行。
緊接著,去年9月份的百度云智大會上,百度宣布對作為算力基礎(chǔ)設(shè)施的百舸AI異構(gòu)計算平臺進行升級,新升級的百舸4.0也具備成熟的十萬卡集群部署和管理能力。同一時期,阿里云在云棲大會上宣布其單網(wǎng)絡(luò)集群已擴展至十萬卡級別。騰訊則基于自研的高性能網(wǎng)絡(luò)星脈,以及新一代算力集群HCC,同樣能夠支持10萬卡GPU的超大計算規(guī)模。
人工智能基礎(chǔ)設(shè)施的Scale Up和Scale Out擴展
AI算力集群通常由AI服務(wù)器、高速交換機構(gòu)成。AI加速器是AI算力的最小單元,一臺服務(wù)器通常會包含多個加速器。為便于管理,多臺服務(wù)器組成一個機柜,并通過架頂交換機實現(xiàn)互連。
如前文所述,單芯片的算力和內(nèi)存存在局限性,無法承載大模型的計算任務(wù)。因此,通過多種互連技術(shù)將多顆算力芯片互連在一起,以提供大規(guī)模的算力和內(nèi)存,已成為目前人工智能集群建設(shè)的主要方法。GPU的互連主要分為業(yè)務(wù)互連、Scale Up網(wǎng)絡(luò)互連和Scale Out互連,它們各自承擔(dān)著不同的業(yè)務(wù)流。
業(yè)務(wù)網(wǎng)絡(luò)互連承載著諸如需要計算的輸入數(shù)據(jù)、輸出結(jié)果,以及在各類存儲系統(tǒng)中的模型參數(shù)、checkpoint等。由于其需要進行極大范圍的互連,并且要與云上的存儲、業(yè)務(wù)接口等互通,所以多采用以太網(wǎng)技術(shù),通常支持各類RDMA。
Scale Up網(wǎng)絡(luò)互連通過將不同GPU互連,在節(jié)點內(nèi)部進行擴展,即所謂的縱向擴展;而Scale Out網(wǎng)絡(luò)互連則通常是將集群橫向擴展到更多的GPU機柜,從而使AI集群的規(guī)模進一步擴大,即所謂的橫向擴展。
新互連標(biāo)準(zhǔn)助力AI基礎(chǔ)設(shè)施無縫擴展
目前,以谷歌、博通、亞馬遜、AMD、微軟、Meta、Marvell等為首的北美科技巨頭企業(yè),為了取得AI競爭優(yōu)勢,正紛紛自研AI芯片,并建立新的高速互連標(biāo)準(zhǔn)。
以AMD、博通為代表的AI芯片廠商正逐漸搶占更多市場份額。AMD提供GPU芯片,博通則主要憑借其ASIC定制化芯片服務(wù)能力。此外,OpenAI、微軟等科技巨頭也紛紛投身自研AI芯片領(lǐng)域。
在高速互連領(lǐng)域,對于Scale Up網(wǎng)絡(luò)互連,2024年10月,由AMD、亞馬遜AWS、Astera Labs、思科、谷歌、慧與(HPE)、英特爾、Meta和微軟9家企業(yè)發(fā)起的Ultra Accelerator Link Consortium(UALink聯(lián)盟)正式成立。該聯(lián)盟旨在為AI Pod和集群中加速器與交換機之間的縱向擴展通信定義一種高速、低延遲的互聯(lián)規(guī)范。
對于Scale Out網(wǎng)絡(luò)互連。超以太網(wǎng)聯(lián)盟(Ultra Ethernet,UEC)未來有望成為AI網(wǎng)絡(luò)的主流方案。超以太網(wǎng)聯(lián)盟由AMD、Arista、博通、思科等硬件廠商以及微軟、新思科技和Meta等云廠商牽頭成立,借助以太網(wǎng)的生態(tài)優(yōu)勢,致力于打造滿足AI和HPC網(wǎng)絡(luò)需求的新一代標(biāo)準(zhǔn)。
UALink技術(shù)和超以太網(wǎng)技術(shù)特點
UALink技術(shù)
UALink作為一種Scale Up架構(gòu),能夠在數(shù)十到數(shù)百個專用人工智能加速器之間建立基于標(biāo)準(zhǔn)的、具有極高帶寬連接的網(wǎng)絡(luò)。它將網(wǎng)絡(luò)從臨時的網(wǎng)絡(luò)配置轉(zhuǎn)變?yōu)楦訕?biāo)準(zhǔn)化的網(wǎng)絡(luò),從而能夠構(gòu)建具備更高基數(shù)系統(tǒng)的網(wǎng)絡(luò),并配備專用的超高速加速器鏈路交換機。
UALink構(gòu)建了一個高速、低延遲的網(wǎng)絡(luò),該網(wǎng)絡(luò)可連接一個計算節(jié)點內(nèi)的多個加速器(如GPU)。這使得每個加速器都能夠直接訪問其他加速器的內(nèi)存,從而讓整個計算節(jié)點的功能就如同一塊單一的、大型的GPU。從軟件層面來看,這些相互連接的GPU組就像是一個單一的、大型的GPU塊。
UALink具有以下技術(shù)特點:
高帶寬:UALink每條通道的帶寬高達(dá)200Gbps,可實現(xiàn)加速器之間的高效數(shù)據(jù)傳輸。
輕量級協(xié)議:該協(xié)議設(shè)計為輕量級,可減少開銷并確保高效通信。
高效性:亞微秒級的延遲提升了推理性能,并且能夠在不分割工作負(fù)載的情況下實現(xiàn)對八個以上GPU的擴展。
開放標(biāo)準(zhǔn):UALink是一項開放的行業(yè)標(biāo)準(zhǔn),有助于促進互操作性并減少對單一供應(yīng)商的依賴。
內(nèi)存共享:其具備特定的內(nèi)存共享功能,使加速器能夠高效訪問共享內(nèi)存資源。支持在數(shù)百個GPU之間進行加載、存儲和原子操作,最大限度地減少端到端延遲并降低功耗。
同步特性:UALink包含同步特性,以確保多個加速器之間的一致性和高效運行。、
與UEC互補:能與UEC良好協(xié)作,以實現(xiàn)更廣泛的可擴展性。
超以太網(wǎng)技術(shù)
超以太網(wǎng)系統(tǒng)由包含節(jié)點和架構(gòu)基礎(chǔ)設(shè)施的集群組成。節(jié)點通過架構(gòu)接口(網(wǎng)卡)連接到網(wǎng)絡(luò),這些架構(gòu)接口可以承載多個邏輯架構(gòu)端點(FEP)。網(wǎng)絡(luò)被劃分為多個平面,每個平面都包含通常通過交換機相互連接的架構(gòu)端點。
圖4:超以太網(wǎng)集群圖。(圖源:新思科技)
這些集群可以在兩種主要模式下工作,以處理不同的任務(wù)。
并行作業(yè)模式:系統(tǒng)運行任務(wù)直至完成,并允許多個節(jié)點同時進行通信。這對于需要大量并行處理的高性能計算任務(wù)來說非常理想。
客戶端/服務(wù)器模式:該系統(tǒng)是為存儲任務(wù)而設(shè)置的。在這種模式下,服務(wù)器持續(xù)處理來自多個客戶端的請求,通信發(fā)生在特定的節(jié)點之間。這種模式非常適用于對于可靠且一致的數(shù)據(jù)訪問和管理。
超以太網(wǎng)技術(shù)具有以下技術(shù)特點:
物理層:與IEEE 802.3標(biāo)準(zhǔn)以太網(wǎng)兼容,可基于前向糾錯(FEC)碼字進行可選的性能監(jiān)測。諸如不可糾正碼字率(UCR)和平均分組錯誤間隔時間(MTBPE)等指標(biāo),可深入了解傳輸性能和可靠性。
數(shù)據(jù)鏈路層:引入鏈路級重傳(LLR)協(xié)議,實現(xiàn)無損傳輸,且不依賴于優(yōu)先級流量控制(PFC)。這確保了更快的錯誤恢復(fù),消除了不必要的端到端重傳,并減少了尾部延遲。
分組速率提升(PRI):壓縮以太網(wǎng)和IP報頭以提高分組速率,解決因舊有功能和冗余協(xié)議字段導(dǎo)致的效率低下問題。
鏈路協(xié)商協(xié)議:通過協(xié)商功能擴展了鏈路層發(fā)現(xiàn)協(xié)議(LLDP),以檢測并啟用鏈路級重傳(LLR)和分組速率提升(PRI)等受支持的功能。
傳輸層:旨在解決傳統(tǒng)遠(yuǎn)程直接內(nèi)存訪問(RDMA)網(wǎng)絡(luò)的局限性,具備選擇性重傳、亂序交付、分組噴射以及先進的擁塞控制機制等特點。它支持多種傳輸模式,包括可靠有序交付(ROD)、可靠無序交付(RUD)和不可靠無序交付(UUD)。
擁塞控制:實現(xiàn)諸如內(nèi)聚流管理、加速速率調(diào)整、基于遙測的控制以及通過分組噴射進行自適應(yīng)路由等功能,以最大限度地減少尾部延遲并提升網(wǎng)絡(luò)性能。
安全性:在傳輸層融入基于作業(yè)的安全性,利用互聯(lián)網(wǎng)安全協(xié)議(IPSec)和數(shù)據(jù)包保護協(xié)議(PSP)功能,最大限度地減少加密開銷并支持硬件卸載。
新思科技業(yè)界首款超以太網(wǎng)和UALink IP解決方案
隨著超大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施的加速發(fā)展,必須擴展到數(shù)十萬個具有高效快速連接的加速器,才能夠支持處理大型語言模型中的數(shù)萬億個參數(shù)。在這樣的背景下,新思科技推出的業(yè)界首款超以太網(wǎng)IP和UALink IP解決方案猶如一場及時雨,滿足業(yè)界對高帶寬、低延遲互連技術(shù)的迫切需求。
新思科技的UALink IP解決方案的領(lǐng)先性能:
垂直擴展計算結(jié)構(gòu)的IP解決方案:新思科技UALink IP解決方案由PHY、控制器和驗證IP組成,助力開發(fā)者加快開發(fā),可支持多達(dá)1024個AI加速器的系統(tǒng)的上市時間;
高效、高速的數(shù)據(jù)傳輸:低功耗、高帶寬的新思科技UALink PHY IP專為數(shù)據(jù)密集型AI工作負(fù)載而設(shè)計,每通道可提供200Gbps的傳輸速度;
具有內(nèi)存共享功能的延遲優(yōu)化:新思科技UALink控制器IP通過從加速器到加速器的共享內(nèi)存訪問,幫助緩解AI硬件基礎(chǔ)設(shè)施的關(guān)鍵瓶頸;
內(nèi)置協(xié)議檢查:新思科技UALink驗證IP與新思科技硬件加速驗證解決方案相結(jié)合,為AI硬件提供快速可靠的驗證。
值得一提的是,2025年1月,新思科技、蘋果和阿里巴巴還加入了UALink聯(lián)盟董事會,共同推進下一代AI集群互連技術(shù)的發(fā)展。
而新思科技超以太網(wǎng)IP解決方案則具有以下領(lǐng)先性能:
可擴展后端網(wǎng)絡(luò)的IP解決方案:新思科技超以太網(wǎng)IP解決方案由PHY、MAC和PCS控制器以及驗證IP組成,為開發(fā)者開發(fā)可在單個網(wǎng)絡(luò)中支持多達(dá)一百萬個端點的系統(tǒng)提供了一條低風(fēng)險途徑;
全球領(lǐng)先的224G以太網(wǎng)PHY IP:經(jīng)過硅驗證的新思科技224G以太網(wǎng)PHY IP支持超以太網(wǎng)協(xié)議,并已在ECOC、OFC和DesignCon等多個行業(yè)展覽上展示其廣泛的互操作性;
獲得專利的糾錯實現(xiàn):新思科技超以太網(wǎng)MAC和PCS控制器IP提供高達(dá)1.6 Tbps的帶寬和超低延遲,可實現(xiàn)AI工作負(fù)載所需的實時處理;
無縫集成:MAC和PCS IP支持與超以太網(wǎng)堆棧更高層的接口,為交換機、AI加速器和智能NIC提供完整的芯片實現(xiàn);
加速驗證和確認(rèn):新思科技超以太網(wǎng)驗證IP有助于確保協(xié)議符合快速發(fā)展的行業(yè)標(biāo)準(zhǔn),從而更快、更高效地驗證AI和HPC系統(tǒng)。
寫在最后
隨著AI產(chǎn)業(yè)的迅猛發(fā)展,AI算力、運力需求大幅提升,這對于網(wǎng)絡(luò)互連技術(shù)也提出了全新的要求。人工智能集群網(wǎng)絡(luò)需要從Scale Up和Scale Out兩方面進行擴展,以建立基于標(biāo)準(zhǔn)的、具有高帶寬和低延遲的連接網(wǎng)絡(luò)。
新思科技最新的UALink和超以太網(wǎng)IP解決方案,再結(jié)合其PCIe 7.0、1.6T以太網(wǎng)、CXL、高帶寬存儲(HBM),以及通用芯片互連(UCIe)等互聯(lián)IP產(chǎn)品,將進一步推動人工智能和高性能計算在性能、可擴展性、效率以及互操作性方面達(dá)到新的高度,為AI產(chǎn)業(yè)的持續(xù)繁榮注入強大動力。