作者 | 方文三
自2024年10月成立以來,UALink聯(lián)盟已吸引超過六十五家企業(yè)加入,這些企業(yè)來自云服務提供商、芯片與知識產(chǎn)權供應商、軟件公司、系統(tǒng)原始設備制造商等多個行業(yè)。
在這一生態(tài)系統(tǒng)中,不同廠商的產(chǎn)品能夠?qū)崿F(xiàn)更佳的協(xié)同工作,企業(yè)可以根據(jù)自身需求選擇合適的硬件和軟件,而不必受限于單一廠商的技術。
阿里、蘋果、新思科技加入UALink聯(lián)盟
近日,UALink聯(lián)盟發(fā)布官方公告,宣布阿里云、蘋果公司以及新思科技已正式加入董事會,共同致力于推動下一代人工智能集群互連技術的發(fā)展。
據(jù)先前報道,UALink 聯(lián)盟成立于2024年10月,由AMD、亞馬遜AWS、Astera Labs、思科、谷歌、慧與、英特爾、Meta和微軟九家知名企業(yè)共同發(fā)起,旨在聯(lián)合挑戰(zhàn)英偉達在人工智能數(shù)據(jù)中心互聯(lián)領域的領先地位。
蘋果公司在董事會中的影響力可能會激發(fā)公眾對于其開發(fā)數(shù)據(jù)中心專用芯片的種種猜想,該芯片預期將利用UALink互連技術為iPhone提供人工智能服務。
UALink 聯(lián)盟致力于為AI Pod和集群中加速器與交換機之間的縱向擴展通信制定一套高速、低延遲的互聯(lián)規(guī)范,以期在該領域挑戰(zhàn)英偉達NVLink等互聯(lián)技術的主導地位。
該聯(lián)盟的首個正式版規(guī)范UALink 1.0計劃于今年向貢獻者成員發(fā)布,并將于明年第一季度向公眾開放審查。
該規(guī)范預計將實現(xiàn)AI Pod中最多1024個加速器的每通道擴展連接,達到高達200Gbps的擴展連接速度。
UALink 聯(lián)盟此次迎來三大行業(yè)巨頭的加入,標志著UALink技術獲得了更廣泛的業(yè)界支持,有望推動其在人工智能領域的廣泛應用。
UALink 聯(lián)盟主席Kurtis Bowman對新成員的加入表示熱烈歡迎,并指出,聯(lián)盟成員已超過65家,成員類型包括云服務提供商、芯片與IP技術供應商、軟件公司以及系統(tǒng)OEM廠商等。
UALink 1.0規(guī)范預計將于2025年第一季度正式發(fā)布,屆時將支持每通道高達200Gbps的擴展連接,最多可在AI Pod內(nèi)連接1024個加速器。
UALink與英偉達的實力較量
①性能對決:在數(shù)據(jù)傳輸速率方面,英偉達的 NVLink 技術始終占據(jù)行業(yè)領先地位。
以第五代 NVLink 為例,單個NVIDIA Blackwell Tensor Core GPU支持高達18 個NVLink 100GB/s 連接,總帶寬達到 1.8TB/s,這一成就在相當長的一段時間內(nèi)是業(yè)界難以超越的。
然而,UALink 1.0 的問世打破了這一局面。
據(jù) TechCrunch 報道,UALink 1.0 計劃通過單個計算 Pod 連接多達1024個AI芯片,并且單個通道速率可達 200Gbps,在大規(guī)模芯片互聯(lián)的場景下,其總帶寬能力令人矚目。
在處理大規(guī)模深度學習模型訓練時,大量模型參數(shù)需要在芯片間迅速傳輸,UALink 1.0 的UALink作為新一代AI/ML集群性能的高速加速器互連技術,以其低延遲和高帶寬特性著稱。
原生支持高性能內(nèi)存語義訪問,與GPU等AI加速器的編程模型高度兼容,能在單一超節(jié)點內(nèi)實現(xiàn)大規(guī)模AI計算節(jié)點的互連。
UALink的優(yōu)勢還體現(xiàn)在顯存共享、支持Switch組網(wǎng)模式以及其超高的帶寬和極低的時延性能上。
該技術規(guī)范定義了一種創(chuàng)新的I/O架構,單通道傳輸速率可達200 Gbps,支持多達1024個AI加速器的互連。
相較于傳統(tǒng)以太網(wǎng)(Ethernet)架構,UALink在性能和GPU互連規(guī)模方面均展現(xiàn)出顯著優(yōu)勢,其互連規(guī)模遠超Nvidia NVLink技術。
以Dell PowerEdge XE9680服務器為例,單臺服務器最多可支持8塊AMD Instinct或Nvidia HGX GPU。
采用UALink技術后,可實現(xiàn)百臺級服務器集群內(nèi)GPU的直接低延遲訪問。
更為重要的是,UALink在加速器、交換芯片、Retimer等互連技術上保持中立,不偏袒任何特定廠商,致力于構建一個開放創(chuàng)新的技術生態(tài)系統(tǒng)。
②生態(tài)系統(tǒng)之爭:憑借在GPU領域的深厚積累及市場領導地位,英偉達構建了一個龐大且成熟的生態(tài)系統(tǒng)。
其CUDA平臺作為該生態(tài)系統(tǒng)的基石,向開發(fā)者提供了廣泛的開發(fā)工具和庫,使得他們能夠利用英偉達的GPU和NVLink技術進行高效的應用開發(fā)。
在COMPUTEX 2023大會上,英偉達透露,CUDA平臺已擁有超過四百萬的開發(fā)者,三千多個應用程序,以及高達四千萬次的歷史下載量。
眾多企業(yè)和開發(fā)者基于英偉達的生態(tài)系統(tǒng),進行深度學習、數(shù)據(jù)分析等應用的開發(fā),形成了顯著的用戶粘性。
相對而言,UALink的生態(tài)系統(tǒng)尚處于成長階段,但其開放標準的策略已吸引了眾多企業(yè)的參與。
對于數(shù)據(jù)中心運營商而言,他們將擁有更多元化的選擇,不再受限于英偉達的技術和產(chǎn)品,從而能夠根據(jù)自身需求和預算,靈活選擇最適宜的互聯(lián)技術和硬件設備。
這將有助于降低數(shù)據(jù)中心的建設成本,提升服務質(zhì)量和效率,推動整個數(shù)據(jù)中心行業(yè)的健康發(fā)展。
UALink提供了追趕英偉達的機會
盡管英偉達已將NVSwitch應用于NVIDIA DGX GB200 NVL72等產(chǎn)品,但AI加速器市場并非僅由英偉達一家獨占。
例如,英特爾今年已銷售數(shù)億美元、數(shù)萬個AI加速器,而AMD今年也將銷售數(shù)十億美元的MI300X。
擁有UALink技術后,Broadcom等公司能夠生產(chǎn)UALink交換機,以協(xié)助其他公司擴展規(guī)模,并在多家公司的加速器中使用這些交換機。
目前,UALink已成為最具潛力的AI服務器Scale UP(縱向/垂直擴展)互連開放標準,并正在迅速構建起一個AI服務器Scale Up互連技術的超級開放生態(tài)。
截至11月,UALink聯(lián)盟已有三十余家廠商加入,并持續(xù)擴展;其成員涵蓋了云計算和應用、硬件、芯片、IP等產(chǎn)業(yè)全生態(tài)。
這一變革主要源于超大規(guī)模人工智能集群對網(wǎng)絡帶寬和低延遲需求的增加,導致行業(yè)集群規(guī)模不斷擴大。
網(wǎng)絡連接成為釋放AI集群性能潛力的關鍵因素
在規(guī)模較小的人工智能集群中,例如包含10萬個XPU的集群,網(wǎng)絡連接的價值量占比大約為XPU總價值的5%至10%。
然而,當人工智能集群規(guī)模增長至50萬至100萬個XPU時,該比例顯著上升至15%至20%的價值占比。
預計到2025年,北美四大超級云服務提供商的資本開支將增至3150億美元,較前一年增長46%,資本開支的同比增速保持在高位,顯示出對算力需求市場的樂觀態(tài)度。
因此,建立更大規(guī)模的人工智能集群已成為海外超級云服務提供商的共同戰(zhàn)略。
目前,英偉達的專有網(wǎng)絡連接技術NVLink+InfiniBand,已成為其軟件生態(tài)CUDA之外的硬件護城河。
面對英偉達芯片算力的壟斷,行業(yè)正尋求突破,特別是隨著全球推理業(yè)務需求的首次增長以及定制芯片ASIC市場份額的持續(xù)擴大,為行業(yè)打破英偉達壟斷提供了極佳的時機。
結尾:
芯片領域的競爭實質(zhì)上是軟件生態(tài)系統(tǒng)之間的較量,這也是業(yè)界試圖通過網(wǎng)絡硬件技術如NVLink打破英偉達市場主導地位的關鍵所在。
顯而易見,當前業(yè)界兩大陣營,即UALink和超以太網(wǎng)聯(lián)盟UEC,正分別針對NVLink和InfiniBand進行技術突破。
回顧歷史,從挖礦時代專用集成電路ASIC的崛起,逐漸取代了通用圖形處理單元GPU成為挖礦的主要力量,到如今人工智能計算芯片ASIC的再次興起;
業(yè)界聯(lián)盟正率先通過網(wǎng)絡硬件技術如NVLink來突破英偉達的市場壟斷,歷史似乎正準備再次重演。
部分資料參考:半導體行業(yè)觀察:《NVLink迎來勁敵:九大巨頭,正式成立UALink聯(lián)盟》,阿里云:《阿里云當選UALink聯(lián)盟董事會成員,推進新一代GPU互連技術》,Synopsys:《如何利用業(yè)界首發(fā)的超以太網(wǎng)和UALink IP,高效互連技術擴展HPC和AI加速器生態(tài)系統(tǒng)》,電子工程世界:《英偉達的籌碼,又少了一枚》,新財富:《英偉達還能走多遠》