作者:鵬程
在人工智能與高性能計(jì)算領(lǐng)域,英偉達(dá)憑借多項(xiàng)核心技術(shù)占據(jù)行業(yè)領(lǐng)先地位。其中,除廣為人知的?AI?硬件、CUDA?生態(tài)外,NVLink?內(nèi)存共享端口技術(shù)同樣是其重要的核心競爭力,堪稱構(gòu)筑起英偉達(dá)市場(chǎng)優(yōu)勢(shì)的關(guān)鍵護(hù)城河之一。然而,隨著技術(shù)的發(fā)展與行業(yè)競爭的加劇,NVLink?正面臨諸多挑戰(zhàn),其作為護(hù)城河的穩(wěn)固性引發(fā)廣泛關(guān)注。
?01NVLink如何構(gòu)建英偉達(dá)AI護(hù)城河?
早在?2014?年,英偉達(dá)便首次向外界公布了?NVLink?協(xié)議,這一創(chuàng)新技術(shù)的誕生,為多?GPU?協(xié)同工作開啟了新的篇章。2016?年,NVLink 1.0?在?DGX - 1?系統(tǒng)中首次得到實(shí)際應(yīng)用,成功連接?8?個(gè)?P100 GPU。彼時(shí),傳統(tǒng)的?PCIe(Peripheral Component Interconnect Express)互聯(lián)技術(shù)受限于帶寬和延遲,已難以滿足高性能計(jì)算(HPC)應(yīng)用日益增長的需求。NVLink 1.0?以?80GB/s?的帶寬橫空出世,有效緩解了數(shù)據(jù)傳輸瓶頸,極大地提升了多?GPU?系統(tǒng)的協(xié)同效率,開創(chuàng)了高性能計(jì)算領(lǐng)域多?GPU?協(xié)同工作的新局面。
此后,NVLink?歷經(jīng)多次重要的技術(shù)迭代,持續(xù)突破性能極限。2017?年,NVLink 2.0?版本推出,引入了?NVSwitch?這一關(guān)鍵組件,進(jìn)一步拓展了連接規(guī)模。借助?NVSwitch,多?GPU?和?CPU?節(jié)點(diǎn)能夠在更大范圍內(nèi)構(gòu)建起復(fù)雜的互聯(lián)網(wǎng)絡(luò),每個(gè)鏈接的帶寬提升至?25GB/s,雙向總帶寬達(dá)到?50GB/s。以?V100 GPU?為例,其最高可支持?6?個(gè)鏈接,實(shí)現(xiàn)了?300GB/s?的雙向總帶寬,為大規(guī)模計(jì)算任務(wù)提供了更強(qiáng)大的支持。
2020?年發(fā)布的?NVLink 3.0?在技術(shù)上再次取得重大突破,將每個(gè)差分對(duì)的數(shù)據(jù)傳輸速率從?25Gbit/s?提升至?50Gbit/s,同時(shí)對(duì)差分對(duì)數(shù)量進(jìn)行優(yōu)化,從?8?個(gè)減少到?4?個(gè)。以基于?Ampere?架構(gòu)的?A100 GPU?為例,其?12?個(gè)鏈接帶來了高達(dá)?600GB/s?的總帶寬,數(shù)據(jù)傳輸效率得到顯著提升。
到了?2022?年,NVLink 4.0?在信號(hào)技術(shù)方面實(shí)現(xiàn)重要革新,從?NRZ?進(jìn)化到?PAM4。基于?Hopper?架構(gòu)的?GPU?憑借?18?個(gè)?NVLink 4.0?鏈接,實(shí)現(xiàn)了?900GB/s?的總帶寬,進(jìn)一步鞏固了英偉達(dá)在高速互聯(lián)領(lǐng)域的技術(shù)優(yōu)勢(shì)。而在?COMPUTEX 2025?上,英偉達(dá)推出的第五代?NVLink?更是將帶寬提升至驚人的?1.2TB/s,不斷刷新高性能計(jì)算領(lǐng)域的性能上限。
同時(shí),隨著技術(shù)的演進(jìn),NVLink的應(yīng)用場(chǎng)景也不斷拓展。在人工智能與深度學(xué)習(xí)領(lǐng)域,大語言模型等AI模型訓(xùn)練需要處理海量參數(shù)和數(shù)據(jù),單GPU的內(nèi)存和計(jì)算能力遠(yuǎn)遠(yuǎn)不足,NVLink允許多GPU共享統(tǒng)一內(nèi)存池,加速模型訓(xùn)練。
隨著技術(shù)的不斷演進(jìn),NVLink?的應(yīng)用場(chǎng)景也在持續(xù)拓展。在人工智能與深度學(xué)習(xí)領(lǐng)域,大語言模型等?AI?模型訓(xùn)練面臨著海量參數(shù)和數(shù)據(jù)處理的巨大挑戰(zhàn),單?GPU?的內(nèi)存和計(jì)算能力遠(yuǎn)遠(yuǎn)無法滿足需求。NVLink?技術(shù)允許眾多?GPU?共享統(tǒng)一內(nèi)存池,通過高效的數(shù)據(jù)傳輸和協(xié)同計(jì)算,大幅加速模型訓(xùn)練進(jìn)程。實(shí)測(cè)數(shù)據(jù)顯示,采用?NVLink?互聯(lián)的千卡集群,參數(shù)同步效率提升?2?倍以上,整體算力利用率從?60%?躍升至?90%?量級(jí)。正是憑借?NVLink?技術(shù)構(gòu)筑起的強(qiáng)大技術(shù)壁壘,英偉達(dá)得以在全球?AI?訓(xùn)練市場(chǎng)占據(jù)霸主地位,壟斷全球高端?GPU?市場(chǎng),成為高性能計(jì)算領(lǐng)域的領(lǐng)軍企業(yè)。
?02NVLink 的競爭對(duì)手越來越多了
當(dāng)前,英偉達(dá)?GPU?憑借高效率的運(yùn)算能力,廣泛應(yīng)用于全球各高算力領(lǐng)域,使得?NVLink?在事實(shí)上成為行業(yè)互聯(lián)標(biāo)準(zhǔn)。然而,這一局面也引發(fā)了其他科技巨頭的競爭。為了在高性能計(jì)算和?AI?領(lǐng)域與英偉達(dá)一爭高下,AMD、英特爾紛紛推出?CXL、UCIe?等互聯(lián)方案。這些競爭對(duì)手面臨著艱難的抉擇:若不加速與市場(chǎng)需求和現(xiàn)有生態(tài)的兼容適配,其產(chǎn)品很可能在激烈的競爭中被邊緣化;反之,在技術(shù)研發(fā)和市場(chǎng)推廣上則需投入巨大成本。
此外,行業(yè)內(nèi)的競爭態(tài)勢(shì)愈發(fā)激烈。UALink?聯(lián)盟近期正式發(fā)布?1.0?標(biāo)準(zhǔn),為市場(chǎng)帶來新的技術(shù)選擇。國內(nèi)首家對(duì)標(biāo)英偉達(dá)?“NVLink&NVSwitch”?的互聯(lián)通信方案提供商?——?北京探微芯聯(lián)科技有限公司,也宣布完成數(shù)千萬人民幣天使輪融資。探微芯聯(lián)源自清華大學(xué)類腦計(jì)算研究中心,專注于?GPU?與?GPU?間通信協(xié)議和交換芯片的研發(fā),其自研的?ACCLink?&?ACCSwitch?技術(shù),在性能和功能上可與英偉達(dá)的?NVLink?&?NVSwitch?技術(shù)相媲美,為國產(chǎn)高性能計(jì)算互聯(lián)技術(shù)的發(fā)展注入新的活力,也給英偉達(dá)的?NVLink?技術(shù)帶來了新的競爭壓力。
?03英偉達(dá)開放NVLink
在?2025?年臺(tái)北國際電腦展上,英偉達(dá)首席執(zhí)行官黃仁勛宣布開放?NVLink Fusion?技術(shù)授權(quán),允許聯(lián)發(fā)科、美滿電子、富士通、高通等?12?家第三方企業(yè)接入其高速互連體系。這一舉措預(yù)計(jì)將帶動(dòng)?AI?服務(wù)器制造成本下降?18%。表面上看,開放?NVLink?意味著英偉達(dá)正在放棄其長期以來堅(jiān)持的硬件閉環(huán)優(yōu)勢(shì),但深入分析其背后邏輯可以發(fā)現(xiàn),這實(shí)則是英偉達(dá)戰(zhàn)略轉(zhuǎn)型的重要一步。通過?NVLink Fusion?吸引第三方硬件接入,英偉達(dá)旨在擴(kuò)大?CUDA?生態(tài)的?“勢(shì)力范圍”,實(shí)現(xiàn)從單純的硬件賣家向?“技術(shù)標(biāo)準(zhǔn)輸出?+?區(qū)域產(chǎn)能綁定”?模式的蛻變,完成從?“賣鏟人”?到?“修路者”?的角色轉(zhuǎn)變。
近期,英偉達(dá)首度推出?NVLink Fusion,正式進(jìn)軍?ASIC?市場(chǎng),與?UALink?聯(lián)盟展開正面競爭。英偉達(dá)執(zhí)行長黃仁勛表示,目前?90%?的?ASIC?專案都將失敗,并強(qiáng)調(diào)英偉達(dá)的?ASIC?產(chǎn)品會(huì)比其他競爭者成長更快。然而,英偉達(dá)開放?NVLink Fusion?技術(shù)授權(quán)的背后,也透露出其對(duì)技術(shù)護(hù)城河被打破的擔(dān)憂。隨著越來越多競爭對(duì)手的涌現(xiàn)和技術(shù)的快速發(fā)展,英偉達(dá)不得不通過開放技術(shù)來鞏固自身的市場(chǎng)地位,但這折射出其核心技術(shù)正面臨著更多的競爭和挑戰(zhàn)。
?04華為超節(jié)點(diǎn)技術(shù)或打破NVLink壟斷
盡管英偉達(dá)開放了?NVLink?技術(shù)授權(quán),但遺憾的是,首批獲得授權(quán)的?12?家企業(yè)中,沒有一家來自大陸。在國內(nèi),如何發(fā)展相關(guān)技術(shù)成為構(gòu)建大規(guī)模國產(chǎn)?GPU?集群的關(guān)鍵所在。近期,“超節(jié)點(diǎn)”?這一概念在?AI?圈迅速走紅。超節(jié)點(diǎn)(SuperPod)最初由英偉達(dá)公司提出,在?AI?發(fā)展進(jìn)程中,隨著大模型參數(shù)規(guī)模不斷增長,對(duì)?GPU?集群的規(guī)模需求也水漲船高,從千卡級(jí)逐步發(fā)展到萬卡級(jí)、十萬卡級(jí),未來甚至可能邁向更大規(guī)模。構(gòu)建大規(guī)模?GPU?集群主要有兩種方式:Scale Up?和?Scale Out。Scale Up?即向上擴(kuò)展,也稱為縱向擴(kuò)展,通過增加單節(jié)點(diǎn)的資源數(shù)量來提升算力;Scale Out?則是向外擴(kuò)展,又稱橫向擴(kuò)展,通過增加節(jié)點(diǎn)的數(shù)量來實(shí)現(xiàn)規(guī)模增長。例如,在每臺(tái)服務(wù)器中增加幾塊?GPU,這就是?Scale Up,此時(shí)一臺(tái)服務(wù)器可視為一個(gè)節(jié)點(diǎn);而通過網(wǎng)絡(luò)將多臺(tái)電腦(節(jié)點(diǎn))連接起來,則屬于?Scale Out。
近期,華為高調(diào)發(fā)布了?AI?領(lǐng)域的重磅技術(shù)?——CloudMatrix 384?超節(jié)點(diǎn)。該超節(jié)點(diǎn)以?384?張昇騰算力卡組成,在目前已商用的超節(jié)點(diǎn)中單體規(guī)模最大,可提供高達(dá)?300 PFLOPs?的密集?BF16?算力,接近英偉達(dá)?GB200 NVL72?系統(tǒng)算力的兩倍。華為?CloudMatrix 384?超節(jié)點(diǎn)通過超高帶寬?Scale - Up?新型高速總線網(wǎng)絡(luò),實(shí)現(xiàn)了從?“傳統(tǒng)以太網(wǎng)”?向?“共享總線網(wǎng)絡(luò)”?的重大演進(jìn),將資源互聯(lián)帶寬提升了?10?倍以上,在關(guān)鍵特性上超越了英偉達(dá)?NVL72?超節(jié)點(diǎn)。
這種集群計(jì)算技術(shù)有效地彌補(bǔ)了國產(chǎn)芯片在先進(jìn)制程和算力上的不足。華為華為首席執(zhí)行官任正非在采訪中也表示,“單芯片還是落后美國一代,我們用數(shù)學(xué)補(bǔ)物理、非摩爾補(bǔ)摩爾,用群計(jì)算補(bǔ)單芯片,在結(jié)果上也能達(dá)到實(shí)用狀況?!比握茄a(bǔ)充說,“中國在中低端芯片上是可以有機(jī)會(huì)的,中國數(shù)十、上百家芯片公司都很努力。特別是化合物半導(dǎo)體機(jī)會(huì)更大。硅基芯片,我們用數(shù)學(xué)補(bǔ)物理、非摩爾補(bǔ)摩爾,利用集群計(jì)算的原理,可以達(dá)到滿足我們現(xiàn)在的需求。”他還表示,“芯片問題其實(shí)沒必要擔(dān)心,用疊加和集群等方法,計(jì)算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)?。軟件方面,將來是千百種開源軟件滿足整個(gè)社會(huì)需要?!?/p>
值得注意的是,英偉達(dá)更早就有超節(jié)點(diǎn)了,但最多只能做到72塊卡。這主要是因?yàn)橛ミ_(dá)的卡和卡之間是用銅纜通信,即所謂的NVLink,其可以保證每秒百g級(jí)的通信效率,并且不需要經(jīng)過CPU,這樣才能保障多卡之間的訓(xùn)練和推理,會(huì)隨著卡數(shù)的增加而提升吞吐量和效率。但NVLink也有問題,不能超過3米,否則信號(hào)會(huì)急劇衰減,所以,英偉達(dá)的多卡超節(jié)點(diǎn)只能放在一個(gè)機(jī)柜里,最多塞72塊,這也是他的上限。
與之相比,華為雖然昇騰單卡性能目前與英偉達(dá)仍存在一定差距,但華為作為通訊領(lǐng)域出身的企業(yè),在通信技術(shù)方面具有得天獨(dú)厚的優(yōu)勢(shì),處于行業(yè)領(lǐng)先地位。華為另辟蹊徑,采用光通信替代銅纜通信,這一創(chuàng)新舉措能夠在幾乎無限長度的傳輸距離下,保障比?NVLink?更高的帶寬。因此,華為的超節(jié)點(diǎn)不要求算力卡集中在一個(gè)機(jī)柜內(nèi),甚至可以分布在不同機(jī)房。這種優(yōu)勢(shì)使得華為能夠更大規(guī)模地堆疊算力卡,384?超節(jié)點(diǎn)的實(shí)際算力節(jié)點(diǎn)已遠(yuǎn)超英偉達(dá)的?72?超節(jié)點(diǎn),并且未來還有進(jìn)一步擴(kuò)展的空間。此外,華為光通信技術(shù)在模塊化和異構(gòu)化方面表現(xiàn)出色,不僅支持昇騰卡,還能兼容其他各家的?TPU,形成了一個(gè)開放、靈活的生態(tài)系統(tǒng)。
?05英偉達(dá)也瞄準(zhǔn)光通信技術(shù)
顯然,英偉達(dá)也意識(shí)到了相關(guān)問題,一直以來都在布局研究光通信技術(shù)和產(chǎn)品。英偉達(dá)正在為當(dāng)前及下一代光學(xué)系統(tǒng)優(yōu)先采用硅光技術(shù)。2025?年?3?月,英偉達(dá)宣布推出全球首個(gè)采用新型微環(huán)調(diào)制器的?1.6T CPO?系統(tǒng),并表示其?Quantum-X?硅光交換機(jī)將于?2025?年下半年出貨,Spectrum-X?系統(tǒng)也將在?2026?年下半年跟進(jìn)。
然而,在光通信技術(shù)生態(tài)建設(shè)方面,英偉達(dá)面臨著諸多挑戰(zhàn)。Meta?和微軟倡導(dǎo)圍繞?CPO?建立新的生態(tài)系統(tǒng),并致力于制定光學(xué)引擎制造的行業(yè)標(biāo)準(zhǔn),但初期產(chǎn)品仍將基于專有設(shè)計(jì)。這對(duì)于傾向于自行設(shè)計(jì)服務(wù)器、交換機(jī)和所有互連設(shè)備的大客戶而言,成為了大規(guī)模部署的一大障礙。為了加速?CPO?技術(shù)的部署,英偉達(dá)計(jì)劃向終端用戶提供集成了?CPO?的完整系統(tǒng),并全面負(fù)責(zé)系統(tǒng)的運(yùn)行和維護(hù)。如果此類系統(tǒng)能夠帶來顯著的性能提升,客戶或許會(huì)愿意接受。但從長遠(yuǎn)來看,完全依賴英偉達(dá)的設(shè)計(jì)并非?Meta、微軟等大型云公司可接受的長期戰(zhàn)略。要實(shí)現(xiàn)?CPO?技術(shù)的大規(guī)模部署,構(gòu)建一個(gè)全新的、充滿競爭的生態(tài)系統(tǒng)至關(guān)重要。
博通公司也在日前宣布,開始交付?Tomahawk 6?交換機(jī)系列芯片,該系列單芯片提供?102.4 Tbps?的交換容量,是目前市場(chǎng)上以太網(wǎng)交換機(jī)帶寬的兩倍。Tomahawk 6?專為下一代可擴(kuò)展和可擴(kuò)展?AI?網(wǎng)絡(luò)而設(shè)計(jì),通過支持?100G / 200G SerDes?和共封裝光學(xué)模塊(CPO),提供更高的靈活性。