• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

從GPU芯片到智算集群,英偉達(dá)不給中間商賺差價(jià)

03/20 10:20
581
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

GTC25上,老黃拿出了最新也是最強(qiáng)的BLackWell Ultra GPU(B300),不過這個(gè)不是重點(diǎn),畢竟去年就發(fā)布了B100和B200,這個(gè)就是小升級(jí)。

除了最強(qiáng)GPU之外,同時(shí)也推出了基于NV72互聯(lián)的72卡的機(jī)柜。

這是機(jī)柜中,GPU的節(jié)點(diǎn),每層機(jī)架上面兩組GB300;每組GB300應(yīng)該是兩個(gè)GPU(B300),和一個(gè)CPU;所以一個(gè)機(jī)架應(yīng)該是,4個(gè)GPU,2個(gè)CPU

最上面是GPU節(jié)點(diǎn),右邊蓋子上應(yīng)該是液冷的走線。

整板的設(shè)計(jì)圖應(yīng)該如上所示。

這CPU和GPU以及NVLINK連接的圖,可以參照如下

可以看到,除了NVLINK之外,還為每個(gè)GPU配了一個(gè)800G的網(wǎng)卡,CX-8。

所以,72個(gè)GPU,需要18層。上面10層,下面8層,中間是NVLINK交換機(jī)

中間則是NV-Switch的部分。14.4T的聚合帶寬。

除了單個(gè)機(jī)柜,還有八個(gè)機(jī)柜的superpod,里面集成了288 Grace CPU,576 Blackwell Utlra GPU(GB300),300TB HBM3e內(nèi)存,288個(gè) 800G的CX8;還有NVSwich,51.2T的網(wǎng)絡(luò)交換機(jī)(SpectrumS)

最終達(dá)到的效果也比較驚人:11.5 ExaFLOPS FP4。

可以說,通過8個(gè)機(jī)柜就可以達(dá)到E級(jí)別超算能力(只在FP4)下。

也算一個(gè)不小本事。

芯片部分,BLackWell Ultra也就是B300。

與現(xiàn)有的B200相比,提升了50%以上的內(nèi)存和FP4計(jì)算能力。

整好是B100的兩倍。

Blackwell Ultra B300還增加HBM3e堆棧的容量。

從192GB增加到288GB。

B300的實(shí)現(xiàn)有兩種可能,一種是封裝了4個(gè)DIE,就是兩個(gè)B100(B100就是兩個(gè)DIE)的就計(jì)算能力,第二種就是還是2個(gè)DIE,只不過每個(gè)DIE上更多的SM核。

就像從B100升級(jí)到B200。

具體哪一種,還要看后續(xù),目前有沒有更詳細(xì)的手冊(cè)。

Blackwell Ultra可以使用DeepSeek R1-671B模型進(jìn)行了評(píng)估。

每秒發(fā)送多達(dá)1000個(gè)token。

(這個(gè)應(yīng)該不是最大的,ISSCC上的groq的LPU也能達(dá)到上千的token)。

與之相比,H100秒只提供最多100個(gè)token。

因此,吞吐量增加了10倍,將處理較大查詢的時(shí)間從1.5分鐘縮短到10秒。

并且預(yù)告了下一代的rubin和在再下一代的Feynman

其實(shí)下一代不是一個(gè)芯片,而是一個(gè)芯片組。

比如rubin的GPU預(yù)計(jì)會(huì)換成HBM4,同時(shí)還有更大的計(jì)算能力。

NVlink SWITCH能力也提升了。(3600GB/s)

還有1.6T的網(wǎng)卡CX9,還可以用CPO全光的模塊

和更大容量的交換,102.4T的交換機(jī)。

這一代是72個(gè)GPU的NVLINK組合的機(jī)柜。

下一代就是576個(gè)GPU的nvlink的機(jī)柜了。

scaleup 的能力從72卷到了576,這個(gè)超節(jié)點(diǎn)的能力也沒有誰了。

單個(gè)芯片太難卷了。

現(xiàn)在就要卷集群。

從單個(gè)GPU到多個(gè)GPU的機(jī)架,再到多個(gè)機(jī)架的集群(POD)。

英偉達(dá)把系統(tǒng)集成商的活干了,并且管這玩意叫大GPU。

這種方案,直接對(duì)接最終客戶,

提供交鑰匙的方案(turn key)。

還配套發(fā)布Dynamo推理加速庫和Mission Control運(yùn)維平臺(tái),并通過AI托管服務(wù)(Instant AI Factory)降低運(yùn)維門檻。

硬件到生態(tài)的全棧閉環(huán)

有點(diǎn)超越傳統(tǒng)芯片廠的范疇,形成軟硬一體的生態(tài)系統(tǒng):

這屬于AI factory的范疇了。

這種芯片廠直接對(duì)接客戶方的方式。

沒有了系統(tǒng)集成廠商。

傳統(tǒng),業(yè)界采取是:

芯片商-系統(tǒng)商-客戶三級(jí)的方式。

(例如intel芯片由DELL做成服務(wù)器賣給meta)

直接變成了芯片商(nvidia)-客戶(meta)兩級(jí)的方式。

一方面,在AI智算時(shí)代,這個(gè)系統(tǒng)集成的工作非常復(fù)雜了不少,我們前面就可以看到。

需要CPU,GPU,NVswitch,NIC,switch多系統(tǒng)配合,

另一方面,AI系統(tǒng)的調(diào)優(yōu)和優(yōu)化,很多原廠才能具備的能力

或者原廠的能力也不太夠。

因?yàn)槟P驮谧?,各種技術(shù)棧和未知點(diǎn)太多了。

AI大神李沐就吐槽過,用過英偉達(dá)的智算集群,在訓(xùn)練時(shí),出了很多問題,給他們解決了很多BUG。

這種能力,傳統(tǒng)的系統(tǒng)集成廠商積累的就更少了。

智算集群這一模式直接沖擊傳統(tǒng)集成商的兩大生存空間。

AMD收購系統(tǒng)集成商ZT system,也是要做AI智算集群,仿效英偉達(dá)提供交鑰匙方案。

看來,不論老黃還是蘇媽都看上這個(gè)市場,不想給中間商賺差價(jià)的機(jī)會(huì)啊。

我是歪睿老哥,一個(gè)喜歡科普的架構(gòu)師,如果你覺得本文還不錯(cuò),歡迎寫出你的觀點(diǎn),點(diǎn)贊,在看,分享。

英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄