GTC25上,老黃拿出了最新也是最強(qiáng)的BLackWell Ultra GPU(B300),不過這個(gè)不是重點(diǎn),畢竟去年就發(fā)布了B100和B200,這個(gè)就是小升級(jí)。
除了最強(qiáng)GPU之外,同時(shí)也推出了基于NV72互聯(lián)的72卡的機(jī)柜。
這是機(jī)柜中,GPU的節(jié)點(diǎn),每層機(jī)架上面兩組GB300;每組GB300應(yīng)該是兩個(gè)GPU(B300),和一個(gè)CPU;所以一個(gè)機(jī)架應(yīng)該是,4個(gè)GPU,2個(gè)CPU
最上面是GPU節(jié)點(diǎn),右邊蓋子上應(yīng)該是液冷的走線。
整板的設(shè)計(jì)圖應(yīng)該如上所示。
這CPU和GPU以及NVLINK連接的圖,可以參照如下
可以看到,除了NVLINK之外,還為每個(gè)GPU配了一個(gè)800G的網(wǎng)卡,CX-8。
所以,72個(gè)GPU,需要18層。上面10層,下面8層,中間是NVLINK交換機(jī)。
中間則是NV-Switch的部分。14.4T的聚合帶寬。
除了單個(gè)機(jī)柜,還有八個(gè)機(jī)柜的superpod,里面集成了288 Grace CPU,576 Blackwell Utlra GPU(GB300),300TB HBM3e內(nèi)存,288個(gè) 800G的CX8;還有NVSwich,51.2T的網(wǎng)絡(luò)交換機(jī)(SpectrumS)
最終達(dá)到的效果也比較驚人:11.5 ExaFLOPS FP4。
可以說,通過8個(gè)機(jī)柜就可以達(dá)到E級(jí)別超算能力(只在FP4)下。
也算一個(gè)不小本事。
在芯片部分,BLackWell Ultra也就是B300。
與現(xiàn)有的B200相比,提升了50%以上的內(nèi)存和FP4計(jì)算能力。
整好是B100的兩倍。
Blackwell Ultra B300還增加HBM3e堆棧的容量。
從192GB增加到288GB。
B300的實(shí)現(xiàn)有兩種可能,一種是封裝了4個(gè)DIE,就是兩個(gè)B100(B100就是兩個(gè)DIE)的就計(jì)算能力,第二種就是還是2個(gè)DIE,只不過每個(gè)DIE上更多的SM核。
就像從B100升級(jí)到B200。
具體哪一種,還要看后續(xù),目前有沒有更詳細(xì)的手冊(cè)。
Blackwell Ultra可以使用DeepSeek R1-671B模型進(jìn)行了評(píng)估。
每秒發(fā)送多達(dá)1000個(gè)token。
(這個(gè)應(yīng)該不是最大的,ISSCC上的groq的LPU也能達(dá)到上千的token)。
與之相比,H100秒只提供最多100個(gè)token。
因此,吞吐量增加了10倍,將處理較大查詢的時(shí)間從1.5分鐘縮短到10秒。
并且預(yù)告了下一代的rubin和在再下一代的Feynman
其實(shí)下一代不是一個(gè)芯片,而是一個(gè)芯片組。
比如rubin的GPU預(yù)計(jì)會(huì)換成HBM4,同時(shí)還有更大的計(jì)算能力。
NVlink SWITCH能力也提升了。(3600GB/s)
還有1.6T的網(wǎng)卡CX9,還可以用CPO全光的模塊
和更大容量的交換,102.4T的交換機(jī)。
這一代是72個(gè)GPU的NVLINK組合的機(jī)柜。
下一代就是576個(gè)GPU的nvlink的機(jī)柜了。
scaleup 的能力從72卷到了576,這個(gè)超節(jié)點(diǎn)的能力也沒有誰了。
單個(gè)芯片太難卷了。
現(xiàn)在就要卷集群。
從單個(gè)GPU到多個(gè)GPU的機(jī)架,再到多個(gè)機(jī)架的集群(POD)。
英偉達(dá)把系統(tǒng)集成商的活干了,并且管這玩意叫大GPU。
這種方案,直接對(duì)接最終客戶,
提供交鑰匙的方案(turn key)。
還配套發(fā)布Dynamo推理加速庫和Mission Control運(yùn)維平臺(tái),并通過AI托管服務(wù)(Instant AI Factory)降低運(yùn)維門檻。
從硬件到生態(tài)的全棧閉環(huán)
有點(diǎn)超越傳統(tǒng)芯片廠的范疇,形成軟硬一體的生態(tài)系統(tǒng):
這屬于AI factory的范疇了。
這種芯片廠直接對(duì)接客戶方的方式。
沒有了系統(tǒng)集成廠商。
傳統(tǒng),業(yè)界采取是:
芯片商-系統(tǒng)商-客戶三級(jí)的方式。
(例如intel芯片由DELL做成服務(wù)器賣給meta)
直接變成了芯片商(nvidia)-客戶(meta)兩級(jí)的方式。
一方面,在AI智算時(shí)代,這個(gè)系統(tǒng)集成的工作非常復(fù)雜了不少,我們前面就可以看到。
需要CPU,GPU,NVswitch,NIC,switch多系統(tǒng)配合,
另一方面,AI系統(tǒng)的調(diào)優(yōu)和優(yōu)化,很多原廠才能具備的能力
或者原廠的能力也不太夠。
因?yàn)槟P驮谧?,各種技術(shù)棧和未知點(diǎn)太多了。
AI大神李沐就吐槽過,用過英偉達(dá)的智算集群,在訓(xùn)練時(shí),出了很多問題,給他們解決了很多BUG。
這種能力,傳統(tǒng)的系統(tǒng)集成廠商積累的就更少了。
智算集群這一模式直接沖擊傳統(tǒng)集成商的兩大生存空間。
AMD收購系統(tǒng)集成商ZT system,也是要做AI智算集群,仿效英偉達(dá)提供交鑰匙方案。
看來,不論老黃還是蘇媽都看上這個(gè)市場,不想給中間商賺差價(jià)的機(jī)會(huì)啊。
我是歪睿老哥,一個(gè)喜歡科普的架構(gòu)師,如果你覺得本文還不錯(cuò),歡迎寫出你的觀點(diǎn),點(diǎn)贊,在看,分享。