• 正文
    • 新“核彈”要等明年,舊“核彈”還能戰(zhàn)
    • DeepSeek讓英偉達(dá)“賣得越多,賺得越多”
    • 英偉達(dá)的終極野望:要做AI的超級工廠?
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

不止新芯片!GTC25揭秘英偉達(dá)生態(tài)野心:成為AI超級工廠

03/21 12:13
337
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

來源:雷科技AI硬件組 |?編輯:TSknight

2025年3月19日,一場屬于AI的盛宴在美國的圣何塞拉開序幕,隨著AI在各個領(lǐng)域的普及與快速發(fā)展,今年的GTC大會關(guān)注度明顯更高,以至于英偉達(dá)CEO黃仁勛在開場致辭里直接將大會形容為「AI界的超級碗」(超級碗是美國最受歡迎的體育賽事,其關(guān)注度甚至高于NBA總決賽)。下面就讓我們直入主題,看看此次GTC 2025最值得關(guān)注的內(nèi)容。

新“核彈”要等明年,舊“核彈”還能戰(zhàn)

與往年一樣,今年的英偉達(dá)同樣帶來了全新的計算芯片——Blackwell Ultra和“期貨”芯片Rubin。其中,Blackwell Ultra實際上是Blackwell的升級版,已經(jīng)開始接受預(yù)訂,在性能與帶寬等方面對比前代都有所升級,并且適配最新的NVLink技術(shù),擁有更高的帶寬和速度。

雖然在大會上并沒有公布GB300的價格,但是參考GB200的售價來看,新芯片的價格顯然不會便宜,而且英偉達(dá)貌似暫時并不打算單獨(dú)出售顯卡,目前還是以機(jī)柜的方式進(jìn)行整套銷售,不過和昂貴的芯片相比,機(jī)柜其他配件的價格倒也顯得“微不足道”了。從英偉達(dá)公布的參數(shù)來看,Blackwell Ultra的顯存從192GB升級為288GB,而在NVL72狀態(tài)下(72顆芯片互聯(lián))AI性能是GB200的1.5倍。老實說這個數(shù)據(jù)遠(yuǎn)不如從Hopper架構(gòu)跳到Blackwell架構(gòu)時驚艷,而且官方給出的數(shù)據(jù)里對整體性能提升也是“語焉不詳”,只是著重提到FP4推理性能提高50%。而且從官網(wǎng)給出的數(shù)據(jù)對比來看,F(xiàn)P4推理性能的提升與FP64和INT8的推理性能被砍掉有關(guān),前者從296 TFLOPS直接掉到10 TFLOPS,后者則是從72 PFLOPS掉到僅剩2 PFLOPS,省下來的算力資源都被塞到了FP4里。

顯然,高精度的推理和訓(xùn)練已經(jīng)逐漸被拋棄,以FP8、FP4為主的低精度訓(xùn)練正在成為主流。其實這里面也有不少DeepSeek的功勞,前段時間開源的一系列技術(shù)中就包括“如何在FP8低精度下保證訓(xùn)練和推理命中率”的相關(guān)方案,也正是靠著這套方案,DeepSeek的訓(xùn)練成本和推理成本才會遠(yuǎn)低于其他AI企業(yè)。不過目前來看,通過降低精度來提高算力效率的路也差不多走到頭了,F(xiàn)P4再往下的精度就很難確保效率和成本都滿足需求了,為了糾正錯誤所需要付出的資源可能超過在更高精度下訓(xùn)練的成本。

雖然算力提升幅度存疑,但是顯存的增長卻是實打?qū)嵉模貏e是推理模型大行其道的當(dāng)下,AI推理和訓(xùn)練對帶寬的要求遠(yuǎn)比以前更高。所以GB300的銷量還是很可觀的,據(jù)黃仁勛透露,亞馬遜、 微軟等企業(yè)已經(jīng)提前下了360萬顆Blackwell Ultra芯片的訂單,將進(jìn)一步拓展他們位于全球各地的AI算力中心。聊完Blackwell Ultra,再來看看“期貨”芯片Rubin,這才是英偉達(dá)真正的下一代芯片,單芯片的FP4性能提升到25 PFLOPS,而完整的Rubin是雙芯片設(shè)計,所以實際FP4性能高達(dá)50 PFLOPS,是Blackwell Ultra的三倍以上。此外,顯存也升級為HBM4,雖然容量仍然是288GB,但是帶寬從8TB/s升級到13TB/s,在NVLink狀態(tài)下吞吐量高達(dá)260TB/s,是前代的兩倍。

而且Rubin支持NVL144,也就是單個機(jī)柜最高可串聯(lián)144顆芯片,提供高達(dá)3.6EF的FP4算力或1.2 EF的FP8算力。作為對比,NVL72的Blackwell Ultra只有1.1EF的FP4算力,F(xiàn)P8算力更是只有0.36 EF,差距非常明顯。除了Rubin外,英偉達(dá)這次也直接把Rubin Ultra一起展示了,最高支持NVL576,擁有15 EF的FP4算力和5EF的FP8算力,性能是GB300 NVL72的14倍,單組芯片配備1TB的HBM4e內(nèi)存,顯存帶寬高達(dá)4.6PB/s,NVLink 7將為其提供高達(dá)1.5PB/s的帶寬速度。

雖然數(shù)據(jù)看起來非常嚇人,不過單從算力來看基本上沒有多少增長,因為Rubin Ultra就是兩個Rubin組合在一起而已(Blackwell的GB200也是如此),所以最主要的升級還是新的NVLink和顯存。雖然Rubin架構(gòu)的參數(shù)很誘人,但是最快也要等到2026年下半年才會開始出貨,而Rubin Ultra更是要等到2027年下半年,你可以理解為英偉達(dá)直接把未來兩年的更新計劃提前透了底,估計也是為了提振市場對英偉達(dá)的信心。至于2028年才會上市的“Feynman”,就單純只有一個名字了,更多的信息并沒有公開,只能說英偉達(dá)是懂得畫餅的??傮w來說,Blackwell Ultra雖然不如此前猜測的那樣提升巨大,但是也更契合當(dāng)下的AI模型訓(xùn)練和推理需求,隨著Blackwell Ultra的陸續(xù)普及,全球算力規(guī)模估計會迎來新一輪的暴漲。

DeepSeek讓英偉達(dá)“賣得越多,賺得越多”

雖然新芯片的發(fā)布關(guān)注度很高,不過最有意思的還是老黃的新金句:“買得越多、賺得越多”,普羅大眾是否認(rèn)可這個觀點(diǎn)尚且不談,反正四大云服務(wù)運(yùn)營商是認(rèn)可了,這也是英偉達(dá)“賣得越多,賺得越多”。這讓我不禁想起前段時間隨著DeepSeek的爆火,一度有著很高討論度的話題“AI不再需要英偉達(dá)顯卡”,現(xiàn)在看來,市場給出了這個問題的答案:“AI或許不再獨(dú)鐘于英偉達(dá)顯卡,但是我們現(xiàn)在需要更多的算力了?!?/strong>而按下這場算力競賽加速鍵的企業(yè),或許正是DeepSeek。

在今年的演講里,DeepSeek的出場率相當(dāng)高,直接取代了去年的主角ChatGPT,黃仁勛也用DeepSeek來解釋為什么AI算力需求不僅沒有下降,反而在增長。作為范例與DeepSeek對比的是LLama 3,一個傳統(tǒng)的AI大模型,在回答同一個問題時,LLama只用了不到500 Token就輸出了回答,而DeepSeek則是用了高達(dá)8559 Token來輸出答案。

結(jié)果是顯而易見的,LLama給出了錯誤答案,而DeepSeek則答對了,為了避免大家覺得DeepSeek-R1用671B的參數(shù)量“欺負(fù)”只有70B參數(shù)量的LLama,演示視頻還貼心地備注“活躍參數(shù)37B”的字樣。這也是DeepSeek-R1這類稀疏型AI大模型的特點(diǎn),雖然參數(shù)量龐大,但是每次實際調(diào)用的參數(shù)量并不算多,甚至?xí)葌鹘y(tǒng)AI大模型更少。不過,即使活躍參數(shù)量僅為37B,DeepSeek所使用的Token量也遠(yuǎn)超LLama,因為DeepSeek是推理模型,在輸出實際答案前會先進(jìn)行多輪思考,并且在得到結(jié)果后會主動進(jìn)行驗證,只有確定答案符合標(biāo)準(zhǔn)后才進(jìn)行實際的回答輸出。隨著DeepSeek將自己的優(yōu)化過程和深度學(xué)習(xí)方案開源,許多AI模型都開始引入類似的長思考鏈步驟,雖然讓回答的質(zhì)量比以前高了很多,但是對算力的需求也與日俱增,如果不是DeepSeek公布了全套的優(yōu)化方案,恐怕大多數(shù)AI公司的虧損要翻一倍不止。以目前的形勢來看,推理模型淘汰傳統(tǒng)AI模型已經(jīng)沒有懸念了,這也意味著即使后續(xù)的AI模型及推理過程優(yōu)化更進(jìn)一步,想要滿足更大參數(shù)規(guī)模和更復(fù)雜的推理所需要的算力資源仍然是個天文數(shù)字。而在算力性能上,英偉達(dá)仍然是斷崖式領(lǐng)先的存在,即使DeepSeek證明了繞過英偉達(dá)顯卡也能確保推理效率,但是英偉達(dá)還是多數(shù)廠商的首選。

這也是為什么在DeepSeek爆火導(dǎo)致英偉達(dá)股價暴跌后,黃仁勛接受采訪時卻表示DeepSeek其實是利好英偉達(dá),并非“死鴨子嘴硬”,而是看到了DeepSeek所采用的稀疏架構(gòu)推理模型方案背后對算力的恐怖需求。黃仁勛認(rèn)為,長思維鏈所帶來的效果顯而易見,沒有AI企業(yè)可以拒絕這樣的誘惑。但是隨著AI模型的參數(shù)量進(jìn)一步增長,當(dāng)這個數(shù)字達(dá)到萬億、數(shù)萬億后,算力效率的重要性將更加凸顯。因為算力效率直接決定Token輸出速度,如果你的Token輸出速度太慢,那么用戶可能要半天才能得到自己想要的答案,他們會抱怨并直接轉(zhuǎn)投其他AI的懷抱。想要高效且高質(zhì)量的為用戶提供AI服務(wù),那么只有堆高算力規(guī)模,并且用上最新的英偉達(dá)芯片行業(yè)技術(shù)(黃仁勛的原話),才能讓企業(yè)在競爭里領(lǐng)先對手且吸引用戶加入。而且,隨著算力規(guī)模的上升,效率增長的同時也會促使成本下降,讓企業(yè)能夠從每一次用戶訪問中獲得更高的利潤,也就是黃仁勛所說的“買得越多,賺得越多”。

為了幫助企業(yè)實現(xiàn)這個目標(biāo),英偉達(dá)還發(fā)布了Dynamo,并將其稱為“AI工廠的操作系統(tǒng)”,借助這個系統(tǒng)的整合優(yōu)化可以將計算機(jī)的Token生成效率成倍提高,解決Token生成速度不足的問題。

英偉達(dá)的終極野望:要做AI的超級工廠?

在英偉達(dá)的設(shè)想中,未來的計算機(jī)將不再是軟件的運(yùn)行基礎(chǔ),Token將成為軟件及一切服務(wù)的根基,而計算機(jī)則變成生產(chǎn)Token的工廠,也就是“AI工廠”,能夠以流水線的方式生產(chǎn)AI模型。簡單來說,AI工廠可以根據(jù)用戶輸入的需求,全自動化的訓(xùn)練一個專屬AI模型,這個AI模型或許參數(shù)規(guī)模不大,但是卻針對你的需求進(jìn)行特化訓(xùn)練,其效果絲毫不比大參數(shù)量的通用模型差,也就是做到AI模型的“千人千面”。

不得不說,這是一個非常誘人的未來,不過背后所需要的AI基礎(chǔ)設(shè)施覆蓋率和算力規(guī)模也是相當(dāng)?shù)目植溃峙滦枰澜缛袠I(yè)都深度參與其中才能搭建出整套系統(tǒng)的雛形。或許正是考慮到這一點(diǎn),英偉達(dá)宣布將把Dynamo系統(tǒng)開源,支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM等多種框架,方便各個企業(yè)針對自己的AI工廠進(jìn)行優(yōu)化和調(diào)整。自從DeepSeek掀開AI領(lǐng)域的開源浪潮后,越來越多的AI企業(yè)也意識到了開源的重要性,并加入開源陣營中,DeepSeek掀起的浪潮注定不會停歇,這場AI革命的序幕才剛剛拉開?;仡櫽ミ_(dá)的GTC 2025大會,你會發(fā)現(xiàn)硬件不再是唯一的核心內(nèi)容,英偉達(dá)正在著手構(gòu)建一個全新的智能生態(tài),在這個生態(tài)里算力是一切的基礎(chǔ),只要大家都認(rèn)可并共同致力于維護(hù)這個生態(tài),那么在算力性能上具有優(yōu)勢的英偉達(dá)自然也就高枕無憂了。

英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。收起

查看更多

相關(guān)推薦