• 正文
    • 1、?Token經(jīng)濟學+AI工廠:DeepSeek帶來的推理紅利,英偉達都會吃掉
    • 2、市場的高預(yù)期下,把貨“賣”到了2027年
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

黃仁勛GTC演講:揭秘下一代芯片Rubin,要把“DeepSeek紅利”通通吃掉,貨已賣到2027年

03/19 13:17
723
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者|王兆洋,Jessica,周一笑

科技界泰勒·斯威夫特、Token經(jīng)濟學鼓吹者、摩爾定律的新希望和新晉“英偉達首席財務(wù)摧毀官”黃仁勛,剛剛完成了他年度最重要演講。

“人們說我的GTC演講就像AI界的超級碗?!秉S仁勛說。“電腦行業(yè)的所有人都在這里了?!?/p>

2025年3月18日,來自全球各地的數(shù)萬人聚集在美國圣何塞,參加年度 GTC大會。這場演講的確盛況空前,圣何塞不大的市區(qū)徹底擁堵癱瘓。10點開始的演講,有不少人6點就開始排隊。

這位英偉達創(chuàng)始人兼CEO發(fā)表了長達兩小時的主題演講,扔出了一系列產(chǎn)品,包括Blackwell Ultra版芯片,下一代芯片Rubin,要做AI開發(fā)操作系統(tǒng)的Dynamo,首款電光集成交換機CPO,更強大的個人超級電腦DGX,以及一系列機器人相關(guān)的模型和平臺。

這些發(fā)布,性能依舊驚人。

總體來看,最核心的硬核發(fā)布包括:

1)Blackwell Ultra超級芯片:專為“AI推理時代”打造,性能比上代提升1.5倍,在DeepSeek R1模型上每秒處理1000個tokens,響應(yīng)時間從1.5分鐘縮至10秒。黃仁勛直言“買得越多,賺得越多”。與Hopper相比,為數(shù)據(jù)中心創(chuàng)造50倍收入潛力。

2)Vera Rubin下一代芯片:計劃2026年底推出的下一代超級芯片,內(nèi)存容量是Grace的4.2倍,帶寬提高2.4倍,88個CPU核心性能翻倍,配備288GB高帶寬HBM4內(nèi)存。黃仁勛還預(yù)告2027年推出Vera Rubin Ultra和2028年的“費曼”芯片。

3)Dynamo推理框架:黃仁勛稱其為“AI工廠的操作系統(tǒng)”,這一開源框架能協(xié)調(diào)數(shù)千GPU通信,通過“分離式服務(wù)”分別優(yōu)化模型思考和生成階段,最大化資源利用率,與Perplexity達成合作開發(fā)。

4)DGX個人AI超級電腦:推出Mac Mini大小的DGX Spark(3000美元)和更強大的DGX Station,前者提供1000萬億次/秒AI算力,128GB內(nèi)存;后者搭載GB300芯片,提供20拍計算性能和784GB內(nèi)存。多家合作伙伴將推出兼容版本。

5)Isaac GROOT N1機器人基礎(chǔ)模型:首個開放式人形機器人基礎(chǔ)模型,能輕松掌握抓取、移動等復(fù)雜任務(wù)。配套推出仿真框架和藍圖工具,以及與谷歌DeepMind、迪士尼合作開發(fā)的Newton物理引擎。黃仁勛宣稱“通用型機器人時代已經(jīng)到來”。

1、?Token經(jīng)濟學+AI工廠:DeepSeek帶來的推理紅利,英偉達都會吃掉

和過往多次激動人心的演講不同,今年GTC主題演講可能是黃仁勛多年來第一次需要“回答”問題,而非完全由他設(shè)定議題的一次——

在DeepSeek R1引發(fā)的沖擊后,英偉達近年來少有的被市場質(zhì)疑:是否隨著算力進入推理時代后,它代表的規(guī)模化不再成立。所有人期待黃仁勛給出回答,而且就在主旨演講前,英偉達股價開始下行,最終也以下跌收盤。

這也是貫穿當天演講的核心。

黃仁勛的解法是:

他比所有人都更加激進地強調(diào)推理的重要性,并且通過通俗易懂地解釋以及各種英偉達真實數(shù)據(jù)和產(chǎn)品路線圖,來證明一件事——推理時代對計算的要求反而更加高,而已經(jīng)領(lǐng)先的英偉達會繼續(xù)領(lǐng)先下去。

“兩年前ChatGPT開始,我們經(jīng)歷了各種技術(shù)的創(chuàng)新和進步,終于到了推理的時代。AI會思考和推理,能解決更多的問題。Scaling Law從一個變成了三個?!秉S仁勛說。

言下之意,AI向推理階段的轉(zhuǎn)移不是scaling law的結(jié)束,反而是因為Scaling law比人們預(yù)期的發(fā)展更快,進入了這個新的階段。

“關(guān)于擴展定律(scaling law)和算力,去年全世界幾乎都預(yù)測錯了。AI的擴展定律比我們想象的更具影響力,極大加速了計算需求的增長。實際上,如今的算力需求比我們?nèi)ツ觐A(yù)估的高出了100倍?!?/p>

黃仁勛解釋道,過去AI主要依賴經(jīng)驗和預(yù)訓(xùn)練數(shù)據(jù)進行學習,并能一次性完成推理演示。而現(xiàn)在的AI系統(tǒng)采用"思維鏈"(Chain of Thought)技術(shù)進行逐步推理。不再只是簡單地預(yù)測下一個token,而是生成完整的推理步驟,每個步驟的輸出都會作為下一步的輸入,使得處理單個查詢所需的tokens數(shù)量增加了約10倍。

同時,為了保證用戶體驗和交互性,避免用戶因AI“思考”時間過長而失去耐心,系統(tǒng)需要以10倍的速度處理這些額外增加的tokens。因此,10倍的tokens量乘以10倍的處理速度要求,導(dǎo)致總計算需求增加了約100倍。此外,訓(xùn)練這些復(fù)雜推理能力需要通過強化學習處理數(shù)萬億級的tokens,進一步推高了算力需求。

“我認為計算有一個最終的難題,就是推理(inference)。之前所有人都以為它很簡單,但其實并不是?!秉S仁勛說。

他直接把推理上升到了最終極挑戰(zhàn)的地位,而這個挑戰(zhàn)需要復(fù)雜的系統(tǒng)化的能力來解決,這只有英偉達可以。

黃仁勛還用了一個demo來對比傳統(tǒng)LLM與推理增強型模型的不同,其中推理模型他選擇了DeepSeek。

這個例子里,兩個模型要為婚宴安排座位。這直觀展現(xiàn)了兩者在復(fù)雜約束條件下(包括父母與姻親不能相鄰、攝影效果最佳化、新娘的特殊要求以及牧師的加入)的不同解法。

Llama 3.3 70B采用"一次性"方式,快速生成了439個tokens的回答,雖然響應(yīng)迅速但結(jié)果錯誤,等于產(chǎn)生了439個"浪費的tokens"。而DeepSeek R1則啟動了深入的思考過程,生成8,559個tokens,它嘗試了多種可能的情境,并反復(fù)檢驗自己的答案,最終得出了正確解決方案。

從圖表中可以清楚看到,相比傳統(tǒng)LLM,推理模型的tokens生成量增加了20倍,計算資源需求更是高出150倍。這一演示直觀展示了現(xiàn)代AI為何需要更強算力——推理過程依賴大量token的處理與生成,而每生成一個token都需要加載整個萬億級參數(shù)的模型?!斑@就是為什么高速互連技術(shù)(如NVLink)變得如此重要——它能支持這種大規(guī)模數(shù)據(jù)移動,使AI‘思考’成為可能?!?/p>

除了技術(shù)上的展示,他更想要的是對客戶和市場展示信心,對此,他再次化身最強銷售,他給出的答案也可以簡單總結(jié)為一個公式:

Token經(jīng)濟學+AI工廠= 推理時代依然利好英偉達

黃仁勛從開場的視頻到最后,都在強調(diào)一件事:今天從自動駕駛,到生成式AI,一切的根源都是token,而產(chǎn)生這些token的根源是英偉達。

這是黃仁勛一直在講述的token經(jīng)濟學,當AI變成一切生產(chǎn)力提升的根源,token就成了最根本的單位。如何讓每個生成的token都劃算,就是今天所有企業(yè)要關(guān)心的事情。

今天,電腦的地位徹底發(fā)生改變,以往它是軟件提取信息的地方,現(xiàn)在它是產(chǎn)生Token的地方,它是AI工廠。而作為一個工廠,就要計算投入產(chǎn)出比。黃仁勛把AI輸出的token認為是成本,而每個用戶能夠獲得的token則是收益。

縱軸是作為AI工廠的輸出,計量單位是每兆瓦生成的TPS(每秒touken數(shù)),橫軸是用戶得到的TPS。一個曲線能在橫軸和縱軸都擴張,你的收入就越多。

而橫軸更高的同時縱軸越低的話,你就能越賺錢。

而英偉達的產(chǎn)品,在不停推動著這個賺錢曲線的實現(xiàn)。

黃仁勛在圖里直接對比了Blackwell 與 Hopper:一個1兆瓦的Hopper數(shù)據(jù)中心每秒可產(chǎn)生約250萬tokens,而采用相同功耗的Blackwell系統(tǒng)(結(jié)合NVLink 72、FP4精度和Dynamo系統(tǒng)),性能可提升25倍。特別是在推理模型上,Blackwell的表現(xiàn)更為出色,性能比Hopper高出40倍。

“當Blackwell開始大量出貨時,你基本上送給別人Hopper都不會要?!彼χf:”別怕,Hopper在某些情況下還是可以的……這是我能對Hopper說的最好話了?!?/p>

這么說顯然對Hooper這個還在銷售的產(chǎn)品線是巨大打擊,他開玩笑說,自己變成了“首席財務(wù)摧毀官”。

在比較100兆瓦AI工廠時,黃仁勛指出,基于Hopper的工廠需要45,000個芯片和1,400個機架,每秒產(chǎn)生3億tokens,而Blackwell則需要更少的硬件實現(xiàn)更高的性能。雖然Blackwell單價可能更高,但其計算效率的提升使AI工廠在長期運營中節(jié)省更多成本。

“基本上你買得越多,省得越多!不,甚至比這更好——買得越多,賺得越多!”這句經(jīng)典的黃仁勛數(shù)學,再次用在了推理時代。

這一切都利好英偉達,AI的投資會繼續(xù),即將達到萬億美元的拐點。

“我之前說過,預(yù)計到2028年,數(shù)據(jù)中心的建設(shè)將達到萬億美元規(guī)模,而我非常確信我們很快就會達到這個目標?!?/p>

2、市場的高預(yù)期下,把貨“賣”到了2027年

具體來看此次黃仁勛帶來的新產(chǎn)品的最新細節(jié)。

NVIDIA Blackwell Ultra:

它是 NVIDIA Blackwell新一代版本——NVIDIA Blackwell Ultra。Blackwell Ultra專為“AI推理時代”設(shè)計,這類技術(shù)隨著DeepSeek R1的推出而進入主流。

Blackwell Ultra基于去年推出的Blackwell架構(gòu)打造,包括兩大核心產(chǎn)品:GB300 NVL72機架式系統(tǒng)和HGX B300 NVL16系統(tǒng)。GB300 NVL72的AI性能比上一代提升了1.5倍,而與使用Hopper架構(gòu)的數(shù)據(jù)中心相比,收入潛力提高了50倍。

黃仁勛表示:“AI已經(jīng)實現(xiàn)了巨大飛躍:能進行推理和自主行動的AI需要成倍增長的計算性能。我們專為這一時刻設(shè)計了Blackwell Ultra,這是一個多功能平臺,可以輕松高效地完成預(yù)訓(xùn)練、后訓(xùn)練和AI推理?!?/p>

GB300 NVL72在一個機架式設(shè)計中連接了72個Blackwell Ultra GPU和36個基于Arm架構(gòu)的Grace CPU。有了這個系統(tǒng),AI模型可以利用更強大的計算能力探索不同的問題解決方案,將復(fù)雜請求分解為多個步驟,從而提供質(zhì)量更高的回答。

根據(jù)英偉達的說法,GB300 NVL72系統(tǒng)在運行DeepSeek的R1人工智能模型時,每秒能處理1000個tokens,而使用老款Hopper芯片時只能每秒處理100個。這一升級意味著實際使用中,GB300 NVL72只需約10秒就能回答用戶問題,而Hopper則需要1.5分鐘才能完成同樣的任務(wù)。簡單來說,新一代Blackwell Ultra系統(tǒng)比舊款Hopper系統(tǒng)快了近9倍,是一次質(zhì)的飛躍。

這款產(chǎn)品也將在英偉達的DGX Cloud平臺上提供,這是一個端到端的全托管AI平臺,通過軟件、服務(wù)和專業(yè)知識優(yōu)化性能。而使用GB300 NVL72設(shè)計的DGX SuperPOD系統(tǒng)則為客戶提供了一站式的“AI工廠”。

HGX B300 NVL16系統(tǒng)在處理大型語言模型時速度比上一代快11倍,計算能力提高7倍,內(nèi)存容量增大4倍,足以應(yīng)對最復(fù)雜的AI任務(wù),如高級推理。

Blackwell芯片目前已全面投產(chǎn),據(jù)稱,這是英偉達歷史上最快的產(chǎn)能提升。在最近一個季度中,Blackwell為英偉達貢獻了110億美元收入,占公司總收入393億美元的近三分之一。

下一代AI“超級芯片”Vera Rubin:

截至今年1月的2025財年,英偉達銷售額實現(xiàn)了驚人的翻倍增長,達到1246.2億美元。這主要歸功于兩方面:Hopper芯片的持續(xù)熱銷和Blackwell芯片的早期訂單。

要保持這樣的增長勢頭,英偉達必須推出讓客戶“錢花得值”的新一代芯片。這意味著新芯片需要在速度更快、耗電更少、總擁有成本更低等方面超越上一代產(chǎn)品。

黃仁勛首次展示了下一代Vera Rubin AI超級芯片,這款產(chǎn)品以以暗物質(zhì)研究先驅(qū)天文學家Vera Rubin命名,預(yù)計將于2026年底推出。這款芯片延續(xù)了前代產(chǎn)品的設(shè)計理念,采用CPU(Vera)和GPU(Rubin)組合架構(gòu)。

主要升級包括:內(nèi)存容量是Grace的4.2倍,內(nèi)存帶寬提高2.4倍,88個CPU核心提供比Grace Blackwell兩倍的整體性能,以及Rubin GPU中的288GB高帶寬內(nèi)存4(HBM4)。

“基本上所有東西都是全新的,除了機箱,”黃仁勛說道。

黃仁勛還預(yù)告了2027年的后續(xù)產(chǎn)品:Vera Rubin Ultra,這款產(chǎn)品將采用Rubin Ultra GPU,將四個GPU合并為一個單元。

市場的預(yù)期之高,英偉達需要把2027年的貨提前透露給大家看。

黃仁勛表示,AI正處于“拐點”,預(yù)測到2028年數(shù)據(jù)中心收入將達到1萬億美元。英偉達代號為“費曼”(Feynman)的下一代AI芯片將于2028年亮相。

黃仁勛發(fā)布了開源推理框架Dynamo,用于加速和擴展AI推理模型。黃仁勛稱之為“AI工廠的操作系統(tǒng)”,并解釋說這個名字來源于工業(yè)革命中的第一個關(guān)鍵發(fā)明—發(fā)電機(Dynamo)。

Dynamo專為部署推理型模型的“AI工廠”設(shè)計,幫助最大化產(chǎn)出效益。它能協(xié)調(diào)和加速成千上萬GPU之間的通信,并采用“分離式服務(wù)”技術(shù),在不同GPU上分開處理大語言模型的“思考階段”和“生成階段”。這樣每個階段都能針對特定需求進行獨立優(yōu)化,確保GPU資源得到最充分利用。

黃仁勛透露,英偉達正在與“最喜歡的合作伙伴”之一Perplexity合作開發(fā)Dynamo?!胺浅O矚g他們,不僅因為他們做的革命性工作,還因為Aravind是個很棒的人”

黃仁勛還帶來了面向個人用戶的“AI超級電腦”——DGX Spark和DGX Station。兩款設(shè)備都采用了Grace Blackwell平臺,為用戶提供本地運行大型AI模型的能力,而無需持續(xù)連接數(shù)據(jù)中心。其中較小的Spark版本現(xiàn)已開放預(yù)訂。

DGX Spark是英偉達今年在CES展會上以“Digits”為名發(fā)布的那款Mac Mini大小的“世界最小AI超級電腦”,售價3000美元。而更大的DGX Station則面向“AI開發(fā)者、研究人員、數(shù)據(jù)科學家和學生,用于在桌面上原型設(shè)計、微調(diào)和運行大型模型”,目前尚未公布價格。

Spark搭載了英偉達的GB10 Blackwell超級芯片,配備第五代Tensor核心和FP4支持。提供“高達1000萬億次每秒(TOPS)的AI計算能力,足以微調(diào)和運行最新的AI推理模型,包括英偉達Cosmos Reason世界基礎(chǔ)模型和NVIDIA GROOT N1機器人基礎(chǔ)模型”。Spark配備128GB統(tǒng)一內(nèi)存和最高4TB的NVMe SSD存儲。

體積更大的DGX Station容納了英偉達剛剛發(fā)布的更強大的GB300 Blackwell Ultra桌面超級芯片,“提供20拍(petaflops)的AI性能和784GB統(tǒng)一系統(tǒng)內(nèi)存”。

英偉達還宣布OEM合作伙伴將推出自己版本的DGX設(shè)備:華碩、戴爾、惠普、Boxx、Lambda和超微將打造自己的DGX Station,將于今年晚些時候上市。華碩、戴爾、惠普和聯(lián)想將推出DGX Spark版本

英偉達并非唯一打造具有大統(tǒng)一內(nèi)存、可用于本地大語言模型的GPU廠商。AMD也推出了Ryzen AI Max+ “Strix Halo”芯片。這些設(shè)備的出現(xiàn),意味著強大的AI計算能力正從云端走向家庭和個人,為普通用戶提供了本地AI運算能力。

黃仁勛還宣布了對其網(wǎng)絡(luò)組件的更新,以便將數(shù)百或數(shù)千個 GPU 連接在一起,使它們作為一個整體協(xié)同工作同時,英偉達在網(wǎng)絡(luò)技術(shù)方面也取得了進展,推出了基于光子學的Spectrum-X和Quantum-X交換機,提升了數(shù)據(jù)中心GPU互聯(lián)的效率和可擴展性。

小機器人Newton:

此外還有英偉達與谷歌DeepMind和迪士尼研究院合作,專為開發(fā)機器人而設(shè)計Newton開源物理引擎。

在介紹NVIDIA與DeepMind、Disney和NVIDIA聯(lián)合研發(fā)的機器人Newton時,演示視頻忽然中斷。熟悉GTC節(jié)奏的人都知道,那味兒又來了。

“怎么回事,我們只剩兩分鐘了,我需要跟真人說話。”黃仁勛故作焦急地來回踱步,“什么,正在重新調(diào)整架構(gòu),那是什么意思....”話音剛落,Newton機器人Blue就從舞臺一側(cè)緩緩升起。隨后一邊發(fā)出電影里那樣古靈精怪的機械聲,一邊搖頭晃腦地走到了黃仁勛身邊,全場爆發(fā)出掌聲與笑聲。

“告訴我這是不是很驚人!嘿Blue,你喜歡你的新物理引擎嗎?觸覺反饋、剛體和軟體模擬,實時物理計算。我敢打賭你喜歡!”黃仁勛特別指出,現(xiàn)場觀眾看到的一切都是實時模擬,這將是未來機器人訓(xùn)練的關(guān)鍵方式,并透露Blue內(nèi)部搭載了兩臺NVIDIA計算機

而Blue也與黃仁勛互動,跟著做出點頭、搖擺的回應(yīng),并聽從他的指揮站到旁邊。這也是整場發(fā)布和演講中,難得的輕松時刻。

今天是個瘋狂的時代,英偉達可以把芯片的架構(gòu)更新提高到一年一次,但即便如此,人們的胃口似乎依然沒有得到滿足。

黃仁勛似乎也對此有些不爽,在演講里,他略微吐槽到:

“我們發(fā)布了新東西,但人們馬上會說好的,接下來呢?這對任何公司都不正常。”他說。

“畢竟這不像買個筆記本電腦,我們需要有計劃,土地,能源,我們的人的部署,這都需要提前幾年做計劃。所以我們可能不能讓你很吃驚,但一切都在按照計劃進行?!?/p>

英偉達

英偉達

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。收起

查看更多

相關(guān)推薦