這兩天的加州圣何塞,綠意濃濃。當愛爾蘭人的圣帕特里克節(jié),遇上英偉達的GTC大會,街頭隨處可見身著綠色服飾、慶祝節(jié)日的愛爾蘭人,還有掛滿城區(qū)的GTC海報,大大地寫著:What’s Next in AI Starts Here,昭示著AI發(fā)展的新起點。
當?shù)貢r間3月18日上午10點,黃仁勛在SAP中心發(fā)表主題演講。一早乘車過去,就看到SAP幾公里開外,候場人群已經(jīng)排起長長的隊伍,一路綿延好幾個街區(qū)。你無法準確說出這是AI的熱度所致,還是英偉達和黃仁勛本人的感召力。
波動下,Token撬動AI商業(yè)版圖快速成形
受推理模型DeepSeek重創(chuàng)、股價經(jīng)歷了戲劇性波動的英偉達,本次GTC生動演繹了“在哪跌倒,就在哪爬起來”。黃仁勛在2個多小時的演講中,重點圍繞推理機遇,講述了通過Token(信息單元)撬動新AI商業(yè)版圖的三層邏輯:
技術(shù)層面,當前仍以Blackwell架構(gòu)為核心,未來三代GPU架構(gòu)都在開發(fā)中,分別是Rubin、Rubin Ultra、Feynman。并且,通過軟件將硬件潛力轉(zhuǎn)化為用戶可感知的Token效率,這包括開源的推理軟件工具、加速庫、套件等。
戰(zhàn)略層面,強化“AI基礎(chǔ)設(shè)施企業(yè)”定位,覆蓋AI訓練、推理,搶占云端、邊緣的多樣化場景,牢牢鞏固護城河。
商業(yè)層面則蘊含了黃仁勛對Token經(jīng)濟的深刻洞察,全棧生態(tài)層層鋪就,通過Agentic AI和Physical AI兩個大招,幾乎覆蓋了大部分行業(yè)和需求,有望加速AI普及。
事實上,在AI云端訓練最為炙手可熱的時候,黃仁勛已經(jīng)預測了推理需求的爆發(fā)。在Keynote中,他進一步解釋,推理的本質(zhì)就是Token生成,這對企業(yè)至關(guān)重要。隨著最新一代推理模型能夠思考和解決日益復雜的問題,業(yè)界對Token的需求將會持續(xù)增長。
AI的發(fā)展其實也是具備“逐步推理”能力的成長歷程,而推理和強化學習需求等等,正在持續(xù)推動AI計算需求的增長。黃仁勛透露,全球前四大云服務(wù)商去年采購了超130萬片Hopper架構(gòu)GPU,今年或?qū)⒉少?60萬片Blackwell架構(gòu)GPU。
“計算正處在拐點”,黃仁勛表示,拐點可能出現(xiàn)在2024至2025年間,預計數(shù)據(jù)中心建設(shè)的市場價值將達到 1 萬億美元。
第一層邏輯:Blackwell為核心,軟件提升Token效率
目前,Blackwell 已進入全面量產(chǎn)階段,“增長非常迅猛,客戶需求也非常強勁,”黃仁勛表示,“這是有道理的,因為 AI 到達了一個拐點,推理AI的出現(xiàn)使我們需要的計算量大大增加,同時推理AI系統(tǒng)和代理式系統(tǒng)的訓練也在推動這一變化?!?/p>
他詳細介紹了 Blackwell 如何支持極限擴展。最新發(fā)布的Blackwell Ultra GPU架構(gòu)更擅長滿足AI推理需求,它是全球首個288GB HBM3e GPU,通過先進封裝技術(shù)將2塊GPU拼裝在一起,可實現(xiàn)多達1.5倍的FP4推理性能,最高15PFLOPS。該GPU增強了訓練和測試時推理擴展,可輕松有效地進行預訓練、后訓練以及深度思考(推理)模型的AI推理,構(gòu)建于Blackwell架構(gòu)基礎(chǔ)之上,還包括GB300 NVL72機架級解決方案和HGX B300 NVL16系統(tǒng)。
要幫助客戶擴展到更大規(guī)模的系統(tǒng),下一步的關(guān)鍵還在于Photonics 技術(shù)——這是一種依賴于光而非電信號傳輸數(shù)據(jù)的網(wǎng)絡(luò)技術(shù),它將緊密集成到加速計算基礎(chǔ)設(shè)施中。
NVIDIA Spectrum-X和NVIDIA Quantum-X 硅光網(wǎng)絡(luò)交換機通過融合電子電路和光通信技術(shù),支持AI工廠能夠在多個站點之間連接數(shù)百萬個 GPU,同時降低能耗和運營成本。
與傳統(tǒng)方法相比,英偉達硅光交換機創(chuàng)新地集成了光器件,減少了4倍的激光器數(shù)量,能源效率提高到3.5倍,信號完整性提高到63倍,大規(guī)模組網(wǎng)可靠性提高到10倍,部署速度提高到1.3倍。
黃仁勛表示,之所以要做到大量的工作,就是為了應對一個極端挑戰(zhàn)——推理。而為了充分發(fā)揮硬件的潛力,實現(xiàn)更高效的推理,英偉達在軟件方面也進行了更為全面的布局。
最新推出的開源軟件NVIDIA Dynamo,是一個用于大規(guī)模服務(wù)推理模型的AI推理軟件,旨在為部署推理模型的AI工廠實現(xiàn)Token收入最大化。它能夠跨數(shù)千個GPU編排和加速推理通信,并使用分區(qū)分服務(wù)來分離不同GPU上大語言模型的處理和生成階段,使每個階段可根據(jù)特定需求獨立優(yōu)化,并確保GPU資源的最大利用率。
在GPU數(shù)量相同的情況下,Dynamo可將Hopper平臺上運行Llama模型的AI工廠性能和收益翻倍。在由GB200 NVL72機架組成的大型集群上運行DeepSeek-R1模型時,Dynamo的智能推理優(yōu)化也可將每個GPU生成的token數(shù)量提高30倍以上。
基于Dynamo,Blackwell比Hopper在性能方面提升25倍,可以基于均勻可互換的可編程架構(gòu)。在推理模型中,Blackwell性能是Hopper的40倍。
第二層邏輯:戰(zhàn)略上強化“AI基礎(chǔ)設(shè)施公司”定位
近年來,英偉達逐漸將自身定位于產(chǎn)業(yè)的 “AI工廠”,能夠幫助客戶賺錢、轉(zhuǎn)化為客戶收入。
當前,業(yè)界正站在計算范式的轉(zhuǎn)折點,即將從檢索式計算轉(zhuǎn)向生成式計算 。而下一步,要從ChatGPT這樣的生成式AI,邁向Deep Research、Manus這樣的Agentic AI應用,屆時,每一層計算都將不同,所需要的Token比想象中多100倍。這是因為在Agentic AI應用中,上一個Token是下一個Token生成時輸入的上下文、是感知、規(guī)劃、行動的一步步推理。
而AI 工廠就是要高效地處理這些Tokens,通過軟硬協(xié)同優(yōu)化,以更低的計算成本處理更多Token。如此一來,當更復雜、智能的推理模型,需要更快、更多地吞吐Token時——如何能夠有一套更高效的系統(tǒng),就成為AI應用能不能賺錢的關(guān)鍵。
這也從另一方面論證了AI工廠的重要性:客戶公司所能實現(xiàn)的最大收入其實取決于AI工廠是否以最佳目標運行,因為其性能將直接轉(zhuǎn)化為Token百分比。
“我們現(xiàn)在的AI工廠業(yè)務(wù),競爭門檻遠高于以往,客戶的風險容忍度也遠低于以往。因為這可能是一個涉及數(shù)千億美元的多年周期的投資,這是一項基礎(chǔ)設(shè)施業(yè)務(wù)”,黃仁勛強調(diào),“英偉達其實是基礎(chǔ)設(shè)施公司,是全世界的工廠,也是無數(shù)企業(yè)的基石。
在進一步加速大規(guī)模推理方面,NVIDIA Dynamo,本質(zhì)上就相當于是AI工廠的操作系統(tǒng)。他表示,商業(yè)門檻越來越高,競爭門檻越來越高,但應用AI的門檻在降低,英偉達要通過軟件來降低使用門檻,讓AI更易用、更普及。
目前,NVIDIA CUDA-X GPU 加速庫和微服務(wù)現(xiàn)在服務(wù)于各行各業(yè)。CUDA的安裝基礎(chǔ)“無處不在”,他認為,“我們已經(jīng)到達了加速計算的臨界點——CUDA 讓這一切成為可能。”
迄今為止,AI已經(jīng)歷了三代技術(shù)范式的轉(zhuǎn)移。最早是判別式AI(語音識別、圖像識別),接著是生成式AI,然后就是當下身處的Agentic AI,未來會是影響物理世界的Physical AI。
而每一代AI技術(shù)遷移,計算的方式都會發(fā)生改變。從AlexNet到ChatGPT,是從檢索的計算方式轉(zhuǎn)變?yōu)樯傻挠嬎惴绞?,也需要更多?a class="article-link" target="_blank" href="/tag/%E7%AE%97%E5%8A%9B/">算力來提供支持。
黃仁勛強調(diào),除了預訓練和后訓練(微調(diào)),測試時的Scaling Law才剛剛開始。也就是說,模型的推理階段,動態(tài)分配計算資源以提升性能。例如,根據(jù)問題復雜度自動延長“思考時間”,或通過多次推理生成多個候選答案并擇優(yōu)輸出。
特別是對于長思考任務(wù)(如復雜決策)需處理百萬級token/查詢,算力需求呈指數(shù)增長。這些復雜的推理場景(如客服、醫(yī)療診斷)等,將成為企業(yè)AI落地的關(guān)鍵場景。
上述趨勢之下,英偉達將繼續(xù)進行全棧優(yōu)化。黃仁勛強調(diào),一方面,英偉達通過CUDA-X工具鏈、Megatron框架等,實現(xiàn)從數(shù)據(jù)預處理到推理的全流程加速,降低單位token成本;另一方面,將繼續(xù)推動可擴展的算力基礎(chǔ)設(shè)施,服務(wù)好企業(yè)級客戶。
第三層邏輯:Agentic AI和Physical AI擴大商業(yè)版圖,加速AI普及
黃仁勛提到,當AI基于思維鏈進行一步步推理、進行不同的路徑規(guī)劃時,它不是生成一個Token或一個單詞,而是生成一個表示推理步驟的單詞序列,因此生成的Token數(shù)量會更多,甚至增加100倍以上。而這對計算提出指數(shù)級需求,隨著計算成本增加,就需要全棧創(chuàng)新來降低成本/Tokens。
Agentic AI方面,英偉達推出了具有推理功能的開放Llama Nemotron 模型系列,希望為開發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),從而構(gòu)建能夠獨立工作或以團隊形式完成復雜任務(wù)的高級AI智能體。
這一推理模型系列是基于Llama模型構(gòu)建的,能夠提供按需AI推理功能。NVIDIA 在后訓練期間對該推理模型系列進行了增強,以提升多步數(shù)學運算、編碼、推理和復雜決策能力。
此外,他認為機器人是下一個10萬億美元的產(chǎn)業(yè)。預測到2030年年底,全球?qū)⒚媾R至少5000萬勞動力短缺的問題。為此,英偉達提供了一整套技術(shù),用于訓練、部署、仿真和測試下一代機器人技術(shù)。并且,英偉達還最新宣布推出全球首個開源且完全可定制的基礎(chǔ)模型 NVIDIA Isaac GR00T N1,該模型可賦能通用人形機器人實現(xiàn)推理及各項技能。
針對企業(yè)級AI這個超大規(guī)模的市場,英偉達正為全球企業(yè)提供構(gòu)建Agentic AI的核心模塊。英偉達的Llama Nemotron可以在任何地方運行,包括DGX Spark、DGX Station以及OEM制造的服務(wù)器上,甚至可以將其集成到任何Agentic AI框架中。
此外還有新一代 NVIDIA Cosmos 世界基礎(chǔ)模型的重大更新,為Physical AI開發(fā)引入了一個開放式和可完全定制的推理模型,并為開發(fā)者提供了前所未有的世界生成控制能力。
黃仁勛表示:“使用Omniverse來調(diào)節(jié)Cosmos,并通過Cosmos生成無限數(shù)量的環(huán)境,從而支持我們能夠創(chuàng)建既扎根于現(xiàn)實、由我們掌控,同時又在系統(tǒng)上可以實現(xiàn)無限的數(shù)據(jù)?!?/p>
他補充,這其實也是為了解決Agentic AI和Physical AI的核心問題:數(shù)據(jù)問題、訓練問題、以及如何通過大規(guī)模擴展讓AI更聰明。顯然,英偉達一直在不遺余力推動將先進的模型開源,再加上完整的合成數(shù)據(jù)生成與仿真、訓練等進行融合,試圖推動AI更大范圍的鋪開。
寫在最后
某種意義上,今年的GTC大會不僅對于英偉達自身發(fā)展路線具有重要意義,也是AI真正開啟商用時代的風向標。本次GTC不僅展示了英偉達從計算機技術(shù)公司向AI基礎(chǔ)設(shè)施公司的轉(zhuǎn)型,展示了數(shù)據(jù)中心從單純存儲數(shù)據(jù)、托管應用的角色向AI工廠的轉(zhuǎn)型,同時也證明了Token經(jīng)濟帶動的一個全新產(chǎn)業(yè)的誕生。
“買得越多理論”也被黃仁勛再次提及,只不過現(xiàn)在的版本是“The more your buy, the more you make”。Token經(jīng)濟的未來,應該是買得越多,賺得越多,這是黃仁勛最大的期望。