作者:何律衡,編輯:李墨天
春節(jié)前夕,黃仁勛照例開啟年會(huì)巡演,北京站成為各路CEO追星現(xiàn)場(chǎng)。大合照中,坐在黃仁勛左邊的是宇樹科技的王興興,第一排最右是銀河通用的王鶴。
三人曾在年初的CES展上有過一次“非正式會(huì)談”,當(dāng)時(shí)黃仁勛演講到尾聲,人形機(jī)器人軍團(tuán)壓軸登場(chǎng),其中就包括宇樹在春晚轉(zhuǎn)手絹的H1、銀河通用的Galbot G1。
發(fā)布會(huì)現(xiàn)場(chǎng),14臺(tái)人形機(jī)器人一字排開,有波士頓動(dòng)力這種老牌選手,有宇樹這樣的行業(yè)新貴,還有跨界玩家小鵬,唯獨(dú)缺席了一邊買黃總的芯片一邊悄悄搞自研的特斯拉。
在機(jī)器人軍團(tuán)壓軸登場(chǎng)前,黃仁勛公布了一系列大模型組成的機(jī)器人訓(xùn)練平臺(tái)Cosmos。
Cosmos的作用可以簡(jiǎn)單理解為在虛擬世界模擬真實(shí)的物理環(huán)境,瞄準(zhǔn)的是當(dāng)前人形機(jī)器人產(chǎn)業(yè)的真空帶、也是英偉達(dá)圍繞人形機(jī)器人布局的最后一環(huán)——仿真數(shù)據(jù)。
三個(gè)月后的英偉達(dá)GTC,機(jī)器人再度成為壓軸節(jié)目。除了Cosmos再度刷臉,英偉達(dá)還發(fā)布了一個(gè)人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1,仿真物理模型Newton,并由小機(jī)器人Blue完成收尾。
如果把人形機(jī)器人視為人工智能領(lǐng)域一條正在瘋狂施工的高速公路,那么英偉達(dá)正在做的事情,就是提前把收費(fèi)站先修好。
五年高考三年模擬
從年初的CES到前兩天的GTC,英偉達(dá)真正的關(guān)鍵詞是“物理AI”。
按照黃仁勛的說法,AI的新一波浪潮是物理AI,其關(guān)鍵環(huán)節(jié)是讓AI理解物理定律,人形機(jī)器人則是當(dāng)下最重要的載體。
傳統(tǒng)的工業(yè)機(jī)器人大多基于特定的規(guī)劃執(zhí)行特定的操作,比如運(yùn)輸和分揀,與其說機(jī)器人,倒不如說是一種“自動(dòng)化設(shè)備”。
但人形機(jī)器人在理想狀態(tài)下,可以理解物理世界各種物體、語(yǔ)言和文字的含義,并自主規(guī)劃和決策。
2023年7月,《紐約時(shí)報(bào)》探班谷歌實(shí)驗(yàn)室,記錄了一個(gè)基于RT-2模型的機(jī)器人智能閃現(xiàn)的瞬間:桌子上放著恐龍、鯨魚、獅子三個(gè)塑料玩具,工程師讓機(jī)器人“撿起滅絕的動(dòng)物”,機(jī)器人拿起了恐龍。
這個(gè)案例很好的說明了人形機(jī)器人最大的變革:機(jī)器人不僅能識(shí)別三種動(dòng)物,也能理解“滅絕的動(dòng)物”的含義,還可以完成具體的操作。
也就是說,兩者的核心區(qū)別在“智能”。判斷機(jī)器人的智能化程度,不是看它會(huì)不會(huì)前后空翻大劈叉,而是能不能像人一樣思考。
和大模型訓(xùn)練一樣,讓機(jī)器人擁有思考能力的過程,同樣是對(duì)數(shù)據(jù)的消耗——換句話說就是刷題。
人工智能泰斗級(jí)人物李飛飛曾對(duì)算法的訓(xùn)練過程有一個(gè)形象的解釋:讓算法不斷觀察包含貓和其他動(dòng)物的圖片,在每張圖片背后寫下正確答案。計(jì)算機(jī)每看一次圖片,就和背面的答案核對(duì)一次。只要次數(shù)夠多,算法就能學(xué)會(huì)辨別貓。
但問題是,寫好答案的圖片并不是現(xiàn)成的。
和GPT等大模型爬取互聯(lián)網(wǎng)數(shù)據(jù)不同,機(jī)器人會(huì)和真實(shí)世界產(chǎn)生交互,因此需要遵循物理規(guī)則的真實(shí)數(shù)據(jù)來訓(xùn)練算法。但如果用真人動(dòng)作捕捉來訓(xùn)練,不僅成本高,也容易坐實(shí)“AI奴役人類”的地獄笑話。
之中的數(shù)據(jù)空白,就成為了仿真數(shù)據(jù)的實(shí)踐空間。所謂仿真數(shù)據(jù),可以簡(jiǎn)單理解為在虛擬空間構(gòu)建遵循真實(shí)世界物理規(guī)則的場(chǎng)景,并輸出為可以被用來訓(xùn)練的數(shù)據(jù)。
馬斯克就是仿真數(shù)據(jù)的鐵桿粉絲,2021年的特斯拉AI Day,馬斯克曾公開過自家數(shù)據(jù)仿真技術(shù),當(dāng)時(shí)生成并投入訓(xùn)練的仿真數(shù)據(jù)規(guī)模就已經(jīng)達(dá)到了37.1億張圖片和4.8億標(biāo)注[2]。xAi最新發(fā)布的Grok 3,也投喂了大量仿真數(shù)據(jù)用于訓(xùn)練。
自動(dòng)駕駛尚且可以搜集車主真實(shí)的行駛數(shù)據(jù)用于訓(xùn)練,機(jī)器人尚未大規(guī)模投入應(yīng)用,對(duì)仿真數(shù)據(jù)的需求更為迫切。
真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)就像“五年高考”和“三年模擬”,一個(gè)是真題,一個(gè)是模擬題。真題的參考價(jià)值更高,但數(shù)量有限,模擬題量大管飽,但參考價(jià)值要看它與真題的相似程度。
至此,英偉達(dá)湊齊了人形機(jī)器人開發(fā)“三大件”——超級(jí)計(jì)算機(jī)DGX(訓(xùn)練算力)、融合了Cosmos的仿真平臺(tái)Omniverse(訓(xùn)練數(shù)據(jù))、終端芯片Jetson Thor(推理算力)。
除了沒下場(chǎng)造機(jī)器人,能干的活基本全干了。
物理騙術(shù)和算力游戲
在虛擬世界構(gòu)建物理規(guī)則這件事上,英偉達(dá)的積累恐怕比大部分人想象的深厚。
一項(xiàng)技術(shù)的應(yīng)用并不取決于技術(shù)本身,而是能否綁定一個(gè)高商業(yè)價(jià)值的場(chǎng)景,實(shí)現(xiàn)自我造血的良性循環(huán)。在機(jī)器人和自動(dòng)駕駛大規(guī)模產(chǎn)業(yè)化之前,最匹配這項(xiàng)技術(shù)的英偉達(dá)的老本行:游戲。
大多數(shù)游戲都是對(duì)現(xiàn)實(shí)世界的模擬,但虛擬世界并不遵循現(xiàn)實(shí)世界的物理規(guī)則,小到游戲世界草木樹葉飄動(dòng)的方向、服裝布料的褶皺,大到刀劍揮砍的力度和反饋效果,都會(huì)影響游戲的“沉浸感”。
一種改進(jìn)思路由此產(chǎn)生:為什么不用物理公式計(jì)算物體的實(shí)時(shí)運(yùn)動(dòng)狀態(tài)、設(shè)計(jì)運(yùn)動(dòng)軌跡呢?
當(dāng)時(shí),一家名叫Ageia的初創(chuàng)公司開發(fā)了物理引擎PhysX,通過對(duì)游戲畫面中的物體做“受力分析->代入運(yùn)動(dòng)方程->更新位置信息->輸出”的實(shí)時(shí)循環(huán)計(jì)算[3],讓游戲中的場(chǎng)景盡可能貼合真實(shí)世界的物理規(guī)則。
由于PhysX需要消耗大量算力,Ageia還專門開發(fā)了配套的硬件PPU(Physics Processing Unit)專門負(fù)責(zé)物理運(yùn)算??上PU銷量慘淡,Ageia瀕臨倒閉,黃仁勛騎著白馬就來了。
收購(gòu)?fù)瓿珊?,英偉達(dá)干的第一件事就是砍掉PPU產(chǎn)品線,將PhysX的計(jì)算工作交給自家的GPU,并推出針對(duì)游戲開發(fā)的軟件工具箱PhysX APEX,降低使用門檻。
由于PhysX的特性是對(duì)物理規(guī)則的模擬和仿真,此后幾年,英偉達(dá)還推動(dòng)了PhysX在醫(yī)療手術(shù)、影視特效等工業(yè)場(chǎng)景的應(yīng)用。
2019年,英偉達(dá)在GPU架構(gòu)中引入RT核心,推出了光線追蹤功能。
和PhysX類似,光線追蹤的核心同樣是對(duì)真實(shí)物理規(guī)則的模擬——根據(jù)物體和光源、障礙物間的相對(duì)位置,實(shí)時(shí)計(jì)算出光線反射至人眼的狀態(tài)[4],每束光線的實(shí)時(shí)計(jì)算結(jié)果組合成一幀的畫面,讓英偉達(dá)狠狠秀了一把算力的肌肉。
伴隨自動(dòng)駕駛、人形機(jī)器人這些新產(chǎn)業(yè)的出現(xiàn),“在虛擬世界模擬物理規(guī)則”的需求也越來越大。
Cosmos和Omniverse等軟件工具的出現(xiàn),相當(dāng)于英偉達(dá)給人形機(jī)器人建了個(gè)可以沉浸式訓(xùn)練的“健身房”,接下來就可以賣“私教課”了——你看我的芯片怎么樣?
英偉達(dá)的野心
過去二十年,英偉達(dá)的經(jīng)營(yíng)思路可以用一句話來概括:讓高性能計(jì)算不斷覆蓋高價(jià)值的場(chǎng)景。
GPU是高性能計(jì)算的載體,也是英偉達(dá)的核心產(chǎn)品。2010年之前,雖然一些學(xué)者已經(jīng)開始使用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò),但GPU對(duì)應(yīng)的高價(jià)值場(chǎng)景其實(shí)只有游戲一個(gè)。
按照黃仁勛的說法,游戲市場(chǎng)“既代表著最棘手的技術(shù)難題,又具備驚人的市場(chǎng)規(guī)模,同時(shí)擁有這兩個(gè)特質(zhì)的市場(chǎng)非常罕見?!?/p>
英偉達(dá)開拓的第一個(gè)新場(chǎng)景是移動(dòng)設(shè)備。2013年小米3發(fā)布,處理器采用高通驍龍800和英偉達(dá)的Tegra系列混搭,是英偉達(dá)切入手機(jī)市場(chǎng),開辟顯卡之外第二戰(zhàn)線的絕佳機(jī)會(huì)。
當(dāng)時(shí),英文不好的雷軍和中文不好的黃仁勛罕見同臺(tái),黃仁勛現(xiàn)場(chǎng)還當(dāng)了一回米粉。
可惜Tegra芯片因?yàn)橹瞥毯屯鈷?a class="article-link" target="_blank" href="/baike/1543055.html">基帶問題,能耗失控發(fā)熱嚴(yán)重。英偉達(dá)的移動(dòng)業(yè)務(wù)此后也未見起色,Tegra系列只能在任天堂Switch上發(fā)揮余熱。后來黃仁勛去臺(tái)大演講,稱英偉達(dá)“主動(dòng)放棄”了智能手機(jī)市場(chǎng)。
第二個(gè)場(chǎng)景是自動(dòng)駕駛。最先吃螃蟹的是特斯拉,Model S/X都曾搭載過英偉達(dá)的方案。黃仁勛也從米粉變成特斯拉車主,跟馬斯克如膠似漆。
雖然特斯拉后來用自研方案替代了英偉達(dá),但有了榜樣的力量,英偉達(dá)還是順利打入造車新勢(shì)力內(nèi)部。不過汽車業(yè)務(wù)在英偉達(dá)的版圖中遠(yuǎn)不如游戲和數(shù)據(jù)中心耀眼,營(yíng)收占比幾乎從未超過5%。
第三個(gè)場(chǎng)景是人工智能。ChatGPT的橫空出世讓英偉達(dá)徹底打開收入天花板,計(jì)算機(jī)視覺、大語(yǔ)言模型等前沿計(jì)算機(jī)科學(xué)統(tǒng)統(tǒng)都離不開英偉達(dá)的芯片,也讓后者成為了全球市值最高的半導(dǎo)體公司。
第四個(gè)場(chǎng)景就是人形機(jī)器人,以及更加廣闊的“物理AI”。按照黃仁勛的說法,“我們正處于生成式人工AI階段,將走向智能體AI時(shí)代,隨后是物理AI時(shí)代?!?/p>
而在具體思路上,英偉達(dá)不僅提供芯片,還會(huì)開發(fā)對(duì)應(yīng)的軟件工具箱和配套服務(wù)。換句話說,英偉達(dá)不僅賣鏟子,也提供全套的保養(yǎng)工具和防護(hù)設(shè)備,但必須搭配英偉達(dá)牌的鏟子。
在游戲業(yè)務(wù)里,光線追蹤、DLSS等功能必須搭配英偉達(dá)的GPU使用;類似的邏輯,英偉達(dá)不僅向大模型和云計(jì)算公司出售GPU,還會(huì)提供NVLink這類通信連接方案、CUDA編程平臺(tái)與之牢牢綁定。
隨著今年GTC演講結(jié)束,Cosmos、Newton等軟件和模型的發(fā)布,一個(gè)圍繞GPU與“物理AI”的收費(fèi)站也宣告落成。
如果黃仁勛中文水平夠高,多少也得來一句“英偉達(dá)不造機(jī)器人,幫助機(jī)器人公司造好機(jī)器人”。
參考資料
[1]?未來簡(jiǎn)史,尤瓦爾·赫拉利
[2] 萬字長(zhǎng)文詳解特斯拉自動(dòng)駕駛體系,自動(dòng)駕駛之心
[3] 給我一個(gè)物理引擎,我也能“預(yù)測(cè)”世界杯?中科院物理所
[4] “光線追蹤”雜談,電子報(bào)
[5] Unimate 機(jī)器人:工業(yè)自動(dòng)化的起源,AGV
編輯:李墨天視覺設(shè)計(jì):疏睿
責(zé)任編輯:何律衡