1977年,電影《星球大戰(zhàn)》橫空出世,其塑造的宏大宇宙觀及一系列前衛(wèi)科技,在當時引起巨大轟動,也啟蒙了無數(shù)人對科技未來的想象。40余年后的今天,影片中許多曾經(jīng)遙不可及的設想,正逐步變?yōu)楝F(xiàn)實。例如,曾在《星球大戰(zhàn)》系列電影中承擔重要運輸任務的機器人,已逐漸走出科幻世界,越來越多地應用于日常生活和工業(yè)生產(chǎn)中。
在剛剛結(jié)束的CES上,NVIDIA發(fā)布了一系列面向AI時代的新產(chǎn)品和技術(shù),其中,在機器人領域的平臺突破,無疑影響深遠。值得一提的是,在NVIDIA CEO黃仁勛身后亮相的由14款人形機器人中,有6款來自中國企業(yè),其中一家就是銀河通用。
“中國的機器人技術(shù)是一個令人著迷且快速發(fā)展的領域。小時候,我深受《星球大戰(zhàn)》和《星際迷航》的啟發(fā),機器人技術(shù)一直讓我覺得是人工智能最大的應用方向之一”,NVIDIA機器人與邊緣計算副總裁Deepu Talla表示。
日前,Deepu Talla在訪問中國市場期間,與銀河通用創(chuàng)始人、CTO王鶴,共同接受了<與非網(wǎng)>等媒體采訪,就機器人的發(fā)展動力、最新突破等話題,進行了深入的分析和探討。
突破1:仿真——重塑開發(fā)流程,機器人產(chǎn)業(yè)加速前進
多年來,三大核心因素始終在驅(qū)動著機器人技術(shù)的發(fā)展,包括:危險的工作、勞動力短缺以及養(yǎng)老需求。不過,在看似不變的驅(qū)動力下,機器人的發(fā)展正在產(chǎn)生新的變化。特別是從2024年到2025年,業(yè)界對機器人技術(shù)的興趣顯著增長,中美兩國企業(yè)都在探索如何開發(fā)人形機器人。
為什么在這個時間節(jié)點,人形機器人開始加速前進?是什么發(fā)生了什么改變?
NVIDIA機器人與邊緣計算副總裁 Deepu Talla
Deepu Talla指出,主要有兩方面原因:首先是技術(shù)進步,特別是在生成式AI(GenAI)領域。大約兩年前,大型語言模型(LLMs)顛覆了數(shù)字應用領域,這些技術(shù)應用于機器人技術(shù),打破了數(shù)字應用與物理應用之間的界限。
其次是仿真環(huán)境的改進。以前,機器人技術(shù)的測試主要依賴于物理環(huán)境,這導致進展非常緩慢。近年來,隨著數(shù)字孿生、人工智能等技術(shù)的快速發(fā)展,仿真技術(shù)越來越多地被應用于人形機器人的開發(fā)過程中,為人形機器人的研發(fā)開辟了新思路。
機器人的主要挑戰(zhàn)在于“仿真與現(xiàn)實的差距”(sim-to-real gap)——也就是仿真結(jié)果與實際表現(xiàn)之間的差異。像Omniverse這樣的技術(shù)進步顯著縮小了這一差距,使仿真成為機器人開發(fā)中的一種可行且有效的工具。
某種程度而言,機器人開發(fā)比自動駕駛更難——Deepu Talla指出。對于自動駕駛來說,主要是避免障礙并確保安全,而無需與物理物體交互。而在機器人領域,涉及到的是與物體的接觸、碰撞和復雜的物理交互,這些都更難測試和優(yōu)化。
“為了解決機器人領域的挑戰(zhàn),我們需要三臺計算機:第一臺計算機用于訓練:這是用于訓練AI模型的系統(tǒng)。訓練通常在云端、數(shù)據(jù)中心或像NVIDIA DGX這樣的強大系統(tǒng)上進行。這是構(gòu)建機器人‘大腦’的關(guān)鍵步驟。第二臺計算機用于仿真:一旦訓練完成,就需要進行測試。以往的標準是物理測試,但這種方式既慢又昂貴,還存在風險。更好的解決方案是引入一個‘仿真層’,即‘數(shù)字孿生’,在虛擬環(huán)境中完成測試,無需受到真實世界時間或成本的限制。第三臺計算機用于部署:第三種系統(tǒng)安裝在機器人內(nèi)部,它就是操作物理機器人的‘大腦’。對NVIDIA來說,這可以通過像Jetson或AGX這樣的系統(tǒng)來實現(xiàn)”,Deepu Talla解釋說。
通過整合這三種系統(tǒng),可以顯著縮短開發(fā)時間。這個循環(huán)過程(訓練、仿真、測試)使得機器人技術(shù)進步能夠在5年內(nèi)完成,大大加速了整個開發(fā)部署流程。
突破2:合成數(shù)據(jù)——打破交互瓶頸,助力機器人海量落地
正如Deepu Talla所指出的機器人與真實世界的交互難度,仿真到真實的遷移絕非易事。以ChatGPT這樣的流行模型為例,是在大型GPU和來自互聯(lián)網(wǎng)的海量文本數(shù)據(jù)上訓練出來的。但機器人模型的訓練需要完全不同的數(shù)據(jù)。
由于機器人需要執(zhí)行動作,比如拾取物體、移動、交互或完成任務。再進一步說,如果想模擬一個機器人抓取物體的場景,就需要構(gòu)建一個仿真環(huán)境,并對物體及場景的各種屬性進行定義,包括物體的形狀、材質(zhì)、紋理、質(zhì)量、摩擦力等?!斑z憾的是,目前這種數(shù)據(jù)在規(guī)模上根本不存在”,Deepu Talla說。
他指出,已有的數(shù)據(jù)收集與解決方案主要存在兩方面挑戰(zhàn):
一是現(xiàn)實世界數(shù)據(jù)的局限性:與自動駕駛汽車可以依賴現(xiàn)有車輛通過傳感器收集數(shù)據(jù)不同,目前機器人的數(shù)量還遠遠不足以產(chǎn)生可比的數(shù)據(jù)量;二是當前的方法包括使用Apple Vision Pro或動作捕捉套裝來記錄人類動作的示范,這些方法雖能提供有用的數(shù)據(jù),但規(guī)模太小,無法完全滿足機器人模型的訓練需求。
“沒有足夠的數(shù)據(jù),機器人模型無法進行有效的訓練、測試或部署。這使得數(shù)據(jù)的收集和生成成為解決機器人開發(fā)挑戰(zhàn)的關(guān)鍵第一步。通過采用這種結(jié)合現(xiàn)實與合成數(shù)據(jù)的創(chuàng)新工作流,我們正為機器人領域的重大進步鋪平道路”,Deepu Talla表示。
對于解決這一問題,合成數(shù)據(jù)生成變得至關(guān)重要。通過合成數(shù)據(jù),可以生成特定動作(例如抓取物體)的無數(shù)種變化,或者構(gòu)建完整的虛擬環(huán)境。
最新推出的NVIDIA Cosmos,就相當于是一個“世界基礎模型”(“世界”指的不是地球,而是機器人交互的環(huán)境,例如機器人操作的房間內(nèi)可見區(qū)域),它可以生成高度逼真、類似視頻游戲的環(huán)境,用于機器人訓練。
一個簡單的例子可以理解“世界基礎模型”帶來的好處。在開發(fā)過程中,可以直接輸入自然語言指令,比如“構(gòu)建一個包含玻璃花瓶、木質(zhì)桌子和金屬桌腿的室內(nèi)場景”,世界基礎模型就能夠自動解析這些指令,并基于其對于物理世界的理解,構(gòu)建出相應的仿真環(huán)境。這樣一來,就可以大幅節(jié)省構(gòu)建仿真環(huán)境的時間,同時提升仿真環(huán)境的真實性和多樣性。
“通過將少量的現(xiàn)實世界數(shù)據(jù)與使用NVIDIA Cosmos生成的大規(guī)模合成數(shù)據(jù)相結(jié)合,就可以克服機器人技術(shù)中數(shù)據(jù)稀缺的問題”,Deepu Talla表示,“目前,這種新工作流已經(jīng)宣布并部分上線。我們正在與全球合作伙伴共同實施這一解決方案,以解決機器人領域的基礎數(shù)據(jù)挑戰(zhàn)?!?/p>
銀河通用合成數(shù)據(jù)突破,機器人走入廣泛場景
在剛剛結(jié)束的CES上,當14臺人形機器人在黃仁勛身后緩緩升起時,他說,“通用機器人的ChatGPT時刻即將到來?!边@其中就包括銀河通用的人形機器人,它穩(wěn)穩(wěn)托舉起了NVIDIA新一代顯卡產(chǎn)品RTX5090。發(fā)布會結(jié)束后,黃仁勛第一時間參觀了銀河通用的展臺,并親自體驗了銀河通用人形機器人替用戶取貨的全流程。
為了推動人形機器人的發(fā)展,NVIDIA構(gòu)建了完整的用于合成運動生成的Isaac GR00T Blueprint,這是一項非常全面的針對人形機器人開發(fā)通用基礎模型的計劃,涵蓋從數(shù)據(jù)生成到最終部署的完整流程,可幫助開發(fā)者生成海量的合成運動數(shù)據(jù),以便通過模仿學習來訓練人形機器人。
創(chuàng)立于2023年5月的銀河通用,創(chuàng)業(yè)伊始,目標也是聚焦于“通用”。王鶴表示,“本質(zhì)上,我們希望打造與專用機器人不同,能夠?qū)崿F(xiàn)通過人形高自由度的機器人進入各行各業(yè),走進千家萬戶?!?/p>
銀河通用創(chuàng)始人、CTO 王鶴
谷歌和特斯拉的數(shù)據(jù)顯示,采集13萬條數(shù)據(jù)需17個月、16名工程師和13臺機器人,成本高達百萬。這也意味著,短期內(nèi),真實世界數(shù)據(jù)驅(qū)動人形機器人實現(xiàn)具身智能的突破難度較大。
據(jù)介紹,銀河通用自創(chuàng)立起便致力于通過合成數(shù)據(jù)推動智能發(fā)展,是該領域的早期探索者。通過利用NVIDIA Isaac系列和Omniverse等工具,合成大量機器人操作數(shù)據(jù)并轉(zhuǎn)化為模型;以及通過融合3D資產(chǎn)、環(huán)境和材質(zhì)紋理,模擬機器人運行場景,探討其操作物體的方式。
王鶴解釋說,在這一過程中,仿真器和渲染引擎至關(guān)重要,因為它們用于驗證合成場景的物理正確性,并通過并行渲染器生成海量合成數(shù)據(jù)。
目前,銀河通用在這方面的進展主要包括:合成機械臂抓取蘋果和眼鏡的軌跡,利用豐富的物體和材質(zhì)庫,滿足多樣化需求,同時覆蓋不斷變化的場景、光照、紋理和動作軌跡,以涵蓋各種可能情況。
讓王鶴引以為傲的是,銀河通用完全基于自研的10億級別的合成大數(shù)據(jù),訓練出了全球第一個堪稱基礎模型的技術(shù),也是迄今為止全球最大的機器人基礎模型——10億級數(shù)據(jù)。這些數(shù)據(jù)并非來自真實世界,所有數(shù)據(jù)都來自合成,沒有任何真實數(shù)據(jù)。
這一基礎模型具有諸多顯著特性,滿足七大泛化“金標準”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態(tài)干擾泛化、物體類別泛化。它能夠根據(jù)輸入的語言指令,直接針對特定任務進行操作。
在銀河通用的現(xiàn)場演示中,這款模型展現(xiàn)了多項突破性的能力,包括抓取不同位置的物體。四種球在不同高度上可以變換背景,如水泥桌面、金屬桌面、大理石桌面、木質(zhì)桌面等。對于各種顏色的餐布,也能很好地適應。
演示中,該模型展現(xiàn)出了令人驚艷的三大表現(xiàn):
首先是隨機說出一個物體名稱,即使這個物體沒有出現(xiàn)在合成數(shù)據(jù)中,機器人也能進行抓取。據(jù)了解,這是因為模型的開展通過監(jiān)督閉環(huán),能夠?qū)崟r調(diào)整并進行碰撞處理,因此提升了抓取的成功率。
其次是面對特殊新需求,機器人運用基礎大模型的能力。比如抓取一箱瓶裝水,演示中,針對“東方樹葉”這個品牌,機器人在包裝上采集了200條數(shù)據(jù)后,模型學會的能力便可以應用于其他品牌。此外,還有對于一些特殊零件抓取任務,即便不清楚零件具體名稱,采集 100 條數(shù)據(jù)并掌握零件名稱后,模型就能實現(xiàn)對其抓取。
第三是在家庭等場景中,人們對機器人的行為有特定的偏好。例如抓取杯子時,機器人不能碰到杯子內(nèi)壁。通過少量數(shù)據(jù)進行訓練后,就可以教會機器人如何幫助人們抓取不同的杯子而不碰到內(nèi)壁。
“這種偏好設定對于機器人的應用至關(guān)重要。想象一下,如果現(xiàn)有的大模型在應用時仍需大量數(shù)據(jù)(幾千條甚至幾萬條)才能理解用戶的偏好并融入其中,那么機器人落地應用將變得極為困難,不僅需要較長的數(shù)據(jù)采集時間,這部分成本也會轉(zhuǎn)嫁到產(chǎn)品上,最終影響產(chǎn)品交付給客戶”,王鶴強調(diào)。
銀河通用基于10億規(guī)模合成大數(shù)據(jù)訓練的模型,僅需100條數(shù)據(jù)就能滿足企業(yè)需求,顯著減少數(shù)據(jù)采集時間和成本。該模型作為基礎模型,能快速理解客戶需求并泛化到同類物體,如零售店中的不同產(chǎn)品。它能迅速部署到企業(yè)中,加速具身大模型機器人的行業(yè)應用。借助大數(shù)據(jù),銀河通用完成了更多復雜任務,如靈巧抓取。通過10億級別零售數(shù)據(jù)訓練的擴散模型,實現(xiàn)了四指或五指操作的精準抓取,成功率超90%,為靈巧操作奠定了基礎。
此外,銀河通用將模型與足式機器人結(jié)合,在NVIDIA Isaac引擎中大規(guī)模應用。全身控制學習使機器人自主運行,完成任務。例如,宇樹的四足機器人能繞未名湖撿垃圾,精準識別垃圾,基于強化學習,不依賴真實數(shù)據(jù)。這種能力可針對不同材質(zhì)、形狀、地形等靈活調(diào)整,實現(xiàn)室內(nèi)外及不同場景的良好泛化應用。
人形機器人如何克服真實場景落地挑戰(zhàn)?
盡管合成數(shù)據(jù)大幅降低了數(shù)據(jù)挑戰(zhàn),但是在實際應用中,人形機器人仍要面臨與現(xiàn)實場景不一致的挑戰(zhàn)。如何進一步縮小虛擬與現(xiàn)實環(huán)境的差距?
Deepu Talla表示,GR00T Blueprint通過多樣化的參考架構(gòu),可為特定任務提供定制化的blueprints,以減少合成數(shù)據(jù)與現(xiàn)實場景的不一致。它包括GR00T-Mimic工具,可生成多種軌跡,以及GR00T-Gen,利用Cosmos技術(shù)將3D數(shù)據(jù)轉(zhuǎn)換為不同格式,支持現(xiàn)實場景復雜性的模擬。此外,平臺為視覺、語言和動作(VLA)模型訓練及機器人策略測試設計了專用藍圖,如Isaac Lab仿真環(huán)境中的測試藍圖。
GR00T平臺還注重實時多模態(tài)數(shù)據(jù)處理,能夠整合攝像頭和傳感器數(shù)據(jù),與機器人執(zhí)行器無縫協(xié)作,提升環(huán)境感知能力并縮小仿真與現(xiàn)實的差距。并且,依托Omniverse的Isaac Sim仿真環(huán)境,通過數(shù)字孿生技術(shù)高度還原真實場景,結(jié)合物理交互屬性,能夠確保仿真環(huán)境的現(xiàn)實一致性,幫助機器人精準適應真實場景。
正是通過多種工具的結(jié)合,NVIDIA實現(xiàn)了靈活且可擴展的平臺?!拔覀兊哪繕瞬皇侵圃烊诵螜C器人,而是打造一個平臺,使每個人都能創(chuàng)建自己的機器人。我們正在不斷為平臺添加更多功能,以確保其靈活性和可擴展性”,Deepu Talla補充。
除此之外,使用合成數(shù)據(jù)訓練機器人,確保物理上的真實性和準確性也是一大挑戰(zhàn)。
對此,王鶴解釋,盡管仿真器正在不斷發(fā)展,物理建模和接觸模擬的應用也在持續(xù)進步。然而也必須承認,目前沒有任何一個仿真器能夠完全模擬真實世界。
因此對于使用仿真器的機器人公司來說,如何平衡數(shù)據(jù)生成與真實機器人對接始終是一個挑戰(zhàn)。目前,解決這個問題的途徑是,通過算法手段將仿真與現(xiàn)實世界的差異縮小。例如,通過貝爾曼最優(yōu)性原則,采用預隨機化方式,對接觸面上的摩擦力、材質(zhì),以及物體的質(zhì)量中心、質(zhì)量大小和分布等問題進行隨機處理。實際上,現(xiàn)實中存在諸多復雜因素,在仿真環(huán)境中處理這些因素比在真實環(huán)境中更具挑戰(zhàn)性。
他補充,雖然仿真器不需要與真實環(huán)境達到完全一致,但它應該具備更好的魯棒性和泛化能力,能夠在各種應用場景下保持有效性。這也是銀河通用一直以來努力鉆研并持續(xù)推進的技術(shù),目標是確保機器人在仿真中學習到的策略能夠在現(xiàn)實世界中有效應用。
寫在最后
傳統(tǒng)的機器人開發(fā)方法主要是基于規(guī)則進行編程,這種方法在面對高度復雜和不可預測的環(huán)境時,往往會力不從心。而基于深度學習的方法則不同,它可以讓機器人通過觀察和模仿人類專家的示范來學習新技能,
不過,這需要收集大量廣泛且高質(zhì)量的數(shù)據(jù)集,而這些數(shù)據(jù)集的收集往往既繁瑣又耗時,成本高昂。面臨這些挑戰(zhàn),NVIDIA打造的仿真環(huán)境,以及與業(yè)界在合成數(shù)據(jù)等方面探索,正在逐一打破這些瓶頸,為人形機器人注入新靈魂,開啟新范式,推動人形機器人產(chǎn)業(yè)步入快速發(fā)展期。