• 正文
    • 智能化下半場,機器人與模型融合創(chuàng)新
    • Physical物理型AI,用模型賦能機器人潛力
    • 寫在最后
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

機器人與模型深度融合開啟智能升級下半場,智能終端的未來終局是物理AI

01/24 10:50
929
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:李寧遠物聯(lián)網(wǎng)智庫 原創(chuàng)

年初的CES 2025可以說給今年的智能硬件產(chǎn)品拉開了盛大的帷幕,不少創(chuàng)新的智能產(chǎn)品紛紛登場,在AI技術(shù)的加持下展現(xiàn)出豐富的應用方向。雖然AI發(fā)展還有漫長的道路要走,但從云到端已經(jīng)成為一個明確的發(fā)展趨勢,AI世界在今年開啟了屬于智能硬件的下半場。

這些登場的智能硬件產(chǎn)品里,機器人產(chǎn)品是極具代表性的一類,尤其是人形機器人可以說是展會上最能代表前沿科技成果的焦點。英偉達演講期間14款機器人登場組成的“人形機器人軍團”加上黃仁勛那句“通用機器人的ChatGPT時刻即將到來”的感嘆,令人印象深刻。

從人形機器人前后的發(fā)布足跡來看,如果說之前機器人的性能革新,AI技術(shù)還隱于底層軟硬件背后,更強調(diào)場景任務精密地控制執(zhí)行。那么最近圍繞人形機器人的性能革新,都已經(jīng)不約而同地圍繞一個關(guān)鍵宣傳詞——AI。

當前AI發(fā)展已經(jīng)用盡了所有人類知識進行訓練,現(xiàn)在開始使用合成數(shù)據(jù),并將在未來 3-4 年內(nèi)發(fā)展到可以完成任何認知任務。現(xiàn)階段AI已經(jīng)給人類生活帶來了改變,未來將繼續(xù)帶來巨大變革,甚至可以完成任何人想要的事情。作為智能硬件的代表,機器人與AI的結(jié)合自然也更緊密,同時二者的結(jié)合也加速了機器人向落地更進一步。

作為引領(lǐng)人形機器人浪潮的Optimus,馬斯克不久前公開表態(tài)要把特斯拉的未來押注在Optimus機器人上,2025年特斯拉的目標是制造數(shù)千臺人形機器人,2026年特斯拉的人形機器人產(chǎn)量將增加10倍,目標為生產(chǎn)5萬到10萬個人形機器人,以后或每年翻10倍。

除了人形機器人,消費級智能機器人產(chǎn)品也開始涌現(xiàn),如陪伴機器人、清潔機器人、商業(yè)服務機器人均開始在智能化上衍生多樣功能。特別是今年年初陸續(xù)登場的眾多創(chuàng)新AI陪伴機器人,帶動了AI機器人玩具這一新賽道的發(fā)展。

在前文《CES智能終端崛起引領(lǐng)算力下沉,端側(cè)AI芯片性能再革新》中曾提到過,英偉達梳理的AI技術(shù)進化路徑是從 Perception 感知AI到 Generative生成式AI,再到Agentic代理型AI,最終實現(xiàn)具備傳感與執(zhí)行功能的Physical 物理型AI。

在Physical 物理型AI終極形態(tài),任何能感知并執(zhí)行操作的設備都被視為是機器人,并由AI賦能釋放應用潛力。物理AI這一概念正在引領(lǐng)AI技術(shù)在機器人端側(cè)的革新,通過硬件與模型的深度融合將AI從數(shù)字世界帶入物理世界。

智能化下半場,機器人與模型融合創(chuàng)新

機器人借力智能模型通過多模態(tài)能力增強智能理解和決策是現(xiàn)今產(chǎn)業(yè)鏈正在推進的方向,從近期人形機器人發(fā)展能明顯看出這個趨勢。

不久前阿加犀攜手高通,發(fā)布了全球首臺完全基于高通SoC的端側(cè)多模態(tài)AI大模型人形機器人——“通天曉”(Ultra Magnus)。根據(jù)官方給出的定位,這是基于終端側(cè)生成式AI的具身智能人形機器人解決方案。

高通的QCS8550處理器為機器人動作控制、感知、決策規(guī)劃和語音交互提供底層計算能力支持。同時機器人基于終端側(cè)大語言模型技術(shù),運用端側(cè)語言小模型識別實現(xiàn)自然語音交互和用戶意圖理解,此外還融合了視覺感知技術(shù)對機器人運動控制與作業(yè)進行規(guī)劃。

在英偉達演講“人形機器人軍團”中亮相的銀河通用Galbot G1則搭載了具身抓取基礎大模型。不久前銀河通用也聯(lián)合北京智源人工智能研究院(BAAI)及北京大學和香港大學研究人員正式發(fā)布了具身抓取基礎大模型 GraspVLA。Galbot是人形機器人分支下的輪式人形機器人,即下半身采用AMR式的輪式移動地盤,不追求雙足式在靈活移動上的性能,聚焦于上半身的功能執(zhí)行。

這里不過多展開二者的形態(tài)之爭,輪式的優(yōu)勢在于從目前發(fā)展階段的商業(yè)化角度來看,輪式人形機器人設計、制造成本會相對較低一些,輪式移動底盤已經(jīng)相當成熟比雙足的運動控制簡單很多成本也更低,在商業(yè)化上可能先取得進展。聚焦在上肢的功能執(zhí)行,Galbot的模型層通過仿真合成數(shù)據(jù)自研合成千萬級的場景數(shù)據(jù)以及海量抓取和導航數(shù)據(jù)來掌握泛化閉環(huán)抓取能力,達成基礎的感知操作模型。

去年剛剛成立的靈初智能不久前也發(fā)布首個基于強化學習(RL)的具身模型 Psi R0。該模型也是感知操作模型,支持雙靈巧手將多個技能串聯(lián)進行復雜操作,還可以實現(xiàn)跨物品、跨場景級別的泛化。

不止是2B類機器人在融合模型開始智能化升級,在許多消費類機器人產(chǎn)品上,這一趨勢發(fā)展得同樣迅速,特別以語言與感知模型與終端側(cè)的結(jié)合居多。

大象機器人開發(fā)陪伴類機器人以動物外觀作為外形設計,搭載AI大模型,理解人類語意和情感判別,提供情緒價值為主的智能交互。

TCL近期推出的的分體式智能家居陪伴機器人Ai Me基于AI大模型不僅能與人進行多模態(tài)的自然交互,提供溫暖的情感陪伴和擬人互動,還能智能移動并自動捕捉家庭美好瞬間。此外,Ai Me還會通過與用戶的互動不斷學習和適應家庭成員行為習慣控制家居設備,在陪伴等情緒價值之外兼顧了家居智能中控的功能,功能發(fā)散得越來越多樣。

在清潔家電深耕多年的云鯨智能同樣在向機器人+模型的具身智能方向轉(zhuǎn)變,推出的逍遙系列已經(jīng)是具身智能雛形,通過大模型下達清潔指令,機器人依靠自己的語義理解去行動、識別、完成清潔。

消費類機器人尤其是提供情緒價值的陪伴類機器人有著很強的玩具屬性,在模型技術(shù)的發(fā)展下這些機器人從簡單的互動設備進化到集教育、陪伴和娛樂功能于一身。這類機器人和手辦、玩偶以及“谷子”一樣,能在情緒上給予消費者很高價值反饋,有著很高的市場接受度高,市場空間正在打開。

其實將視野再放大一些,很多創(chuàng)新的實體終端設備都開始搭載AI技術(shù)來迭代功能,在終端設備與終端側(cè)AI的深度融合下,未來手機、PC,家電、汽車、玩具等等設備未嘗不是另一種形態(tài)的機器人,這些實體的智能終端也正是物理AI的愿景。

在這些終端市場的發(fā)展上,終端側(cè)AI也正朝著多模態(tài)融合、模型小型化與適配等方向發(fā)展,與終端硬件配置協(xié)同更新。可以說正是因為模型能力已演進到一定程度能在終端側(cè)賦能硬件,才讓物理AI變得可行。

Physical物理型AI,用模型賦能機器人潛力

Physical物理型AI在基礎硬件上的需求提升自然是全方位的,聚焦在模型上,硬件配置完備機器人能否在不確定的環(huán)境下正常運行,決定因素之一是具不具備泛化決策能力的“大腦”。建立起對空間與物理過程進行精準建模、理解與推理決策的“世界模型”是實現(xiàn)具身智能的前提。

NVIDIA在CES 2025上面向物理AI開發(fā)發(fā)布的最新“世界基礎模型”——Cosmos為代表,Cosmos是一套“用于物理感知視頻生成的開放式擴散和自回歸 Transformer 模型”,擁有一系列開放的預訓練世界基礎模型,可以預測和生成虛擬環(huán)境未來狀態(tài)的物理感知視頻的神經(jīng)網(wǎng)絡。該世界基礎模型通過生成合成數(shù)據(jù),使用包括文本、圖像、視頻和運動在內(nèi)的輸入數(shù)據(jù)來生成和仿真虛擬世界,以準確模擬場景中物體的空間關(guān)系及其物理交互。

應該說在當前的AI架構(gòu)和模型范式下,通過生成式物理仿真,捕捉現(xiàn)實世界時空四維鏡像,從而獲取大量的物理數(shù)據(jù)是實現(xiàn)具身智能的關(guān)鍵。和語言大模型不一樣,機器人世界模型所需的訓練數(shù)據(jù)需要精確標定來進行學習和泛化,很難從現(xiàn)實世界完成龐大的采集量且采集后多模態(tài)數(shù)據(jù)很難標定,度量不一這些數(shù)據(jù)就無法被模型利用。

機器人模型從Sim到Real也就成了更有效率的一條路,生成大量可控的基于物理學的合成數(shù)據(jù),仿真虛擬世界以準確模擬場景中物體的空間關(guān)系及其物理交互。在物理AI模型部署到現(xiàn)實世界之前進行仿真測試和調(diào)試,以及在虛擬環(huán)境中進行強化學習以加速AI智能體學習。然后通過部分真實數(shù)據(jù)做對齊,進一步提高機器人執(zhí)行準確性,最終實現(xiàn)物理AI愿景。

當然,實現(xiàn)真正意義上的Physical物理型AI,這些世界模型的建立與應用需要更多的計算能力和海量數(shù)據(jù)的學習與訓練。除了通向物理AI終局的世界模型,終端側(cè)大模型以及細分小模型的應用已經(jīng)在持續(xù)推動終端設備智能化進程,讓其擁有感知環(huán)境變化,依據(jù)觀測數(shù)據(jù)優(yōu)化決策,從而更精確地進行物理交互的能力。而未來更全面更真實世界模型與終端機器人的融合將進一步將AI向物理AI終局推動。

世界模型與下沉到端側(cè)的語言、感知、操作模型共同賦能下物理Al將不斷賦予“以機器人為代表的終端物理設備”自我適應和深度決策能力,使其在真實世界中具備更強的動手與動腦能力。

這里強調(diào)了是“以機器人為代表的終端物理設備”,物理AI的終局并不一定是現(xiàn)階段我們認知的機器人,尤其不一定是人形。物理形態(tài)只是載體,在AI的加持下,設備外形設計適配具體任務的執(zhí)行即可。在終端設備與終端側(cè)AI的深度融合下,未來家電設備、自動汽車等設備又何嘗不是另一種形態(tài)的機器人,這些實體的智能終端也正是物理AI的愿景。

寫在最后

世界基礎模型提供物理世界知識和高仿真數(shù)據(jù),奠定泛化基礎;端側(cè)模型經(jīng)細化、壓縮及多模態(tài)融合優(yōu)化,適配終端側(cè)設備算力需求;加之基礎硬件如專用計算芯片、AI加速器性能的提升,物理AI時代正在慢慢變?yōu)楝F(xiàn)實。

相關(guān)推薦