作者 |??程茜,編輯?|??心緣
稚暉君的新機(jī)器人指明了家庭機(jī)器人發(fā)展方向?
稚暉君的人形機(jī)器人又雙叒叕進(jìn)化了!
智東西3月11日?qǐng)?bào)道,今天,智元機(jī)器人正式發(fā)布最新全能探索機(jī)器人“團(tuán)寵”——靈犀X2,智元機(jī)器人創(chuàng)始人兼CTO稚暉君稱(chēng),X2集運(yùn)動(dòng)、交互、作業(yè)能力為一體,是第一臺(tái)真正具備復(fù)雜交互能力的靈動(dòng)機(jī)器人。
X2體重33.8千克,全身28個(gè)自由度。靈犀X2的命名寄予了他們對(duì)機(jī)器人的憧憬:希望它既靈動(dòng)又犀利。
這一新“團(tuán)寵”集三大能力為一體:支持高自由度運(yùn)動(dòng)能力的雙足人形機(jī)器人、搭載情感計(jì)算引擎的智能交互機(jī)器人、初步具備通用任務(wù)執(zhí)行能力的具身機(jī)器人。X2在運(yùn)動(dòng)方面,能騎平衡車(chē)、滑板車(chē)、自行車(chē);交互方面,可以基于動(dòng)作、視覺(jué)、語(yǔ)音模型和人類(lèi)實(shí)時(shí)自然交流;作業(yè)能力方面,擁有簡(jiǎn)單任務(wù)的泛化能力。值得一提的是,為了讓機(jī)器人更像人,X2集成的多模態(tài)交互大模型硅光動(dòng)語(yǔ)中的動(dòng)作模塊,還讓其擁有了仿人的小動(dòng)作,比如坐在椅子上晃腳、走路擺手等。
作為B站百萬(wàn)up主,這也是稚暉君時(shí)隔兩年的首次重磅更新,他特意錄制了12分10秒的視頻將X2從里到外介紹了個(gè)清楚。X2的研發(fā)耗時(shí)三個(gè)月,這條視頻準(zhǔn)備時(shí)間長(zhǎng)達(dá)一個(gè)月。稚暉君視頻B站播放量已超66萬(wàn)。評(píng)論區(qū)的網(wǎng)友,一邊感慨看到了未來(lái)家用機(jī)器人的雛形、民用機(jī)器人真正實(shí)用發(fā)展方向,并預(yù)言這款機(jī)器人“已經(jīng)可以大賣(mài)了”,另一邊有人在感慨“這種機(jī)器人大規(guī)模發(fā)展了,人類(lèi)該怎么辦”。
01.像搭積木一樣攢硬件系統(tǒng)讓機(jī)器人不再“鋼筋鐵骨”
研發(fā)人員在靈犀X2的本體設(shè)計(jì)上下足了功夫。
首先來(lái)看硬件系統(tǒng),智元機(jī)器人的研發(fā)人員讓其變得像搭積木一樣簡(jiǎn)單。
他們將機(jī)器人的硬件系統(tǒng)抽象成一系列可復(fù)制的核心組件,包括小腦控制器Xyber-Edge、域控制器Xyber-DCU、智能電源管理系統(tǒng)Xyber-BMS、核心關(guān)節(jié)模組Powerflow。
就像無(wú)人機(jī)愛(ài)好者們通過(guò)集成飛行控制器這一核心組件,自主組裝或定制具備高智能化、自動(dòng)化功能的無(wú)人機(jī)系統(tǒng),開(kāi)發(fā)者也能用這些核心組件快速搭建起一套可靠的人形機(jī)器人系統(tǒng),或者各種形態(tài)的人形機(jī)器人系統(tǒng),甚至是稚暉君一直鴿的“哪吒完全體”。
其次是機(jī)體材料選擇,與此前鋼筋鐵骨的機(jī)器人不同,X2皮膚軟軟的。
據(jù)透露,他們?yōu)閄2嘗試了TPU、ETPU、EVA等各種材料,這些材料通常被用于鞋底減震緩沖,甚至還嘗試了美妝蛋,最終選定了親和的柔性材料。
02.全身關(guān)節(jié)仿人體串聯(lián)結(jié)構(gòu)訓(xùn)練早期像小朋友學(xué)走路
讓人形機(jī)器人能自如運(yùn)動(dòng),需要靈活的身體和強(qiáng)大的運(yùn)控算法。
X2的原型機(jī)全身自由度28個(gè),在機(jī)電關(guān)節(jié)設(shè)計(jì)上采用串聯(lián)結(jié)構(gòu),沒(méi)有使用任何一個(gè)并聯(lián)結(jié)構(gòu),能同時(shí)保證慣量上移和傳動(dòng)鏈完全解耦。
傳統(tǒng)機(jī)器人常采用多連桿并聯(lián)機(jī)構(gòu)以增強(qiáng)剛度,但會(huì)增加機(jī)械耦合和控制難度。串聯(lián)結(jié)構(gòu)是類(lèi)似于人類(lèi)骨骼結(jié)構(gòu)的關(guān)節(jié)設(shè)計(jì),可以降低機(jī)器人的整體重量。
硬件拉滿(mǎn),運(yùn)控算法也要全面突破。
當(dāng)前足式機(jī)器人的運(yùn)動(dòng)控制從傳統(tǒng)的model-based的方法轉(zhuǎn)向強(qiáng)化學(xué)習(xí),結(jié)合深度強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)算法的優(yōu)勢(shì),X2能像人一樣走路、能跑、能轉(zhuǎn)或者跳一點(diǎn)小舞。
X2在視頻里跳起了短視頻平臺(tái)熱門(mén)舞蹈“科目三”。
不過(guò),X2前期的學(xué)習(xí)過(guò)程并不是一帆風(fēng)順,稚暉君說(shuō):“教育小朋友總是需要一些耐心?!?/p>
訓(xùn)練初期的X2學(xué)習(xí)跑偏實(shí)錄如下:
莫名奇妙學(xué)到了抽象的走路方式,像螃蟹一樣橫著走、跳著往后蹦。
或者像小朋友一樣一言不合躺地上耍賴(lài)。
甚至還有情緒激動(dòng) ,愛(ài)跺腳的機(jī)器人。
視頻還展示了拿著塑料杠鈴鍛煉的X2。
最后,X2總算苦盡甘來(lái),擁有了更強(qiáng)的運(yùn)動(dòng)智能水平——學(xué)會(huì)使用“懶人工具”。點(diǎn)滿(mǎn)運(yùn)動(dòng)天賦的X2,學(xué)會(huì)了騎滑板車(chē)、平衡車(chē)。
甚至是難度更高的騎自行車(chē):
這種數(shù)據(jù)驅(qū)動(dòng)的算法范式,使得智能體能從每秒數(shù)萬(wàn)次的環(huán)境交互和動(dòng)作數(shù)據(jù)中突破運(yùn)動(dòng)智能的瓶頸。
03.多模態(tài)交互大模型硅光動(dòng)語(yǔ)首臺(tái)具備復(fù)雜交互能力靈動(dòng)機(jī)器人
雖然X2四肢發(fā)達(dá),頭腦也并不簡(jiǎn)單。
研究人員為其開(kāi)發(fā)了一套基于Diffusion的生成式動(dòng)作引擎,讓X2擁有了和人自然交互的能力。借助大語(yǔ)言模型,其為X2訓(xùn)練了定制的多模態(tài)交互大模型硅光動(dòng)語(yǔ),光就是視覺(jué)、動(dòng)是動(dòng)作、語(yǔ)是語(yǔ)音,稚暉君說(shuō),X2是第一臺(tái)真正具備復(fù)雜交互能力的靈動(dòng)機(jī)器人。
通過(guò)邊緣側(cè)大腦端到端的模型架構(gòu)以及大量工程優(yōu)化,X2擁有毫秒級(jí)交互反應(yīng),能通過(guò)人類(lèi)的面部表情和語(yǔ)音語(yǔ)調(diào)精準(zhǔn)判斷情感狀態(tài),并做出相應(yīng)的回應(yīng)。稚暉君演示了一個(gè)神奇的“自己”和自己對(duì)話(huà)的景象。X2使用稚暉君聲音進(jìn)行訓(xùn)練,和他談?wù)摿丝措娪啊⒌艉永镌摼日l(shuí)的世紀(jì)難題等。
視頻中,X2能自如聊天,接話(huà)時(shí)幾乎沒(méi)有延遲,講話(huà)時(shí)手部還會(huì)有相應(yīng)動(dòng)作,在問(wèn)到“這些問(wèn)題有哪些是預(yù)先設(shè)置的”,X2給出了“完全隨機(jī)”的回答。
基于多模態(tài)交互大模型硅光動(dòng)語(yǔ),X2可以通過(guò)視覺(jué)理解和認(rèn)識(shí)世界。當(dāng)稚暉君舉起X2的胳膊放到機(jī)器人面前時(shí),它準(zhǔn)確識(shí)別出了自己的胳膊還有材質(zhì)。
它還能準(zhǔn)確說(shuō)出手機(jī)上的時(shí)間、識(shí)別出萬(wàn)用表、讀出包裝盒上的使用說(shuō)明書(shū)等。
硅光動(dòng)語(yǔ)集成的動(dòng)作模態(tài),讓X2有了“生命感”,它像人一樣擁有了呼吸的韻律、好奇心、注意力機(jī)制,還會(huì)在走路時(shí)伴隨一些仿人的小動(dòng)作。
甚至在人機(jī)交互方面,X2可以與用戶(hù)進(jìn)行遠(yuǎn)程裸眼3D交流。
目前,智元機(jī)器人正在完善X2的思維模型,結(jié)合硅光動(dòng)語(yǔ)大模型,將Reaction-Agent作為情感計(jì)算引擎,未來(lái)賦予機(jī)器人更多情緒表達(dá)的能力。
04.簡(jiǎn)單任務(wù)能零樣本泛化讓機(jī)器人入職“吉祥三保”
一個(gè)完美的機(jī)械伙伴,除了情緒價(jià)值,還需要泛化作業(yè)的能力。
研究人員將操作智能的能力遷移到X2上,其本體支持柔性阻抗控制,能裝配包括靈巧手在內(nèi)的末端。
X2完成精細(xì)操作也不在話(huà)下,上演了“葡萄穿針”的絕活。
具身智能方面,智元機(jī)器人開(kāi)源了業(yè)界最大的具身真機(jī)和仿真數(shù)據(jù)集之一,提出RoboDual的大小腦系統(tǒng)架構(gòu)以及基于ViLLA架構(gòu)的基座大模型啟元。
通過(guò)一腦多形的“啟元”大模型,X2初步具備簡(jiǎn)單任務(wù)對(duì)操作物體的零樣本泛化能力,例如從貨架上取物品:
X2還能可在某些任務(wù)中實(shí)現(xiàn)多機(jī)協(xié)作,比如給同伴充電:
稚暉君談道,這使得機(jī)器人的能力可以外溢到日常生活的方方面面實(shí)現(xiàn)機(jī)器人的“吉祥三?!保幢0?、保姆、保潔,同步應(yīng)用于教育、醫(yī)療等多個(gè)領(lǐng)域。
同時(shí),靈犀X2采用輕量化設(shè)計(jì),可模塊化拓展,擁有完備的二次開(kāi)發(fā)接口,以及預(yù)訓(xùn)練模型和“采-訓(xùn)-推”一站式方案,用戶(hù)可根據(jù)需求自由探索,為康養(yǎng)、服務(wù)、家庭陪伴等各類(lèi)場(chǎng)景打造應(yīng)用,實(shí)現(xiàn)“人形機(jī)器人人人玩”。
05.結(jié)語(yǔ):X2展現(xiàn)家用機(jī)器人的實(shí)用主義雛形
盡管從人形機(jī)器人的各項(xiàng)能力來(lái)看,X2并不是最頂尖的,但其展現(xiàn)出的已有能力正是未來(lái)人形機(jī)器人走入家庭,或者走入各行各業(yè)需要具備的基本能力。不論從硬件系統(tǒng)、軟件算法還是關(guān)節(jié)結(jié)構(gòu)來(lái)看,智元機(jī)器人都考慮到了人形機(jī)器人大規(guī)模落地普及的趨勢(shì)。未來(lái),基于人形機(jī)器人在運(yùn)動(dòng)、作業(yè)和交互方面的能力,或許可以在不同場(chǎng)景通過(guò)模塊化設(shè)計(jì),讓人形機(jī)器人深入陪伴、教育、清潔等諸多場(chǎng)景。
(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)