• 正文
    • 什么是具身智能?
    • 具身智能技術(shù),已獲長足進步
    • 具身智能的眼睛:多模態(tài)感知融合是趨勢
    • 具身智能的大腦:還沒到主拼算力的時候
    • 安霸在具身智能領(lǐng)域的下一步
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

專訪安霸:誰在推動具身智能從“能看”到“會想”?

原創(chuàng)
03/07 09:35
1648
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

自去年以來,具身智能已成為繼大模型之后,人工智能領(lǐng)域內(nèi)討論熱度極高的議題,在投資圈更是備受追捧。

據(jù)市場監(jiān)管大數(shù)據(jù)中心數(shù)據(jù)顯示,截至2024年12月底,全國共有45.17萬家智能機器人產(chǎn)業(yè)企業(yè),企業(yè)數(shù)量較2020年底增長206.73%,較2023年底增長19.39%,這一數(shù)據(jù)直觀體現(xiàn)出產(chǎn)業(yè)熱度對相關(guān)企業(yè)數(shù)量增長的強勁帶動。

資本市場也早早嗅到商機,今年上半年大量資金涌入賽道。如成立僅一年的北京銀河通用機器人公司,先后斬獲美團、商湯等知名企業(yè)的巨額投資;“稚暉君” 創(chuàng)立的智元機器人在過去一年完成七輪融資,估值飆升至70億元。

在消費市場,相關(guān)產(chǎn)品同樣火爆。2024年被稱為 “具身智能元年”,這一年里,LLM技術(shù)的加持讓具身智能產(chǎn)品備受矚目。

蔚藍科技的機器狗在抖音和小紅書等平臺爆賣,銷量超過其他所有四足機器人總和,還在南京德基廣場開設(shè)體驗店,每次快閃都能引發(fā)整層樓的圍觀。不僅國內(nèi)如此,全球范圍內(nèi)人形機器人項目熱度居高不下,F(xiàn)igure 02、Atlas、1X、擎天柱等明星機器人頻繁引發(fā)外界關(guān)注。

再看行業(yè)預(yù)測,QYResearch 報告顯示,到 2030 年全球具身智能機器人仿真平臺市場規(guī)模預(yù)計將達8億美元,年復(fù)合增長率CAGR高達47.7%,德邦證券也預(yù)判其發(fā)展空間廣闊。凡此種種,皆彰顯出具身智能當下的火爆程度 。

什么是具身智能?

那么,到底什么是具身智能?它和人形機器人之間是什么關(guān)系?

我們可以通過拆字來解讀,“具身智能”中的“具”字表示“具有”“具備”,“具身”強調(diào)智能體具有身體或類似身體的實體結(jié)構(gòu),并且智能的產(chǎn)生和發(fā)展依賴于這個身體與環(huán)境的交互。

事實上,具身智能的思想可以追溯到20世紀80年代至90年代的人工智能和認知科學研究。認知科學家喬治·萊考夫(George Lakoff)和馬克·約翰遜(Mark Johnson)在1980年出版的《我們賴以生存的隱喻》(Metaphors We Live By)中,強調(diào)了身體經(jīng)驗在認知和語言理解中的重要性,為具身認知的理論奠定了基礎(chǔ),這也與具身智能的理念緊密相關(guān)。

當前,具身智能以人形機器人為主要表現(xiàn)形式,當人形機器人通過它的身體在和環(huán)境交互的時候,它模仿人的動作,學會像人一樣觀察、發(fā)現(xiàn)、思考、語音、和環(huán)境交互。

圖 | 安霸半導(dǎo)體技術(shù)(上海)有限公司研發(fā)副總裁孫魯毅,來源:安霸

對此,安霸半導(dǎo)體技術(shù)(上海)有限公司研發(fā)副總裁孫魯毅表示:“我們正在創(chuàng)造和不斷改進一種新的事物,雖然它目前還是一種高級機器,但這有助于讓人們重新發(fā)現(xiàn)人的價值,比如通過讓機器人涉足諸如災(zāi)害救援現(xiàn)場、化工高危區(qū)域這類危險場景,或是半導(dǎo)體芯片制造、精密儀器組裝等對精度要求極高的領(lǐng)域,以及從事物流倉儲貨物分揀、流水線零件裝配等重復(fù)性勞動崗位,將人類從繁重、高危、高精度的工作中解放出來,從而改善人們的生活與工作環(huán)境。”

具身智能技術(shù),已獲長足進步

技術(shù)是產(chǎn)業(yè)發(fā)展的核心驅(qū)動力,為產(chǎn)業(yè)創(chuàng)新升級提供支撐。在具身智能本體技術(shù)的關(guān)鍵領(lǐng)域和價值鏈條中,核心部件涉及減速器、伺服系統(tǒng)、控制器、智能芯片、傳感器、電子皮膚等。其中,減速器、伺服系統(tǒng)和控制器在機器人整體成本中占比高達60%-70%。所以接下來,我們來看一下具身智能在技術(shù)領(lǐng)域的現(xiàn)狀。

孫魯毅向與非網(wǎng)透露,在技術(shù)方面,具身智能目前在以下幾個方面已經(jīng)有長足的進步:

出色的運動控制表現(xiàn),比如宇樹機器人,可以做出更靈巧的類似人的動作。

  • 多種感知技術(shù)的增強

攝像頭、雙目立體視覺、激光雷達、超聲波雷達、多維力傳感器加速度傳感器等正在使得具身智能擁有能夠模擬甚至超過人的感知能力。

  • 預(yù)測規(guī)劃和思維能力

傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的預(yù)測和規(guī)劃算法,加上多模態(tài)大語言模型的加持,使得具身智能可以做出類似于人的判斷和思維,甚至分步深度思考問題。

值得一提的是,具身智能作為人工智能與機器人技術(shù)的融合體,其核心在于通過智能體與物理環(huán)境的實時交互,實現(xiàn)自主感知、決策和行動。在這一過程中,“眼睛”和“大腦”是具身智能的兩大核心要素:“眼睛”代表感知系統(tǒng),負責捕捉和理解環(huán)境信息;“大腦”代表決策與控制系統(tǒng),負責處理信息并生成行動指令。在這其中,AI芯片扮演著重要的角色。

具身智能的眼睛:多模態(tài)感知融合是趨勢

對于具身智能機器人而言,精準的環(huán)境感知是實現(xiàn)智能交互的基礎(chǔ)。當前,在具身智能所需的深度感知中,雙目立體視覺、ToF、結(jié)構(gòu)光方案是三種主要的技術(shù)路線,每種方案都有其獨特的優(yōu)勢和適用場景。

  • 雙目立體視覺

雙目立體視覺類似人的雙眼,有利于在得到高分辨率彩色圖像信息的同時也得到深度信息,這種RGBD的感知,在機器人的圖像感知里是主流。但它需要較高的計算能力來處理圖像匹配和深度計算,同時兩臺相機需要精確校準,以確保深度計算的準確性。

從市場應(yīng)用側(cè)來看,優(yōu)必選、傅利葉GR-1等機器人采用了雙目立體視覺方案。而從處理器平臺的供給側(cè)來看,安霸最新推出的AI芯片,包括CV7系列和N1系列具備較強的市場競爭力。

對此,孫魯毅解釋道:“安霸在雙目立體視覺上有獨創(chuàng)的基于深度學習的算法,運行在安霸的CV7系列和N1系列的AI引擎上,能夠做到在低反差場景,高光以及低光照場景等困難場景下的高精度深度感知,并且disparity密度和準確度明顯高于市場競品?!?/p>

  • ToF(飛行時間)

ToF是一種主動傳感器,靠發(fā)射激光,通過測量接收的時間差或者相位差來計算深度。ToF傳感器的優(yōu)勢是在極高環(huán)境光亮度或者完全黑暗場景下,近距離下的深度感知。缺點是圖像分辨率一般比雙目立體視覺低,而且噪點比較大,高像素的ToF成本也相對高。

從市場應(yīng)用側(cè)來看,小米CyberOne采用了ToF+RGB方案,用于深度感知。而從處理器平臺的供給側(cè)來看,安霸的AI芯片也能覆蓋該需求。

  • 結(jié)構(gòu)光方案

結(jié)構(gòu)光方案和雙目立體視覺方案有相近之處,一般用于運動速度較低,分辨率比較高,但在強烈陽光下效果不佳,比較適合用于室內(nèi)場景。

從市場應(yīng)用側(cè)來看,追覓機器人采用ToF+結(jié)構(gòu)光相機,用于深度感知。不過在專業(yè)人士看來,結(jié)構(gòu)光一般都可以被主動雙目立體視覺替代。同樣,從處理器平臺的供給側(cè)來看,安霸AI芯片也能覆蓋該需求。

前面多次提到安霸的AI芯片,據(jù)悉除了以上三種傳感器外,安霸的N1系列芯片在深度感知技術(shù)上,還可以支持激光雷達、4D毫米波雷達,并且對上述提到的深度感知技術(shù),都有硬件加速,因此CPU和內(nèi)存帶寬占用很小。

此外,針對這些感知得到的深度信息或者點云,N1系列芯片還支持將其輸入神經(jīng)網(wǎng)絡(luò),從而做到感知和目標檢測、分類、預(yù)測、規(guī)劃決策的一體,也就是常說的“端到端”的能力,這是普通的前端深度感知器,比如雙目或者ToF方案的DSP處理器不能比擬的。

具身智能的大腦:還沒到主拼算力的時候

如上所述,具身智能機器人需要實時處理大量來自傳感器的信息,并快速做出精準決策,所以對算力平臺提出了較高要求。

為此,市場上的主要玩家,如英偉達、高通、安霸,以及國內(nèi)的地平線機器人等,都推出了相應(yīng)的高算力平臺。那么,這些國內(nèi)外的競品與安霸的N1系列芯片相比到底有哪些不同呢?

對此,孫魯毅表示:“相比國際領(lǐng)先品牌的產(chǎn)品,N1以及后續(xù)的N1-655芯片具有功能和性能接近時,具有功耗明顯更低的優(yōu)勢,并且圖像處理和支持的傳感器更為豐富。相比中國本土的競品,N1系列芯片功耗明顯更低,而且能夠更好地支持Transformer和多模態(tài)大語言模型?!?/p>

提到低功耗,孫魯毅補充道:“除了采用5nm工藝制程外,N1系列芯片的低功耗還來源于高效的芯片架構(gòu)設(shè)計,所有的核心功能全由專用的硬件模塊完成,并不是全靠單一的AI引擎,而且在運行相同的神經(jīng)網(wǎng)絡(luò),不論是CNN還是Transformer的時候,內(nèi)存帶寬消耗顯著地小于以上競品(低一半以上)?!?/p>

在算法支持方面,N1芯片支持市面上流行的所有主流算法,CNN、Transformer類、BEV類。也支持各種大語言模型,比如常見的llama2、llama3、Qwen、Gemma、DeepSeek R1現(xiàn)在也已經(jīng)在N1上得到支持。

可能有人要問,要支持這么多算法和大語言模型,是否AI芯片就意味著超級算力?那么多少算力才算達到標準水平?

對此,孫魯毅認為并非如此。他告訴與非網(wǎng):“如果按2025~2026年,我認為市場期待在合適的成本上做到足夠的性能,并不是一定立刻去拼算力大小,這是因為具身智能是一個完整的系統(tǒng),如果傳感器、軟件、基礎(chǔ)硬件接口、協(xié)議、算法等不夠完善的話,光是很大的算力,并不能發(fā)揮出效果。”

“如果參照行業(yè)頭部廠家的GPU芯片來講,市場期待等效于其 100T~300T 左右的AI芯片,支持多種傳感器、圖像處理、激光雷達、Transformer和多模態(tài)大語言模型,并且功耗盡可能要低,因為具身智能上通常沒辦法用水冷,所以這個芯片的功耗最好是小于30W,采用風冷?!?孫魯毅繼續(xù)講道。

所以從目前來看,安霸的N1-655是選擇之一,常溫下滿負荷運行小于20W,等效算力大約250T 。

安霸在具身智能領(lǐng)域的下一步

2025年被視為人形機器人量產(chǎn)的關(guān)鍵節(jié)點。多家企業(yè)和研究機構(gòu)預(yù)計,人形機器人將在這一年實現(xiàn)小規(guī)模量產(chǎn),并在2026年迎來商業(yè)化應(yīng)用的爆發(fā)。

面對該市場機遇,安霸方面表示將繼續(xù)推出更強大的芯片,加強在大語言模型方面的性能。同時抱著開放的心態(tài),希望與業(yè)界的算法軟件設(shè)計公司、硬件設(shè)計公司、傳感器供應(yīng)廠合作,各顯其能,收獲共贏。

 

安霸

安霸

安霸的產(chǎn)品廣泛應(yīng)用于人眼和計算機視覺應(yīng)用,包括視頻監(jiān)控、高級駕駛輔助系統(tǒng)(ADAS)、電子后視鏡、行車記錄儀、駕駛員/艙內(nèi)監(jiān)控、無人駕駛和機器人應(yīng)用。通過提供高分辨率視頻壓縮、高級圖像處理和強大的深度神經(jīng)網(wǎng)絡(luò)處理,安霸的低功耗芯片能使智能攝像機從高分辨率視頻流中提取有價值的數(shù)據(jù)。

安霸的產(chǎn)品廣泛應(yīng)用于人眼和計算機視覺應(yīng)用,包括視頻監(jiān)控、高級駕駛輔助系統(tǒng)(ADAS)、電子后視鏡、行車記錄儀、駕駛員/艙內(nèi)監(jiān)控、無人駕駛和機器人應(yīng)用。通過提供高分辨率視頻壓縮、高級圖像處理和強大的深度神經(jīng)網(wǎng)絡(luò)處理,安霸的低功耗芯片能使智能攝像機從高分辨率視頻流中提取有價值的數(shù)據(jù)。收起

查看更多

相關(guān)推薦