• 正文
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

車載AI Agent產(chǎn)品開發(fā):如何通過大模型實現(xiàn)“座艙代言人”?

2024/08/29
3141
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

佐思汽研發(fā)布《2024年車載AI Agent產(chǎn)品開發(fā)與商業(yè)化研究報告》。

根據(jù)OPEN AI對AI的分類方式(共5個級別),AI Agent位于AI發(fā)展路徑的第3個級別:

OPEN AI對AI的分類方式

來源:OPEN AI

而2023年大熱的大模型受限于交互方式與工具使用能力等,最多也只能達(dá)到L2推理者的級別。對比下來,通過構(gòu)建車載Agent來發(fā)展汽車AI體系是一個較為合適的目標(biāo):Agent通過主動智能特性與多類工具/大模型調(diào)用,補全大模型在場景應(yīng)用中的痛點,進(jìn)一步提升座艙智能化水平。

Agent是情感座艙代言人

“情感座艙”的口號已經(jīng)喊了很多年,但是真正實現(xiàn)還是從大模型上車開始,在觸發(fā)特定條件下,語音助手通過預(yù)置的情感語料庫與用戶聊天,但在真實聊天場景下無法適應(yīng)人類的對話邏輯;而車載Agent上車后,通過集成多個大模型底座,對環(huán)境的識別更為準(zhǔn)確,更多數(shù)量的工具庫接口則進(jìn)一步加強了其泛化能力,能夠應(yīng)付多元化場景下的聊天問答,真正實現(xiàn)“座艙代言人”的溫暖陪伴。

部分Agent在不同場景下的情感關(guān)懷示例

整理:佐思汽研

主流的情感交互場景的設(shè)計重點在情緒識別、用戶記憶、行為編排等領(lǐng)域,部分主機廠、Tier1也推出了提升Agent情感價值的技術(shù)或產(chǎn)品:

部分主機廠、Tier1的Agent情感技術(shù)/產(chǎn)品

整理:佐思汽研

以小愛同學(xué)為例,其“情感對話系統(tǒng)”的構(gòu)建包含三個步驟:

小愛同學(xué)“情感對話系統(tǒng)”構(gòu)建步驟

整理:佐思汽研

混合策略疏導(dǎo)模型包含情感狀態(tài)增強編碼器、混合策略學(xué)習(xí)模塊、多因素感知解碼器三個重要組件

馬耳他大學(xué)數(shù)字游戲研究所提出了情感框架(Affectively Framework),設(shè)立情感模型,在訓(xùn)練過程中采用行為獎勵和情感獎勵機制,幫助 Agent 更好地理解人類的情感,并能夠與人類進(jìn)行更自然的交互。

升用戶體驗需要解決的痛點

想象一下,智能座艙不僅能夠聽懂并執(zhí)行車主下達(dá)的指令,還能預(yù)測車主的需求,就像一個貼心的私人助理,這是不是會讓車主更加期待?相比于買了傳統(tǒng)汽車后每個功能還要自己摸索一遍,誰不想要一個“動動嘴”就能幫你打理所有座艙功能的座艙“代言人”呢?Agent主打一個省時省事。

雖然現(xiàn)階段已上車的Agent大部分還停留在助手、陪伴以及具體場景功能列舉層面,但相比于大模型,Agent擁有更大潛力,具備可激發(fā)的自主性和突出的工具使用能力,更加貼合“主動智能”標(biāo)簽,甚至能夠彌補大模型在實際應(yīng)用中的限制。

大模型與Agent的部分區(qū)別

整理:佐思汽研

然而,要讓車載Agent真正做到“主動智能”,滿足用戶的體驗價值,在技術(shù)開發(fā)上還有很長的路要走。Agent需要在主動感知、數(shù)據(jù)處理、狀態(tài)識別等環(huán)節(jié)做得更加精確,通過準(zhǔn)確理解環(huán)境,判斷車內(nèi)人員的真實需求,再根據(jù)不同環(huán)境采取不同的策略。其中,難點之一在于Agent對用戶需求的準(zhǔn)確判斷,相比正常情況下的被動交互,主動意圖識別缺少語音指令,而在環(huán)境/人員/車輛狀態(tài)識別的過程中,未必能夠通過向量特征匹配得到與當(dāng)前場景極為相近的描述,預(yù)置方案也未必符合車內(nèi)人員真正的意圖。

主動推薦動作的生成示意圖

來源:佐思汽研

目前,多數(shù)推薦功能僅僅是執(zhí)行預(yù)設(shè)的指令,反而限制了Agent的“主動智能”能力,導(dǎo)致在推理環(huán)節(jié)頻繁出現(xiàn)痛點。例如,如果Agent不能準(zhǔn)確理解當(dāng)前的場景,它就可能做出不符合用戶預(yù)期的推薦,比如在錯誤的時間推薦音樂或?qū)Ш降取W罱K結(jié)果就是影響用戶體驗,導(dǎo)致Agent成為用戶眼中的“猜測機器”。

此外,Agent在接受語音指令的感知環(huán)節(jié)同樣也有痛點,如佐思汽研非完全統(tǒng)計了部分車主對于使用車載Agent的使用痛點案例,頻率較高的痛點主要為喚醒失敗、識別錯誤、誤喚醒。

不完全統(tǒng)計下的車載Agent使用痛點分析

整理:佐思汽研

在120個痛點案例中,喚醒失敗、識別錯誤、誤喚醒的提及頻率分別達(dá)到19、18、17個,占比分別為16%、15%、14%,其他痛點還包括不支持可見可說、不識別方言、延遲響應(yīng)、不支持語義澄清、不支持連續(xù)指令等,共計89個語音環(huán)節(jié)的痛點,占本次統(tǒng)計調(diào)研的74.2%。

此外,Agent架構(gòu)/場景設(shè)計不合理導(dǎo)致的一系列問題還包括場景觸發(fā)條件不合理、大模型需要二次喚醒、長/短期記憶失效、根據(jù)車主習(xí)慣自主做出的推薦動作不符合預(yù)期等,分別體現(xiàn)了Agent在場景設(shè)置、架構(gòu)部署、記憶模塊、反思模塊上的限制。

總結(jié)說來,用戶痛點較多地集中在感知與推理環(huán)節(jié):

    • 感知:“叫不醒”(喚醒失敗)、“瞎回答”(誤喚醒)、“聽不懂”(識別錯誤)、“啥也不會”(不支持可見可說)、“耳背”(延遲響應(yīng))等;

推理:“睜眼瞎”(物體識別錯誤)、“亂推薦”(自主推薦不符合用戶預(yù)期)等。

快速響應(yīng)的多Agent框架

為實現(xiàn)“代言人”在座艙的全面功能,Agent在多元化場景下的服務(wù)框架設(shè)計極為重要。Agent框架構(gòu)建方式較為靈活,可以采用最簡單的“接收器+執(zhí)行器”架構(gòu),也可以構(gòu)建更加復(fù)雜的多智能體架構(gòu),其設(shè)計原則很簡單:只要在特定場景下能解決用戶問題,那就是好的框架設(shè)計。作為一個合格的“座艙代言人”,車載Agent除了需要像一個獨立思考的個體,自己做決定、解決問題外,還要像人一樣,快速、自如地采取人類的行為模式。

蔚來汽車的Nomi就是一個典型的例子。它采用了多智能體架構(gòu),在不同的場景下,調(diào)用不同的工具,通過多個分工不同的Agent履行特定職責(zé),共同完成理解需求、決策裁決、執(zhí)行任務(wù)、反思迭代的流程。多智能體架構(gòu)讓Nomi不僅能夠快速響應(yīng),還能像人一樣做出更自然的反應(yīng),與汽車的其他功能無縫融合,讓體驗更加流暢。

相比單Agent系統(tǒng),多Agent系統(tǒng)更適合執(zhí)行復(fù)雜的指令,就像一個小型社區(qū),每個“Agent”都有自己的任務(wù),但它們又能協(xié)作完成更復(fù)雜的工作。比如,一個Agent負(fù)責(zé)理解你的指令,另一個負(fù)責(zé)決策,還有專門的Agent來執(zhí)行任務(wù)。這種設(shè)計讓車載AI Agent系統(tǒng)更加靈活,能夠處理更多樣化的任務(wù)。如澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織(CSIRO)提出一種同時采用協(xié)調(diào)Agent和執(zhí)行Agent的多Agent系統(tǒng):

整個Agent框架分為6個模塊,分別為感知交互(Understanding&Interaction)、推理(Reasoning)、工具使用(Tool Use)、多Agent協(xié)作(Multi-Agent Collaboration)、反思(Reflection)以及價值對齊(Alignment),囊括了主流的Agent設(shè)計模式,包含從主動感知、推理決策、工具調(diào)用到生成執(zhí)行、反思迭代并與人類價值對齊的整個流程。該框架的特點是引入多Agent系統(tǒng),可由不同的Agent分別擔(dān)當(dāng)整個流程中分發(fā)/決策/執(zhí)行的不同角色,充分發(fā)揮各個Agent優(yōu)勢,提升任務(wù)執(zhí)行的效率。

此外,在多元化場景下,Agent部署方式和工具調(diào)用能力也影響著用戶需求是否能被快速、準(zhǔn)確的執(zhí)行。以蔚來Nomi為例:

Nomi Agents分別在端側(cè)、云端兩個部分進(jìn)行部署,端側(cè)與云端分別搭載端側(cè)模型與NomiGPT,端側(cè)模型與SkyOS深度融合,能夠及時調(diào)用原子能力,進(jìn)行跨域資源的調(diào)度(如數(shù)據(jù)、車控硬件/軟件等),加快響應(yīng)速度;云端Nomi GPT連接更多云端工具資源接口,進(jìn)一步加強Nomi Agents工具調(diào)用能力。Nomi Agents架構(gòu)布置在SkyOS中間件層,通過與SkyOS結(jié)合,調(diào)用原子API、硬件/軟件、數(shù)據(jù)的過程更加自然協(xié)調(diào)、也更加迅速。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
LMX2572RHAR 1 Texas Instruments 6.4-GHz low-power wideband RF synthesizer 40-VQFN -40 to 85

ECAD模型

下載ECAD模型
$119.42 查看
A3987SLPTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, 1.5A, NMOS, PDSO24, MO-153ADT, TSSOP-24

ECAD模型

下載ECAD模型
$5.27 查看
AD5700BCPZ-R5 1 Analog Devices Inc Low Power HART Modem

ECAD模型

下載ECAD模型
$9.82 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄