• 正文
    • 端到端架構(gòu):特斯拉智駕指明的方向
    • 什么是VLA?
    • VLA上車難,難在哪里?
    • 打響VLA上車的第一槍
    • VLA,是不是唯一路徑?
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

VLA,是不是自動(dòng)駕駛的下一站?

03/27 13:30
1110
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者 |?肖恩,編輯 |?德新

中國農(nóng)歷新年結(jié)束沒多久,馬斯克就給中國的特斯拉車主送上一份大禮——2月26日,在毫無征兆的情況下特斯拉向中國區(qū)購買了FSD的HW4.0車主開啟了功能推送。

此前一度傳言FSD因?yàn)閿?shù)據(jù)問題入華時(shí)間將推遲,而且這次推送的是和美國相同的V13版本,對于它在中國的表現(xiàn)大家非常好奇,隨后各大媒體和大V都對FSD進(jìn)行了詳細(xì)的測試。

從媒體的測試結(jié)果來看,F(xiàn)SD的表現(xiàn)無疑是不及格的,認(rèn)錯(cuò)路和違反交規(guī)是常規(guī)操作,甚至用接管次數(shù)這個(gè)指標(biāo)已經(jīng)無法評價(jià)它的表現(xiàn)了,要用違章次數(shù)才能體現(xiàn)出FSD在中國的拉跨,中國智駕遙遙領(lǐng)先的的聲音更響亮了。

但是FSD的表現(xiàn)真的如此不堪嗎?

端到端架構(gòu):特斯拉智駕指明的方向

作為智駕從業(yè)者,我也體驗(yàn)了FSD在城區(qū)的表現(xiàn)。

如果以接管次數(shù)為評價(jià)指標(biāo),F(xiàn)SD和國內(nèi)第一梯隊(duì)的方案相比,確實(shí)是不合格的,但是幾乎所有的接管都是和交通規(guī)則和道路相關(guān)。這也側(cè)面印證了馬斯克的說法,現(xiàn)階段由于數(shù)據(jù)問題特斯拉只能通過互聯(lián)網(wǎng)的視頻來訓(xùn)練FSD,無法很好地理解和適應(yīng)中國的交通環(huán)境。

除此之外,F(xiàn)SD的基礎(chǔ)能力堪稱驚艷,異常流暢的控制、行云流水的繞行、果斷的超車和變道,給人的體驗(yàn)就像是經(jīng)驗(yàn)豐富的專車司機(jī),在遇到擁堵情況時(shí)決策毫不拖泥帶水。

從我個(gè)人的體驗(yàn)來看,F(xiàn)SD如果適應(yīng)了中國的交規(guī)和道路,它的表現(xiàn)將超過國內(nèi)現(xiàn)階段的智駕方案。

特斯拉從V12開始全面轉(zhuǎn)向端到端架構(gòu),和之前的版本相比FSD的表現(xiàn)有了巨大的提升,從BEV、Transformer到占用格柵網(wǎng)絡(luò)。在傳統(tǒng)的感知-規(guī)劃-控制的架構(gòu)下,特斯拉給智駕行業(yè)帶來了非常多的啟示,為了實(shí)現(xiàn)無人駕駛的目標(biāo),特斯拉跳出傳統(tǒng)的思維框架,第一次在量產(chǎn)車上引入了端到端的架構(gòu),為智駕行業(yè)指出了新的技術(shù)方向。

也許是怕中國學(xué)生學(xué)得太快,特斯拉并沒有公布自己端到端架構(gòu)的細(xì)節(jié)。

國內(nèi)智駕行業(yè)開始自己探索端到端這條技術(shù)路徑,其中最典型和成功的案例,無疑是理想的端到端+VLM雙系統(tǒng)架構(gòu)。這個(gè)方案將理想從原來智駕第三梯隊(duì)的位置快速提升至第一梯隊(duì),在部分場景的表現(xiàn)甚至超過華為ADS

理想的這套系統(tǒng)結(jié)合了快慢系統(tǒng)的理論。

系統(tǒng)1是一段式的端到端模型,可以處理95%以上的常規(guī)駕駛場景;同時(shí)為了提升長尾場景的處理能力,引入了VLM視覺語言模型作為系統(tǒng)2輔助決策,系統(tǒng)2能夠?qū)鼍斑M(jìn)行描述和分析,給系統(tǒng)1提出決策建議。

其中VLM的核心是一個(gè)LLM模型,也就是類似chatGPT的大語言模型。它有非常強(qiáng)的理解和邏輯推理能力,由大規(guī)模海量互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的LLM具備一定的通識認(rèn)知,能夠利用符合邏輯的推理能力獲得復(fù)雜場景和從未見過的長尾場景的處理能力。

理想在LLM的基礎(chǔ)上,使用了車輛的傳感器數(shù)據(jù)和場景描述信息對模型進(jìn)行了訓(xùn)練,最終讓VLM模型能夠?qū)鼍巴瓿伤季S鏈推理,從場景描述到場景分析,最終完成層級規(guī)劃并輸出軌跡。

從實(shí)際的體驗(yàn)來看,這套系統(tǒng)「端味十足」,對車輛的控制非常線性,駕駛行為接近人類的習(xí)慣,VLM的加入讓系統(tǒng)在特殊場景下的表現(xiàn)也可圈可點(diǎn),是當(dāng)前技術(shù)條件下非常好的思路。

但是,這套系統(tǒng)仍然有一些問題要解決。

第一個(gè)問題就是VLM系統(tǒng)的延時(shí)太高。

由于LLM模型的參數(shù)量非常大,對于計(jì)算量的需求很高。現(xiàn)在車端算力最大的智駕芯片OrinX也只有254Tops,雖然經(jīng)過非常多的優(yōu)化,最終VLM在車端能實(shí)現(xiàn)的頻率也只有5Hz左右,無法滿足實(shí)時(shí)性的要求,導(dǎo)致VLM的決策軌跡只能作為決策建議,并不能直接輸出給車輛控制,在一定程度上限制了VLM的能力。

第二,理想的VLM基座模型是千問。

它是阿里的開源大語言模型,這一類模型基于網(wǎng)絡(luò)上大量的文本訓(xùn)練而成,特點(diǎn)是通用性好,有很強(qiáng)的對語義理解能力和對話能力,但并不是專為駕駛場景設(shè)計(jì)。對于駕駛行為的理解能力有限,也沒有很好的3D空間理解能力,即使經(jīng)過了訓(xùn)練,但是上限不夠。

第三,端到端和VLM是兩個(gè)獨(dú)立的模型,使用的訓(xùn)練數(shù)據(jù)也不相同,而且運(yùn)行的頻率不一樣,對兩個(gè)模型聯(lián)合訓(xùn)練和優(yōu)化非常困難。

為了解決這些問題,理想給出的答案是VLA。

什么是VLA?

VLA代表Vision-Language-Action,最早出現(xiàn)在具身機(jī)器人領(lǐng)域。

谷歌DeepMind在2023年7月發(fā)布了全球首個(gè)可以控制機(jī)器人的VLA模型:RT-2,這個(gè)模型以大語言模型為基礎(chǔ),模型接收攝像頭的原始數(shù)據(jù)和語言指令后,可以直接輸出控制信號,完成各種復(fù)雜的操作。

RT-2的結(jié)構(gòu)非常簡單,圖像信息經(jīng)過VIT編碼后和語言信息的token一起輸入到LLM中,谷歌在這里使用了自家的Gemini,模型輸出一系列的Action token,解碼后轉(zhuǎn)化為機(jī)械臂的控制信號。

和以前的模型相比,RT-2在交互能力、任務(wù)能力和泛化能力上都有非常大的提升。

傳統(tǒng)的機(jī)器人模型只能支持少數(shù)的特定指令,借助于大語言模型強(qiáng)大的語言理解能力,RT-2可以直接和用戶進(jìn)行語言交互,能夠理解復(fù)雜和模糊的指令,完成各種類型的任務(wù)。

大語言模型最強(qiáng)大的地方在于它的泛化能力,基于互聯(lián)網(wǎng)海量信息的訓(xùn)練,大模型會(huì)涌現(xiàn)出強(qiáng)大的通識能力,這就是我們常說的Scaling Law,這種能力可以遷移到VLA模型中,能夠讓模型理解訓(xùn)練數(shù)據(jù)以外的物體和場景。

VLA在機(jī)器人領(lǐng)域的成功,很快也應(yīng)用在了自動(dòng)駕駛上。

不論是傳統(tǒng)的規(guī)則模型還是數(shù)據(jù)驅(qū)動(dòng)的端到端模型,都無法解決一個(gè)問題。如果某個(gè)場景在模型的訓(xùn)練數(shù)據(jù)之外,系統(tǒng)的表現(xiàn)會(huì)非常不穩(wěn)定,只能不斷修補(bǔ),但是現(xiàn)實(shí)中駕駛場景太復(fù)雜,沒有辦法在數(shù)據(jù)中窮舉所有的可能。因此長尾場景一直是自動(dòng)駕駛最大的挑戰(zhàn)。

自從大語言模型出現(xiàn)后,它表現(xiàn)出接近于人類水平的理解能力,給工程師看到一種可能,利用大模型來解決長尾場景,VLM和VLA都是這個(gè)方向的探索。

繼RT-2之后,24年11月一直專注于L4方案的Waymo發(fā)布了用于自動(dòng)駕駛的多模態(tài)大語言模型(Multimodal Large Language Models)EMMA,雖然Waymo沒有將其定義為VLA,但是從模型的結(jié)構(gòu)看,可以看作是VLA的一種形態(tài)。

EMMA有三個(gè)輸入,分別是

攝像頭的原始圖像;

導(dǎo)航的路徑信息;

歷史信息和自車狀態(tài)。

中間的大語言模型和RT-2一樣,基于谷歌的Gemini,通過CoT思維鏈的推理,EMMA能輸出以下信息:

自車未來的軌跡;

感知結(jié)果;

道路元素;

對場景的理解。

在nuScenes數(shù)據(jù)集的Planning Benchmark上,EMMA的表現(xiàn)經(jīng)驗(yàn),超過了傳統(tǒng)端到端模型,如UniAD以及許多VLM模型,側(cè)面證明了VLA在自動(dòng)駕駛領(lǐng)域的潛力。

雖然EMMA也有一些問題,例如對于3D空間的推理能力較弱、計(jì)算量大等,但是為自動(dòng)駕駛帶來的新的方向。

VLA上車難,難在哪里?

雖然EMMA和DriveGPT4等VLA模型在學(xué)術(shù)領(lǐng)域都取得了不錯(cuò)的進(jìn)展,但是至今還沒有一個(gè)可量產(chǎn)的方案出現(xiàn),這里有幾個(gè)問題要解決。

算力問題

不論哪種VLA都是基于大語言模型來實(shí)現(xiàn),而大語言模型的特點(diǎn)除了參數(shù)量大之外,對算力的要求非常高,通常都是部署在服務(wù)器端。

目前車端的自動(dòng)駕駛芯片算力非常有限,量產(chǎn)算力最高的自動(dòng)駕駛芯片OrinX也只有254Tops,這限制了車端能部署的模型規(guī)模以及運(yùn)行的頻率。

從理想VLM的經(jīng)驗(yàn)來看,雖然經(jīng)過了非常多工程上的優(yōu)化,最終的運(yùn)行效率仍然達(dá)不到10Hz,需要更強(qiáng)大的芯片來支持。英偉達(dá)下一代的Thor U芯片將超過700 Tops,對于VLA上車來說會(huì)是非常重要的一環(huán)。

數(shù)據(jù)閉環(huán)

另一個(gè)對VLA非常重要的挑戰(zhàn)是數(shù)據(jù)。

雖然大語言模型已經(jīng)基于海量的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,對于語言和文本已經(jīng)有了非常強(qiáng)的分析能力,但對于駕駛相關(guān)的視頻數(shù)據(jù)、激光雷達(dá)點(diǎn)云和車輛狀態(tài)等數(shù)據(jù),并沒有公開的海量數(shù)據(jù)可用。

而且VLA的關(guān)鍵能力CoT思維鏈,需要根據(jù)設(shè)計(jì)的邏輯和問題建立定制化的數(shù)據(jù),需要車企有非常強(qiáng)的數(shù)據(jù)閉環(huán)能力。

在現(xiàn)在全民智駕的背景下,很多OEM喜歡用汽車的保有量來宣稱自己有海量的數(shù)據(jù),能夠快速迭代智駕算法,實(shí)際上這只是面向普通消費(fèi)者的宣傳術(shù)語。

即使是軟件硬件架構(gòu)高度統(tǒng)一的特斯拉,前幾代產(chǎn)品產(chǎn)生的數(shù)據(jù)也很難對現(xiàn)在的算法有幫助,更別說國內(nèi)的OEM早期的車輛基本只有一顆前視攝像頭,而且方案還五花八門,這種數(shù)據(jù)對于高階智駕的算法,特別是VLA而言就是毫無用處。

進(jìn)入端到端和VLA的時(shí)代,數(shù)據(jù)閉環(huán)不僅僅是收集數(shù)據(jù),收集什么樣的數(shù)據(jù),如何從海量的量產(chǎn)數(shù)據(jù)中挖掘有用的場景,如何把這些場景用在算法的優(yōu)化上;誰能更早把這些問題想清楚,誰就能在數(shù)據(jù)為王的時(shí)代占得先機(jī)。

可解釋性差

這幾乎是所有大語言模型的通病。雖然大模型能夠涌現(xiàn)出強(qiáng)大的能力,但是它似乎是一個(gè)大的黑盒子,到現(xiàn)在也沒有人能很好地解釋為什么大模型會(huì)有Scaling Law,以及它是如何思考的。也許對于語言類的大模型而言,邏輯上的錯(cuò)誤并不致命,但是對于自動(dòng)駕駛來說,一個(gè)小小的錯(cuò)誤有可能就會(huì)產(chǎn)生嚴(yán)重的后果。

因此可解釋性對于自動(dòng)駕駛而言是非常重要的特性,特別是在量產(chǎn)車上,遇到有問題的場景,需要找到根源問題root cause才能快速地優(yōu)化。

雖然在VLA中增加了對于決策過程的解釋,但是無法像傳統(tǒng)算法那樣定位到問題代碼,如何快速解bug,這會(huì)是VLA上車之后的一大挑戰(zhàn)。

辦法總比困難多,雖然VLA上車有種種挑戰(zhàn),但是總用不怕困難的廠商率先嘗試,這一次還是理想走在了前面。

打響VLA上車的第一槍

作為首發(fā)VLM上車的車企,理想無疑是去年智駕行業(yè)最耀眼的明星。

不到一年的時(shí)間,理想再次領(lǐng)先一步,3月18日理想正式發(fā)布了下一代自動(dòng)駕駛架構(gòu)MindVLA,這是一個(gè)融合了視覺、語言和行為智能的大模型,賦予了自動(dòng)駕駛強(qiáng)大的3D空間理解能力、邏輯推理能力和行為生成能力,讓自動(dòng)駕駛能夠感知、思考和適應(yīng)環(huán)境,更重要的是通過3D高斯、MoE混合專家架構(gòu)的LLM基座模型和diffusion模型等技術(shù),讓VLA第一次應(yīng)用在量產(chǎn)車。

理想也公開了非常多的細(xì)節(jié),從架構(gòu)上看MindVLA和學(xué)術(shù)領(lǐng)域的VLA架構(gòu)有很多的不同點(diǎn)。

之前的VLA架構(gòu)非常簡單,輸入是傳感器數(shù)據(jù)和語言信息,輸出軌跡,中間是一個(gè)大的基座模型,而MindVLA除了有基座大模型之外,還增加了其它的模塊,這其中有幾個(gè)關(guān)鍵的技術(shù),代表了理想從工程端對VLA的理解。

V - Spatial Intelligence空間智能

在MindVLA的架構(gòu)中傳感器數(shù)據(jù)沒有直接輸入到基座大模型中,而是先經(jīng)過了一個(gè)V-Spatial Intelligence的模塊,這個(gè)模塊能根據(jù)傳感器的原始輸入形成對3D物理世界的理解,和大語言模型相比,有更強(qiáng)的空間感知能力,這其中關(guān)鍵的技術(shù)是使用了3D高斯表征。

3D高斯最早起源于圖像渲染和三維場景重建領(lǐng)域,可以通過二維的圖像還原3D的場景,此前該領(lǐng)域廣泛應(yīng)用的是神經(jīng)輻射場算法-NeRF,這是一種基于輻射場和光纖可逆原理還原3D物體的神經(jīng)網(wǎng)絡(luò)算法,圖像質(zhì)量高但是訓(xùn)練時(shí)間長、渲染速度慢,不適合實(shí)時(shí)場景,廣泛用于電影特效和游戲開發(fā)領(lǐng)域。

而3D高斯則是利用3D高斯分布的點(diǎn)對圖像進(jìn)行建模,每個(gè)高斯點(diǎn)包含位置、方向、顏色和透明度等信息,渲染時(shí)這些高斯分布點(diǎn)會(huì)被投影出來,通過光柵化技術(shù)合成,類似于在圖層上潑灑高斯點(diǎn),每個(gè)點(diǎn)貢獻(xiàn)一個(gè)像素或片段的顏色和透明圖,最終還原整個(gè)物體。

3D高斯最大的特點(diǎn)是建模速度非??觳⑶铱梢酝ㄟ^原圖的RGB信息進(jìn)行自監(jiān)督學(xué)習(xí)。

如果用畫畫來比喻,NeRF就像一個(gè)畫功很好的畫家,根據(jù)原圖中的光影和細(xì)節(jié)一筆一畫的還原出來,而3D高斯則是前衛(wèi)的「潑墨」藝術(shù)家,同時(shí)將不同顏色和透明度的斑點(diǎn)打在畫布上,層層疊加形成圖像。

理想的團(tuán)隊(duì)將3D高斯首次應(yīng)在自動(dòng)駕駛領(lǐng)域,并且在路徑規(guī)劃、占用格柵網(wǎng)絡(luò)和障礙物檢測等任務(wù)上都有很好的表現(xiàn),MindVLA中使用3D高斯作為感知模塊,和自車位置和導(dǎo)航信息等一同編碼輸入到基座大模型中。

MindGPT大模型

這次的MindVLA中,理想沒有再使用開源的千問模型,而是從0開始搭建了一個(gè)LLM基座模型MindGPT。

從名字來看這似乎是和理想座艙共用的大模型,而且李想今年也公開表示成為一家AI公司的長期愿景,所以根據(jù)自身的需求搭建一個(gè)大模型是非常必要的戰(zhàn)略方向。

為了降低大模型在車端的計(jì)算需求,MindVLA采用了MoE混合專家架構(gòu)和Sparse Attention(稀疏注意力)。

MoE模型是一種分而治之策略的神經(jīng)網(wǎng)絡(luò)架構(gòu),它將復(fù)雜的問題分解為多個(gè)子問題,每個(gè)子問題由一個(gè)獨(dú)立的模型(稱為專家)進(jìn)行處理,與稠密模型相比,參數(shù)更少,預(yù)訓(xùn)練速度更快,同時(shí)由于少數(shù)專家模型被同時(shí)激活,與相同參數(shù)數(shù)量的模型相比,MoE架構(gòu)可以大幅減少計(jì)算開銷。

稀疏注意力機(jī)制是一種改進(jìn)的注意力機(jī)制,旨在解決傳統(tǒng)的Transformer注意力機(jī)制在高維輸入或長序列數(shù)據(jù)上的計(jì)算復(fù)雜度過高的問題。通過減少注意力計(jì)算中需要處理的元素?cái)?shù)量,稀疏注意力機(jī)制能夠顯著降低計(jì)算和內(nèi)存開銷,同時(shí)保持較高的模型性能。

理想也把當(dāng)前端到端+VLM的快慢思考模式引入到MindVLA中,訓(xùn)練MindGPT學(xué)習(xí)這個(gè)思考模式,可以自主切換快思考和慢思考,同時(shí)MindVLA采取小詞表結(jié)合投機(jī)推理,以及并行解碼技術(shù),實(shí)現(xiàn)了模型參數(shù)規(guī)模與實(shí)時(shí)推理性能之間的平衡。

擴(kuò)散模型(Diffusion Model)

LLM大模型雖然可以直接輸出控制軌跡,但是準(zhǔn)確度不穩(wěn)定,MindVLA中沒有讓基座大模型直接生成軌跡,而是輸出Action token,然后使用了一個(gè)擴(kuò)散模型解碼成駕駛軌跡。

擴(kuò)散模型不僅生成自車的軌跡,同時(shí)預(yù)測其它車輛和行人的軌跡,此外擴(kuò)散模型還可以根據(jù)外部的條件輸入改變生成的結(jié)果,通過這種特性可以根據(jù)用戶的指令改變自動(dòng)駕駛系統(tǒng)的風(fēng)格。

為了解決擴(kuò)散模型生成效率低的問題,MindVLA使用了基于常微分方程的ODE采樣器來加速生成過程,在2~3步內(nèi)就可以生成穩(wěn)定的軌跡。

云端世界模型

通過高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練,MindVLA大模型能夠達(dá)到專業(yè)司機(jī)的駕駛水平,但是要讓系統(tǒng)有機(jī)會(huì)超越人類,需要在云端模型場景對系統(tǒng)進(jìn)行訓(xùn)練,但是傳統(tǒng)的云端模擬都是基于游戲引擎,會(huì)出現(xiàn)不符合物理規(guī)律的幻覺,無法滿足自動(dòng)駕駛對真實(shí)性的要求。

理想的做法是結(jié)合真實(shí)場景進(jìn)行重建和生成,同時(shí)在不同的視角下添加噪音來訓(xùn)練生成模型,讓模型具備多視角的生成能力,更接近真實(shí)世界的3D環(huán)境。

理想通過創(chuàng)新的架構(gòu)和工程上的優(yōu)化,讓VLA率先應(yīng)用在了量產(chǎn)車上,而且根據(jù)理想公布的計(jì)劃,MindVLA不僅會(huì)應(yīng)用在Thor方案上,當(dāng)前OrinX的方案也會(huì)搭載MindVLA,雖然在模型的參數(shù)規(guī)模上可能有些裁剪,但是表現(xiàn)同樣讓人期待。

VLA,是不是唯一路徑?

除了理想之外,元戎也一直是VLA方案的推崇者,從去年開始元戎就在多個(gè)場合提出VLM并不是自動(dòng)駕駛方案的最優(yōu)解。

在前不久GTC上,元戎CEO周光也提到將用VLA打通空間智能、語言智能和行為智能,實(shí)現(xiàn)自動(dòng)駕駛并應(yīng)用在其它AI場景。

但VLA是實(shí)現(xiàn)自動(dòng)駕駛的唯一解嗎?

特斯拉并沒有公開表示自己的端到端是以大語言模型為基座,但是它的表現(xiàn)依然驚艷。

「AI教母」李飛飛的第一個(gè)創(chuàng)業(yè)項(xiàng)目沒有選擇大語言模型,而是轉(zhuǎn)向空間智能,通過二維圖片來還原3D世界,類似的想法還有蔚來的世界模型;這些都代表了AI行業(yè)對下一代技術(shù)方向的思考,VLA是不是最優(yōu)解還需要實(shí)際表現(xiàn)來證明。

VLA在自動(dòng)駕駛領(lǐng)域才剛剛起步,還有很大的想象空間,今年7月份理想會(huì)開啟MindVLA的推送,元戎也預(yù)計(jì)搭載其VLA模型的車型今年將投入消費(fèi)者市場。

非常期待它們的表現(xiàn)。

相關(guān)推薦