佐思汽研發(fā)布《2024-2025年端到端自動駕駛產(chǎn)業(yè)研究報告》。
端到端自動駕駛有全局式(一段式)和分段式(兩段式)兩種,其中全局式端到端思路清晰,研發(fā)成本遠低于分段式,無需任何人工標注數(shù)據(jù)集,依賴谷歌、META、阿里和OpenAI等開發(fā)的多模態(tài)大模型。站在這些科技巨人肩上,性能比分段式端到端要好不少,但部署成本極高。
分段式的感知階段仍然使用傳統(tǒng)的CNN骨干網(wǎng)提取特征,在路徑規(guī)劃階段使用端到端,性能雖然不如全局式,但部署成本比全局式端到端要低。這里的部署成本低是相對的,與目前主流的傳統(tǒng)BEV+OCC+決策樹相比,分段式的部署成本還是很高的。
全局式端到端的代表:WAYMO的EMMA
全局式端到端的代表有Waymo的EMMA,直接輸入視頻,沒有骨干網(wǎng),核心就是多模態(tài)大模型。分段式端到端的代表有UniAD。
分段式端到端的典型代表:UniAD整體架構
以能否得到反饋為標準,端到端自動駕駛的研究主要分為兩類:一類是在模擬器比如CARLA中進行,規(guī)劃的下一步指令可以被真實的執(zhí)行;第二類主要是在已經(jīng)采集的現(xiàn)實數(shù)據(jù)上進行端到端研究,主要是模仿學習,參考UniAD。端到端自動駕駛目前都是開環(huán)的,不能真正看到自己的預測指令執(zhí)行后的效果。由于不能得到反饋,開環(huán)自動駕駛的測評很受限制,現(xiàn)在文獻中常用的兩種指標包括L2距離和碰撞率。
-
- L2 距離:通過計算預測軌跡和真實軌跡之間的L2距離來判斷預測軌跡的質(zhì)量
Collision Rate碰撞率: 通過計算預測軌跡和其他物體發(fā)生碰撞的概率,來評價預測軌跡的安全性
端到端自動駕駛最吸引人之處是性能提升潛力大,最早的端到端是UniAD,這是2022年底的論文,L2距離高達1.03米,2023年底就大幅提升至0.55米,2024年底進一步升到0.22米。地平線是端到端領域最活躍的公司之一,其技術發(fā)展路徑也顯示出了端到端路線整體的演進路徑。UniAD出來之后,地平線立刻提出理念與UniAD接近的VAD,性能遠超UniAD。這之后地平線轉(zhuǎn)向全局端到端,第一個成果是HE-Driver,參數(shù)量比較大,然后是最近的Senna,參數(shù)量有所縮小,也是目前性能最佳的端到端方案之一。
Senna模型
部分端到端系統(tǒng)的核心仍然是傳統(tǒng)算法BEVFormer,BEVFormer默認使用了車輛CAN總線信息,這里面包含了與自車速度,加速度,轉(zhuǎn)向角相關的信息,這些都是顯性的,對路徑規(guī)劃影響很大。這些端到端系統(tǒng)仍然需要監(jiān)督訓練,大量的人工標注就不可缺少,這讓數(shù)據(jù)成本很高,再有既然借鑒了GPT的理念,為何不直接用LLM?于是有了理想汽車的DriveVLM。
理想DriveVLM的模型pipeline,主要包括場景描述、場景分析、層級規(guī)劃三個主要模塊設計。
DriveVLM場景描述模塊的功能主要分為兩部分——環(huán)境描述和關鍵物體識別。其中,環(huán)境描述主要是對共性的駕駛環(huán)境的描述,比如天氣和道路狀況等;關鍵物體識別則是為了找出對于當前駕駛決策產(chǎn)生較大影響的關鍵物體。環(huán)境描述共包括以下四個部分:天氣、時間、道路類型、車道線狀況。
區(qū)別于傳統(tǒng)自動駕駛感知模塊將所有待檢測物體都檢出,DriveVLM 專注于識別當前駕駛場景中最有可能影響自車駕駛決策的物體,稱之為關鍵物體,因為全部都檢出會消耗天量算力。得益于理想汽車累積的海量自動駕駛數(shù)據(jù)的預訓練以及開源的大模型,VLM相較傳統(tǒng)3D目標檢測器能夠更好的檢出長尾的關鍵物體,比如路面雜物或者非常見動物等。
對于每個關鍵物體,DriveVLM會分別輸出其語義類別c和對應的2D目標框b。預訓練來自NLP大模型領域,因為NLP用的標注數(shù)據(jù)很少,很昂貴,預訓練首先利用海量的未標注數(shù)據(jù)訓練,找到語言結(jié)構特征,然后再利用prompt做標簽,微調(diào)來解決具體的下游任務。
DriveVLM徹底放棄了BEVFormer這種傳統(tǒng)算法做核心,只用多模態(tài)大模型。理想汽車DriveVLM使用阿里Qwen-VL大模型,參數(shù)量高達97億,輸入清晰度選擇448*448這種最低清晰度,用英偉達Orin做推理運算。
理想汽車如何從高端智駕追隨者成為領先者?
2023年初,理想汽車在NOA大戰(zhàn)中還是一個落后者,但2023年開始全力投入高階自動駕駛研發(fā)后,2024年經(jīng)過多次NOA版本升級,到2024年11月底率先推出車位到車位全場景自動駕駛,從而成為高階智駕(NOA)量產(chǎn)的領先者。
回顧理想汽車端到端智駕的發(fā)展歷程,除了自身數(shù)十萬用戶提供的數(shù)據(jù)支持外,還與多家合作伙伴開展端到端模型的研發(fā)合作。DriveVLM就是理想汽車和清華大學合作推出的。
除了上面提到的DriveVLM,理想汽車還與上海期智研究院、復旦大學等推出STR2,與極佳科技、中國科學院自動化研究所等單位提出DriveDreamer4D,與清華大學合作推出MoE方案等。
MoE混合專家架構
為了解決大模型參數(shù)太多,計算量太大的弊病,理想汽車與清華大學合作,采用了MoE即混合專家架構?;旌蠈<遥∕ixture of Experts,簡稱MoE)是一種集成學習方法,它通過將多個專業(yè)化的子模型(即“專家”)組合起來,形成一個整體模型。每一個“專家”都在其擅長的領域內(nèi)做出貢獻。而決定哪個“專家”參與解答特定問題的,是一個稱為“門控網(wǎng)絡”的機制。每個專家模型可以專注于解決特定的子問題,而整體模型則能夠在復雜的任務中獲得更好的性能?;旌蠈<曳椒ㄟm用于處理大規(guī)模數(shù)據(jù)集,能夠有效地應對數(shù)據(jù)量巨大和特征復雜的挑戰(zhàn)。這是因為它可以并行處理不同的子任務,充分利用計算資源,提高模型的訓練和推理效率。
STR2路徑規(guī)劃方案
STR2是一種基于Vision Transformer(ViT)和混合專家(MoE)架構的運動規(guī)劃方案,由理想汽車聯(lián)合來自上海期智研究院、復旦大學等高校機構的研究人員共同開發(fā)。
STR2的核心思路是利用MoE架構在訓練過程中通過專家路由來解決模態(tài)崩潰和獎勵平衡問題,從而提高模型在未知或少見情況下的泛化能力。
DriveDreamer4D世界模型
2024年10月底,極佳科技聯(lián)合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業(yè)大學等單位提出DriveDreamer4D。
-
- DriveDreamer4D 利用世界模型作為數(shù)據(jù)引擎,基于真實世界的駕駛數(shù)據(jù)合成新軌跡視頻(例如變道場景)。同時,DriveDreamer4D 可以為駕駛場景提供豐富多樣的視角(包括變道、加速和減速等)數(shù)據(jù),以增加動態(tài)駕駛場景下的閉環(huán)仿真能力??傮w結(jié)構框如圖所示,軌跡生成模塊(NTGM)用于調(diào)整原始軌跡動作,如轉(zhuǎn)向角度和速度,以生成新的軌跡。這些新軌跡為提取結(jié)構化信息(如車輛 3D 框和背景車道線細節(jié))提供了全新的視角。
隨后,基于世界模型的視頻生成能力,并利用更新軌跡后得到的結(jié)構化信息作為控制條件,可以合成新軌跡的視頻。最后,原始軌跡視頻與新軌跡視頻相結(jié)合,進行 4DGS 模型的優(yōu)化。