• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

從小米的端到端看自動駕駛物理世界如何建模

03/26 12:05
439
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

小米的智能駕駛和小米銷量一樣是中國智能汽車中發(fā)展最快的,從2021年立項,到2024年3月28日小米Su 7,帶著高速領(lǐng)航上市;半年之后的9月份,小米的城區(qū)領(lǐng)航上市;到2025年現(xiàn)在開始內(nèi)測車位到車位智駕駛。不管小米智能駕駛目前體驗(yàn)性能體驗(yàn)如何,但不可否認(rèn)小米的智能駕駛的功能成長速度是最快的。

最近的GTC 2025 上小米汽車自動駕駛機(jī)器人部楊奎元,表示“小米在2024年智能駕駛上實(shí)現(xiàn)了一年追三代的快速追趕,從基于高精地圖模塊化架構(gòu)到去高精地圖模塊化架構(gòu)再到端到端架構(gòu)?!?同時他也介紹了小米在端到端方面的一些實(shí)踐。所以本文,根據(jù)楊奎元在GTC 2025 的演講內(nèi)容,探討端到端算法的物理世界如何建模,也希望探討下當(dāng)前智能駕駛端到端到底有幾段。

“三層建模”架構(gòu)的物理世界模型數(shù)據(jù)觀測層Ot作為神經(jīng)網(wǎng)絡(luò)的輸入層,也就是傳感器輸入的包含了圖像、激光雷達(dá)點(diǎn)云以及領(lǐng)航功能所需要的導(dǎo)航信息等。隱式特征層Zt,上一步輸入層的信息,通過BEV編碼網(wǎng)絡(luò)得到隱私的特征表達(dá),通過不同的解碼器可以分別得到:

    動態(tài)元素,其他交通參與者,其中動態(tài)元素在場景中分布較為稀疏局部且不同個體運(yùn)動狀態(tài)不同,需要單獨(dú)維護(hù)各自的歷史信息,小米智駕使用帶有memory的Sparse方案進(jìn)行建模靜態(tài)元素,道路標(biāo)志,設(shè)施,障礙物等,靜態(tài)元素則相反,直接采用Dense方案進(jìn)行建模。自車的未來軌跡,根據(jù)車輛的速度,IMU方位等信息得出自己車輛的運(yùn)動軌跡。

顯示符號層St,就是為了方便人理解以及對接人工規(guī)則代碼,模型會解碼出顯示的符號表達(dá),如靜態(tài)的車道線、斑馬線等,動態(tài)的行人、車輛等,這些也是監(jiān)督學(xué)習(xí)中人工增值標(biāo)注或者自動化增值標(biāo)注的表達(dá)形式。

有了這“三層建模”這樣就形成對當(dāng)前場景的理解,用于未來的決策規(guī)劃。不過,這種“三層建?!敝皇且环N粗粒度的劃分和表達(dá),每一層內(nèi)部還可以細(xì)化為更多的層。比如圖像金字塔中的多層分辨率圖像,深度神經(jīng)網(wǎng)絡(luò)中不同隱層的特征表示等。

最后可能車輛輸出的運(yùn)動軌跡只是充分考慮了動靜態(tài)信息之后解碼生成,最終通過人工設(shè)計的cost,如和其他障礙物計算的碰撞cost、和車道線計算的偏離車道cost、橫縱向Jerk計算的舒適性cost,用于約束軌跡的合理性。

整個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練由人工定義也就是規(guī)則定義的最后一層的loss曲度,包含靜態(tài)和動態(tài)的元素和真值之間的差異、自車軌跡模仿廉價軌跡的差異以及人工設(shè)計的多個cost,輸出運(yùn)動軌跡來控車。

物理世界模型的建模方法設(shè)定好了模型架構(gòu),那么建模就是打通數(shù)據(jù)驅(qū)動渠道,讓模型能夠在數(shù)據(jù)驅(qū)動下自動輸出真實(shí)的需要的結(jié)論,形成數(shù)據(jù)驅(qū)動飛輪。三層分別建模的多段式端到端數(shù)據(jù)觀測層典型的輸入就是各家常說的多少Clips視頻流,但不少corner case或者長尾場景,和感知造環(huán)的閉環(huán)仿真評測需要采用生成數(shù)據(jù)訓(xùn)練。目前已經(jīng)有很多相對成熟的AI技術(shù)可以使用,如3DGS重建技術(shù)、diffusion auto regression生成技術(shù),典型的工具有open AI的Sara、Deepmind 的 Journey 到英偉達(dá)的Cosmos的這些視覺生成大模型。

通過直接擬合原始數(shù)據(jù)的概率分布加上額外使用逆時針圖像隱私特征顯示符號等控制條件,可以進(jìn)行原始信號的生成。當(dāng)前這些模型目前生成速度較慢主要在云端仿真物理世界。這些生成模型通常也需要使用隱私特征但主要側(cè)重于傳感器細(xì)節(jié)信號的恢復(fù),在理解任務(wù)上性能欠佳。于是最近也有些工作開始嘗試同時用于生成和理解的隱私特征空間。

隱式特征層,在智能駕駛領(lǐng)域目前還沒有成熟的基座模型可以用于生成穩(wěn)定的特征表達(dá)。顯示符號層類似自然語言表達(dá)人工可以直接編碼操作,借助人類對物理世界已經(jīng)具備的建模能力,可以通過規(guī)則代碼的方式和模型結(jié)合完成持續(xù)上的建模,如互助理經(jīng)常使用的運(yùn)動學(xué)模型如勻速模型云加速模型等,規(guī)控常用的軌跡采樣搜索和優(yōu)化等,在端到端范式中顯示符號層也可以用于顯示定義cost對應(yīng)強(qiáng)化學(xué)習(xí)中的reward驅(qū)動策略學(xué)習(xí),另外受大模型scaling law啟發(fā),清華趙航教授和理想合作的state Transformer、蘋果的self play(這就是之前網(wǎng)絡(luò)上說蘋果沒有放棄自動駕駛的信息)等工作在顯示符號層通過增大數(shù)據(jù)量也驗(yàn)證了scaling law對自駕任務(wù)的有效性。

三層聯(lián)合持續(xù)建模的一段式端到端在云端訓(xùn)練模型時,輸入錄制車輛傳感器的未來幀數(shù)據(jù)則可以用于提供模型訓(xùn)練的自監(jiān)督信號。將中間的隱式特征層在持續(xù)維度上拓展到未來幀。形成完整的時空神經(jīng)網(wǎng)絡(luò)模型統(tǒng)一由數(shù)據(jù)驅(qū)動學(xué)習(xí),配上顯示符號層的模型,一起也就是形成了一段式模型。但是,由于自動駕駛環(huán)境的動靜態(tài)元素在未來中的變化方式不同:

    靜態(tài)元素的變化主要和自車運(yùn)動相關(guān)。動態(tài)元素的變化由他們各自的運(yùn)動和自作運(yùn)動共同決定。

因此,推測這種一段式三層聯(lián)合建模,也會分出兩個模型,一個動態(tài)物體模型,一個是靜態(tài)模型??偨Y(jié)以上為理論建模,但實(shí)際工程落地更為復(fù)雜,需要考慮算力平臺優(yōu)化,模型精簡等。所以,楊奎元還分享了部分工程化實(shí)踐,例如:
云端訓(xùn)練加速

    英偉達(dá)平臺優(yōu)化:推理Pipeline重構(gòu)(利用率↑100%)、CV庫優(yōu)化(GPU利用率↑30%)。模型架構(gòu)精簡:利用數(shù)據(jù)稀疏性、2D-3D幾何關(guān)系減少冗余計算。

車端部署優(yōu)化

    異構(gòu)計算:圖像前處理遷移至Vic SP/NV Encode單元。算子加速:耗時算子優(yōu)化20-40%,Orin平臺性能翻倍。

等工程化落地實(shí)踐。最后,以上為基于小米楊奎元的演講推測一段式和幾段式端到端,可能有錯誤,歡迎懂行留言討論。未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

端到端全場景智能駕駛 - 小米 楊奎元 GTC 2025 演講PDF

加入我們的知識星球可以下載包含以上參考資料的汽車行業(yè)海量的一手資料。

小米

小米

小米是全球第四大智能手機(jī)制造商,在30余個國家和地區(qū)的手機(jī)市場進(jìn)入了前五名,特別是在印度,連續(xù)5個季度保持手機(jī)出貨量第一。通過獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動了更多志同道合的創(chuàng)業(yè)者,同時建成了連接超過1.3億臺智能設(shè)備的IoT平臺。

小米是全球第四大智能手機(jī)制造商,在30余個國家和地區(qū)的手機(jī)市場進(jìn)入了前五名,特別是在印度,連續(xù)5個季度保持手機(jī)出貨量第一。通過獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動了更多志同道合的創(chuàng)業(yè)者,同時建成了連接超過1.3億臺智能設(shè)備的IoT平臺。收起

查看更多

相關(guān)推薦