• 正文
    • What:什么是BEV+Transformer
    • Why:為什么需要基于Transformer的BEV
    • Who: 行業(yè)最佳實(shí)踐是特斯拉
    • How:自動(dòng)駕駛感知的主流范式
    • 總結(jié)
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

一文看懂BEVFormer技術(shù)及其背后價(jià)值

2023/05/16
4356
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

從時(shí)間維度上看,BEVFormer已是歷史產(chǎn)物,或許幾個(gè)月、最多一兩年后,一個(gè)真正的“王炸”會(huì)出現(xiàn)。

2021年7月,特斯拉展示了基于BEV+Transformer(BEVFormer)的自動(dòng)駕駛感知新范式,在取得了驚艷的效果后,國(guó)內(nèi)也掀起“跟風(fēng)潮”。

近期,理想、蔚來(lái)、小鵬、小馬智行、百度等多家主流車(chē)企、自動(dòng)駕駛方案解決商推出相關(guān)量產(chǎn)方案。

一時(shí)間,BEV越發(fā)“火”了起來(lái)。

這背后邏輯也很好理解。一方面,BEV技術(shù)已經(jīng)日漸成熟,從預(yù)研階段基本走到了量產(chǎn)落地階段;另外一方面,今年可能會(huì)是從高速NOA走向城區(qū)NOA量產(chǎn)的元年,在更加復(fù)雜的智駕場(chǎng)景下,BEV所帶來(lái)的優(yōu)勢(shì)能更好地得到體現(xiàn)。

與此同時(shí),在智能駕駛商業(yè)化進(jìn)展不及預(yù)期的大背景下,BEV也可以作為相關(guān)企業(yè)難得的“技術(shù)賣(mài)點(diǎn)”。

因此,在這個(gè)時(shí)間節(jié)點(diǎn),我們?cè)噲D按照What-Why-Who-How的邏輯,對(duì)BEV+Transformer技術(shù)本身,以及背后的商業(yè)價(jià)值可能性進(jìn)行探討。

What:什么是BEV+Transformer

首先解決技術(shù)概念問(wèn)題。

BEV(Bird's-eye-view),即鳥(niǎo)瞰圖視角,是自動(dòng)駕駛跨攝像頭和多模態(tài)融合背景下的一種視角表達(dá)形式。

它的核心思想,是將傳統(tǒng)自動(dòng)駕駛2D圖像視角(Image View)加測(cè)距的感知方式,轉(zhuǎn)換為在鳥(niǎo)瞰圖視角下的3D感知。

從實(shí)現(xiàn)任務(wù)來(lái)說(shuō),BEV的核心是將2D圖像作為輸入,最終輸出一個(gè)3D的框架,在這個(gè)過(guò)程中,如何將不同傳感器的特征(feature)實(shí)現(xiàn)最優(yōu)表達(dá)是難點(diǎn)。

目前行業(yè)有兩種常見(jiàn)的方式,一種是正向思維,采用自底向上、從2D到3D的方式,先在2D視角去每個(gè)像素的深度,再通過(guò)內(nèi)外參投影到BEV空間,通過(guò)多視角的融合生成BEV特征,但對(duì)深度的估計(jì)一直都是難點(diǎn)。

另一種方法是逆向思維,采用自頂向下、從3D到2D的方式,先在BEV空間初始化特征,在通過(guò)多層transformer與每個(gè)圖像特征進(jìn)行交互融合,最終再得到BEV特征。

在第二種方法中,因?yàn)門(mén)ransformer的存在,使得“逆向思維”成為了可能。

Transformer是一種基于注意力機(jī)制(Attention)的神經(jīng)網(wǎng)絡(luò)模型,由Google在2017年提出。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)RNN和CNN不同,Transformer不會(huì)按照串行順序來(lái)處理數(shù)據(jù),而是通過(guò)注意力機(jī)制,去挖掘序列中不同元素的聯(lián)系及相關(guān)性,這種機(jī)制背后,使得Transformer可以適應(yīng)不同長(zhǎng)度和不同結(jié)構(gòu)的輸入。

Transformer問(wèn)世后,先在自然語(yǔ)言處理NLP領(lǐng)域大放異彩,之后被逐步移植到計(jì)算機(jī)視覺(jué)任務(wù)上,也取得了驚人的效果,實(shí)現(xiàn)了NLP和CV在建模結(jié)構(gòu)上的大一統(tǒng),使視覺(jué)和語(yǔ)言的聯(lián)合建模更容易,兩個(gè)領(lǐng)域的建模和學(xué)習(xí)經(jīng)驗(yàn)可以通過(guò)深度共享,也加快各自領(lǐng)域進(jìn)展。

Why:為什么需要基于Transformer的BEV

在厘清技術(shù)原理后,其實(shí)也就理解了“為什么需要”的問(wèn)題:識(shí)別準(zhǔn),精度高,方便和激光、毫米波雷達(dá)做前融合等。

具體延展來(lái)看,BEV可以帶來(lái)四大優(yōu)勢(shì)。

第一,BEV視角下的物體,不會(huì)出現(xiàn)圖像視角下的尺度(scale)和遮擋(occlusion)問(wèn)題。由于視覺(jué)的透視效應(yīng),物理世界物體在2D圖像中很容易受到其他物體遮擋,2D感知只能感知可見(jiàn)的目標(biāo),而在BEV空間內(nèi),算法可以基于先驗(yàn)知識(shí),對(duì)被遮擋的區(qū)域進(jìn)行預(yù)測(cè)。

第二,將不同視角在BEV下進(jìn)行統(tǒng)一表達(dá),能極大方便后續(xù)規(guī)劃和控制任務(wù)。主流規(guī)劃和控制算法,不論上游傳感器信息來(lái)自什么視角,經(jīng)過(guò)融合之后,都會(huì)轉(zhuǎn)換到以自車(chē)為中心坐標(biāo)系中(Vehicle Coordinate System,VCS),對(duì)VCS來(lái)說(shuō),最適合的其實(shí)就是BEV視角,也就是BEV感知結(jié)果輸出的空間是規(guī)劃和控制任務(wù)的標(biāo)準(zhǔn)輸入。

第三,BEV能夠給系統(tǒng)帶來(lái)巨大的提升。攝像頭感知算法工作在2D空間,而雷達(dá)感知算法工作在3D空間,在對(duì)2D與3D幾何關(guān)系融合過(guò)程中,會(huì)丟失大量的原始信息,采用BEV感知系統(tǒng)中,攝像頭、激光雷達(dá)、毫米波雷達(dá)感知均在BEV空間中進(jìn)行,融合過(guò)程提前。BEV還可以引入過(guò)去時(shí)間片段中的數(shù)據(jù),實(shí)現(xiàn)時(shí)序融合,最終使感知效果更加穩(wěn)定、準(zhǔn)確。

第四,BEV能夠?qū)崿F(xiàn)端到端優(yōu)化。感知任務(wù)中的識(shí)別、跟蹤和預(yù)測(cè)本質(zhì)是一個(gè)串行系統(tǒng),系統(tǒng)上游誤差會(huì)傳遞在下游誤差,在BEV空間內(nèi),感知和預(yù)測(cè)都在同一個(gè)空間進(jìn)行,可以通過(guò)神經(jīng)網(wǎng)絡(luò)做到端到端的優(yōu)化,輸出“并行”結(jié)果,而整個(gè)感知網(wǎng)絡(luò)可以以數(shù)據(jù)驅(qū)動(dòng)方式來(lái)自學(xué)習(xí),實(shí)現(xiàn)快速迭代。

可以理解為,BEV可以實(shí)現(xiàn)將360度環(huán)視的時(shí)間、空間融合,再加上Transformer架構(gòu)可以輸出靜態(tài)的車(chē)道線(xiàn)、紅綠燈、道路邊緣信息等,以及動(dòng)態(tài)的有行人、兩輪車(chē)、汽車(chē)等,同時(shí)還應(yīng)用了端到端的預(yù)測(cè)能力,結(jié)合時(shí)序幀能對(duì)周邊的車(chē)輛做未來(lái)3-6秒的軌跡預(yù)測(cè)。

這也意味著,端到端的算法有了閉環(huán)的希望。

Who: 行業(yè)最佳實(shí)踐是特斯拉

特斯拉是第一個(gè)在工業(yè)界采用BEV+Transformer進(jìn)行視覺(jué)感知任務(wù)的企業(yè)。

在其感知任務(wù)中,首先利用主干網(wǎng)絡(luò)對(duì)各個(gè)攝像機(jī)進(jìn)行特征提取,再利用Transformer將多攝像機(jī)數(shù)據(jù)從圖像空間轉(zhuǎn)化為BEV空間。

在這個(gè)空間里面,通過(guò)深度學(xué)習(xí)去完成一個(gè)特征的融合,然后再通過(guò)一個(gè)3D的解碼器,直接端到端輸出最后的一個(gè)3D檢測(cè)和道路結(jié)構(gòu)信息,這樣下游的規(guī)劃與控制直接可以在BEV的空間上去進(jìn)行。

這一次革命,讓馬斯克可以自信地對(duì)外宣稱(chēng),特斯拉感知不依賴(lài)激光雷達(dá)和毫米波雷達(dá),依靠純視覺(jué),也可以得到準(zhǔn)確三維世界信息。

基于以上實(shí)踐,眾多車(chē)企以及智駕供應(yīng)商都開(kāi)始嘗試BEV+transformer,車(chē)企里的代表蔚來(lái)、理想、小鵬;智駕供應(yīng)商里面的百度、毫末、地平線(xiàn)、小馬、輕舟等等,在具體使用方法上每一家有“微調(diào)”,但是整體還是跟隨特斯拉的節(jié)奏在走。

How:自動(dòng)駕駛感知的主流范式

未來(lái),BEV+Transformer很有可能會(huì)替代之前的2D+CNN,逐步成為自動(dòng)駕駛感知的主流范式。

這意味著,從硬件芯片開(kāi)始,到傳感器攝像頭、軟件算法、模型部署、數(shù)據(jù)采集標(biāo)定等,都需要有相應(yīng)的適配和變化。

第一,為了確保視覺(jué)感知重疊,對(duì)汽車(chē)攝像頭數(shù)量的要求會(huì)有所提升,相應(yīng)地,激光雷達(dá)的數(shù)量以及在感知中的作用會(huì)減少,也就是純視覺(jué)技術(shù)路線(xiàn)會(huì)受到更多的青睞。

第二,Transformer是暴力美學(xué),模型體量驚人,其運(yùn)算還會(huì)消耗大量的存儲(chǔ)及帶寬空間,對(duì)芯片來(lái)說(shuō),除了需要進(jìn)行相應(yīng)算子適配以及底層軟件優(yōu)化外,在SOC層面需要對(duì)緩存和帶寬要求進(jìn)行增加。

第三,Transformer需要海量數(shù)據(jù),會(huì)使得汽車(chē)數(shù)據(jù)采集、訓(xùn)練、標(biāo)注的成本大幅度上升。

這些一定程度上,也會(huì)使得芯片、攝像頭、標(biāo)注等相關(guān)產(chǎn)業(yè)廠商受益。

總結(jié)

通過(guò)對(duì)BEV+Transformer的梳理,我主要有以下兩點(diǎn)感受。

第一, 為什么BEV+Transformer會(huì)成為主流范式,我覺(jué)得背后核心還是第一性原理,就是智能駕駛要越來(lái)越近“人一樣去駕駛”,映射到感知模型本身,BEV是一種更加自然的表達(dá)方式,而Transformer實(shí)現(xiàn)了CV和NLP的統(tǒng)一。

第二, 隨著工業(yè)和學(xué)術(shù)界的研究推進(jìn),近段時(shí)間BEV+Transformer從普及到走向量產(chǎn),在當(dāng)前智能駕駛商業(yè)受阻的背景下,或許是一個(gè)難得的亮點(diǎn)。但從時(shí)間維度上看,BEV+Transformer已是歷史產(chǎn)物,占用網(wǎng)絡(luò)已經(jīng)來(lái)了,大模型也在路上,或許幾個(gè)月、最多一兩年之后,一個(gè)真正的“王炸”會(huì)出現(xiàn),會(huì)讓之前的積累全部推倒重來(lái),我們要對(duì)每一波的迭代懷有敬畏之心,先從技術(shù)開(kāi)始,之后就是商業(yè)模式的大變革。

有關(guān)算法迭代、大模型、Mapless、GPT等是我們近期持續(xù)跟進(jìn)的重點(diǎn),有興趣歡迎隨時(shí)與我溝通交流。

作者 | 汽車(chē)人參考

 

相關(guān)推薦