隨著人工智能與傳感器技術(shù)的快速發(fā)展,自動駕駛汽車逐步走入公眾視野。其中,關(guān)于感知系統(tǒng)的技術(shù)路線選擇,始終是大家爭論的焦點(diǎn)。尤其是“純視覺方案”,也就是主要依賴攝像頭進(jìn)行環(huán)境感知,不使用或極少使用激光雷達(dá)和毫米波雷達(dá)的方案,更是在以特斯拉為代表的企業(yè)推動下,成為眾多車企研究的重點(diǎn),甚至在24年成為各車企追捧的主要技術(shù)方向。純視覺路線聽起來似乎更具性價比,也更接近人類駕駛員的感知方式,但隨著技術(shù)不斷推進(jìn),其弊端也逐漸顯現(xiàn)。
人類視覺≠機(jī)器視覺:認(rèn)知能力的本質(zhì)區(qū)別
首先需要明確的是,純視覺方案的提出是希望自動駕駛汽車像人一樣“看懂”世界。人類駕駛者主要依靠眼睛和大腦來識別路況、判斷距離、預(yù)測風(fēng)險,視覺系統(tǒng)可以覆蓋絕大多數(shù)駕駛?cè)蝿?wù)。但這并不意味著攝像頭加神經(jīng)網(wǎng)絡(luò)的組合,就能等同于人類感知。
人類大腦擁有數(shù)百萬年進(jìn)化而來的圖像處理能力,不僅能精準(zhǔn)識別物體,還能根據(jù)經(jīng)驗(yàn)、常識進(jìn)行推理,如看到小孩在路邊玩耍,就知道可能要減速。但深度神經(jīng)網(wǎng)絡(luò)的“智能”是在有限樣本中訓(xùn)練出來的,在面對陌生或復(fù)雜情況時,表現(xiàn)常常不穩(wěn)定。而且,純視覺系統(tǒng)沒有“觸覺”或“深度感知”能力,無法像人類那樣通過立體視覺和肌肉反饋協(xié)同來判斷距離或速度。
因此,即使攝像頭分辨率再高,圖像處理能力再強(qiáng),其在實(shí)際道路上仍面臨對突發(fā)情況判斷力不足的問題。這種“認(rèn)知差距”是當(dāng)前視覺方案最大的問題根源。
深度感知能力有限:距離判斷誤差大
攝像頭擅長的是二維圖像捕捉,而自動駕駛所需的是三維空間理解。為了模擬立體視覺,純視覺方案通常采用雙目或多目攝像頭,通過視差計(jì)算出物體距離。然而,這種方法存在物理極限,受視差基線距離、成像質(zhì)量和環(huán)境光線影響非常大。
在近距離(例如5米以內(nèi)),攝像頭可以較準(zhǔn)確地估算距離;但距離一旦拉長到30米甚至更遠(yuǎn),基于圖像的深度計(jì)算誤差就會急劇上升。尤其在夜間、逆光、雨雪等惡劣天氣條件下,圖像質(zhì)量下降,深度估算更是容易失準(zhǔn)。當(dāng)深夜在高速行駛時,如果誤判前方車輛的距離,就可能無法及時制動,導(dǎo)致追尾事故。
相比之下,激光雷達(dá)或毫米波雷達(dá)采用的是主動測距機(jī)制,能直接獲得目標(biāo)距離和速度信息,受光照影響小,誤差更小。因此,缺乏高精度的深度感知,是純視覺方案天然的技術(shù)短板。
對光線變化高度敏感:極端環(huán)境適應(yīng)差
純視覺系統(tǒng)非常依賴自然光照條件,其對光線變化的容忍度遠(yuǎn)低于雷達(dá)類傳感器。在白天晴朗的環(huán)境中,攝像頭可以清晰捕捉路況細(xì)節(jié),但在夜間、隧道、強(qiáng)逆光、雪天或雨天等場景下,其性能會迅速下降。
在夜間行車時,若對面車輛開啟遠(yuǎn)光燈,會造成強(qiáng)烈炫光干擾,使攝像頭捕獲圖像嚴(yán)重過曝,目標(biāo)邊緣模糊,甚至無法識別物體;而在大霧天或大雨天,攝像頭成像質(zhì)量也會急劇下降,視覺模糊,信號噪聲變大,導(dǎo)致系統(tǒng)錯誤判斷甚至感知失敗。
反觀毫米波雷達(dá)和激光雷達(dá),由于其不依賴可見光,而是通過電磁波或激光主動掃描環(huán)境,因此具備較強(qiáng)的全天候工作能力,尤其在低能見度場景下優(yōu)勢明顯。純視覺方案在這些環(huán)境下的脆弱性,不可避免地成為其實(shí)際部署時的嚴(yán)重障礙。
遮擋與盲區(qū)問題難以解決
自動駕駛系統(tǒng)必須能夠應(yīng)對包括視線受阻、車輛遮擋、交叉路口等各類復(fù)雜道路場景。在這些場景中,攝像頭由于依賴可見光成像,視野受限非常明顯,極容易出現(xiàn)“看不見”的盲區(qū)。
舉個例子,前車在正常行駛,其后方存在行人突然橫穿馬路的風(fēng)險。由于純視覺系統(tǒng)主要依靠攝像頭獲取前方圖像,在完全被前車遮擋的情況下,它無法“看到”正在穿越馬路的人,直到前車剎車或變道才可能識別。此時系統(tǒng)的反應(yīng)時間已非常有限。
訓(xùn)練數(shù)據(jù)依賴性強(qiáng),泛化能力弱
視覺感知系統(tǒng)背后的深度學(xué)習(xí)模型,需要依賴大量標(biāo)注清晰、覆蓋廣泛的訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)通常包括各種交通場景、天氣條件、道路類型等,用于訓(xùn)練系統(tǒng)識別各種物體和行為。但真實(shí)道路的變化極其復(fù)雜,總有新情況是模型“沒見過”的。
想象一下,若某地區(qū)突發(fā)暴雨,道路被積水淹沒,交通標(biāo)線消失;或是出現(xiàn)一個沒被系統(tǒng)學(xué)過的異型交通標(biāo)志。如果訓(xùn)練數(shù)據(jù)中沒有類似案例,純視覺模型往往就“看不懂”,甚至?xí)鞒鲥e誤決策。
更嚴(yán)重的是,深度學(xué)習(xí)模型往往具有“黑箱”屬性,難以解釋其為何做出某個判斷,給故障排查和系統(tǒng)優(yōu)化帶來巨大難度。而多傳感器融合系統(tǒng)(例如激光+視覺+雷達(dá)),由于具備多源數(shù)據(jù)校驗(yàn)機(jī)制,可以在一個傳感器失效時由另一個補(bǔ)充,從而提供更強(qiáng)的魯棒性和泛化能力。
缺乏速度感知能力,難以應(yīng)對高速場景
自動駕駛系統(tǒng)不僅需要識別物體“是什么”和“在哪里”,還要判斷“它會往哪里走”、“它走得有多快”。在高速行駛場景下,這種時間敏感性尤為重要。、如在高速路上,系統(tǒng)就需要根據(jù)前方車輛的速度和加速度預(yù)測其變道行為,做出及時響應(yīng)。
攝像頭雖然能連續(xù)捕捉圖像幀,但其本身無法直接獲取物體的相對速度信息。純視覺方案通常依賴光流(optical flow)技術(shù)或目標(biāo)跟蹤推斷速度,但這種方法精度不高,尤其在圖像模糊、采樣間隔變動等情況下更易失準(zhǔn),導(dǎo)致系統(tǒng)無法精準(zhǔn)預(yù)測前方車輛運(yùn)動趨勢。
相反,毫米波雷達(dá)可以直接提供目標(biāo)的徑向速度數(shù)據(jù),極大提升系統(tǒng)對周圍動態(tài)變化的響應(yīng)能力。在高速場景下,這種能力往往決定著自動駕駛系統(tǒng)的安全性。純視覺方案在這一關(guān)鍵技術(shù)能力上的缺失,使其很難單獨(dú)勝任高速自動駕駛?cè)蝿?wù)。
安全冗余不足,難以滿足L4以上自動駕駛要求
在自動駕駛等級逐步邁向L3/L4的過程中,對系統(tǒng)穩(wěn)定性、故障容忍度、安全冗余的要求極高。任何一個傳感器的短時失效,都可能導(dǎo)致嚴(yán)重后果。因此,各車企普遍采用“傳感器冗余”策略,即多個不同類型的傳感器相互印證,確保感知結(jié)果的可靠性。
純視覺方案由于成本考慮,通常不設(shè)置冗余攝像頭或多類型感知系統(tǒng)。一旦主攝像頭遭遇污染、損壞、遮擋或軟件崩潰,整個系統(tǒng)感知能力將大打折扣,甚至完全“失明”。這種單一感知模式的安全風(fēng)險,無法滿足高級別自動駕駛的可靠性要求。
尤其是在如Robotaxi、自動配送車等無人化運(yùn)營場景中,無法依賴人工及時干預(yù)。一旦出現(xiàn)感知故障,車輛就只能停滯,甚至誤操作,帶來極大安全隱患。而多傳感器融合方案由于具備更強(qiáng)容錯能力,可通過其它傳感器“頂上”,避免系統(tǒng)全盤癱瘓。
視覺是基礎(chǔ),融合才是未來
不可否認(rèn),視覺在自動駕駛感知中扮演著核心角色。攝像頭具有成本低、體積小、信息密度高的優(yōu)點(diǎn),是自動駕駛的“眼睛”。但僅靠“眼睛”無法完成所有駕駛?cè)蝿?wù),尤其是在安全和冗余要求極高的L4/L5級別自動駕駛系統(tǒng)中,必須有“耳朵”(雷達(dá))、“手指”(觸覺)、“大腦”(地圖與高精定位)等配合。
從技術(shù)演進(jìn)趨勢來看,真正具備規(guī)模部署能力的自動駕駛系統(tǒng),大多采取“多傳感器融合”路線。視覺、雷達(dá)、激光、超聲波、IMU等共同構(gòu)成復(fù)雜的傳感系統(tǒng),在不同場景下各司其職,相互補(bǔ)償,以實(shí)現(xiàn)更安全、更可靠的感知能力。
純視覺方案盡管在成本上具有優(yōu)勢,但從技術(shù)角度來看,其弊端決定了它無法獨(dú)立支撐高級別自動駕駛的發(fā)展。未來自動駕駛的核心,不是“去雷達(dá)”,而是“用得合理”。盲目排斥非視覺傳感器,不僅不能降低成本,反而可能增加系統(tǒng)出錯的概率,反而得不償失。