• 正文
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

StreamMOS:基于多視角感知和雙跨度記憶的流媒體移動物體分割

2024/08/04
1509
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

論文 StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory 提出了一種名為StreamMOS的流媒體網(wǎng)絡(luò),用于基于LiDAR的移動物體分割(MOS)。該方法通過多視角感知和雙跨度記憶機制來解決現(xiàn)有方法在不同幀中對同一物體分割結(jié)果不一致的問題。

引言

背景:在城市道路上,動態(tài)物體(如車輛和行人)會增加自動駕駛車輛的碰撞風(fēng)險,并對同時定位與建圖(SLAM)以及障礙物規(guī)避和路徑規(guī)劃帶來挑戰(zhàn)。

問題:由于LiDAR點云的無序性和稀疏性,移動物體分割(MOS)任務(wù)面臨挑戰(zhàn),尤其是在遠距離稀疏點云的情況下。

現(xiàn)有方法:大多數(shù)現(xiàn)有方法通過單次推理傳遞時空線索,導(dǎo)致不同幀中對同一物體的分割結(jié)果不一致。

解決方案:提出了一種流媒體結(jié)構(gòu)StreamMOS,利用短期記憶和長期記憶在多次推理中構(gòu)建特征和預(yù)測的關(guān)聯(lián)。

移動物體分割方法的流程對比。我們在(a)和(b)中比較了提出的StreamMOS與之前方法的結(jié)構(gòu)。同時,我們的方法在(c)中獲得了更好的空間完整性和時間連續(xù)性的分割結(jié)果。

相關(guān)工作

點云處理方法:Mersch等人采用稀疏4D卷積處理LiDAR掃描,并使用二元貝葉斯濾波器融合多次預(yù)測。Kreutz等人提出無監(jiān)督方法解決靜態(tài)LiDAR的MOS任務(wù)。Wang等人引入InsMOS,將檢測和分割統(tǒng)一到一個網(wǎng)絡(luò)中,以提高分割完整性。

投影方法:Chen等人將LiDAR掃描映射到球面坐標(biāo)生成殘差圖像,提取動態(tài)信息。Sun等人設(shè)計雙分支探索時空信息,并通過點精細化模塊緩解邊界模糊問題。Kim等人通過使用額外的語義特征提高性能。Mohapatra等人和Zhou等人利用鳥瞰圖(BEV)投影獲得更直觀的運動表示。

方法

框架概述

StreamMOS的整體架構(gòu)。(a) 特征編碼器采用逐點編碼器來提取點特征并將其投影到鳥瞰圖(BEV)。然后,使用級聯(lián)結(jié)構(gòu)和不對稱卷積的多視角編碼器從不同視角提取運動特征。(b) 時空融合利用注意力模塊將記憶特征傳播到當(dāng)前推理中。(c) 無參數(shù)上采樣的分割解碼器采用多尺度特征來預(yù)測類別標(biāo)簽。(d) 投票機制利用記憶預(yù)測來優(yōu)化每個3D體素和實例的運動狀態(tài)。

目標(biāo):基于多幀點云確定當(dāng)前掃描中每個點的運動狀態(tài)。

網(wǎng)絡(luò)結(jié)構(gòu):包括多視角編碼器、短期記憶、長時間記憶和投票機制。

多視角編碼器:采用級聯(lián)結(jié)構(gòu)從RV和BEV中提取密集外觀和直觀運動特征。

不對稱卷積:在BEV編碼中引入不對稱卷積,更好地捕捉垂直和水平運動。

注意力機制:實現(xiàn)時空融合,對齊不同時間的特征。

投票機制:在體素和實例級別統(tǒng)計分析長期運動狀態(tài),優(yōu)化預(yù)測標(biāo)簽。

多視角編碼器

設(shè)計:不同于以往只使用單一視角的方法,提出了多視角編碼器,從RV和BEV中提取物體的運動特征。

級聯(lián)結(jié)構(gòu):逐層獲取密集外觀和直觀運動特征,確保特征的一致性。

不對稱卷積:分離水平和垂直運動,提升特征提取的精度。

不對稱卷積塊和多視角特征的示意圖。

短期時空融合

目的:將上一次推理的記憶特征傳遞到當(dāng)前推理中,利用歷史空間狀態(tài)指導(dǎo)當(dāng)前物體運動的推斷。

實現(xiàn):構(gòu)建短期記憶庫,存儲歷史特征,并通過注意力機制實現(xiàn)時空融合。

投票機制

目的:解決神經(jīng)網(wǎng)絡(luò)輸出在不同幀中的不一致性問題。

方法:在體素和實例級別進行統(tǒng)計分析,選擇最可能的狀態(tài)更新原始點預(yù)測,優(yōu)化分割結(jié)果。

實驗

實驗設(shè)置

數(shù)據(jù)集:在SemanticKITTI-MOS和Sipailou-Campus數(shù)據(jù)集上進行實驗,驗證方法性能。

SemanticKITTI-MOS:包含22個序列,分為訓(xùn)練、驗證和測試集。

Sipailou-Campus:基于固態(tài)LiDAR構(gòu)建,分為訓(xùn)練、驗證和測試集。

評價指標(biāo):采用Jaccard指數(shù)或交并比(IoU)度量動態(tài)物體的MOS性能。

實現(xiàn)細節(jié)

數(shù)據(jù)處理:采用隨機旋轉(zhuǎn)、翻轉(zhuǎn)和輕微平移等數(shù)據(jù)增強技術(shù),提升模型的泛化能力。

訓(xùn)練策略:分兩階段訓(xùn)練,第一階段訓(xùn)練48個epoch,使用SGD優(yōu)化器,初始學(xué)習(xí)率為0.02,每10個epoch衰減0.1。

實驗結(jié)果

性能對比:在SemanticKITTI(77.8%)和Sipailou Campus(92.5%)數(shù)據(jù)集上,StreamMOS表現(xiàn)優(yōu)異,且具有實時運行能力。

速度對比:盡管使用了注意力機制和投票機制,StreamMOS仍保持了競爭性的運行時間。

SemanticKITTI驗證集上的MOS結(jié)果可視化。錯誤預(yù)測用藍色圓圈標(biāo)出。建議放大查看彩色圖。

定性分析

可視化結(jié)果:在各種場景中對比了不同方法的分割結(jié)果,StreamMOS在處理遠距離物體和邊界模糊問題上表現(xiàn)更好。

消融研究

模塊重要性:通過移除關(guān)鍵模塊(如時空融合、多視角編碼器、體素投票和實例投票)進行消融實驗,驗證各模塊的重要性。

多視角編碼器:比較了不同的多視角編碼策略,證明級聯(lián)結(jié)構(gòu)和不對稱卷積的有效性。

注意力機制:比較了不同的注意力機制,驗證了可變形注意力的優(yōu)勢。

時間窗口長度:實驗表明,時間窗口長度為8時性能最佳。

其他超參數(shù)設(shè)置:探討了幀數(shù)和BEV分辨率對性能的影響,確定了最佳設(shè)置。

結(jié)論

總結(jié):StreamMOS通過記憶機制在多次推理中傳遞先驗信息,捕捉多視角的完整外觀和運動特征,并通過投票機制優(yōu)化單次推理中的錯誤預(yù)測,實驗結(jié)果證明了該方法在多方面的競爭力。

相關(guān)信息

代碼:https://github.com/neu-real/streammos

論文:https://arxiv.org/abs/2407.17905v1

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
H3LIS331DLTR 1 STMicroelectronics Low power High-g 3-axis accelerometer, SPI/I2C digital output MEMS motion sensor, user-selectable full scales of ±100g/±200g/±400g

ECAD模型

下載ECAD模型
$14.28 查看
CD4051BE 1 RCA Single-Ended Multiplexer, 1 Func, 8 Channel, CMOS, PDIP16,
$0.52 查看
DRV8825PWP 1 Texas Instruments 45-V, 2.5-A bipolar stepper motor driver with current regulation and 1/32 microstepping ? 28-HTSSOP -40 to 85

ECAD模型

下載ECAD模型
$6.46 查看

相關(guān)推薦