論文 StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory 提出了一種名為StreamMOS的流媒體網(wǎng)絡(luò),用于基于LiDAR的移動物體分割(MOS)。該方法通過多視角感知和雙跨度記憶機制來解決現(xiàn)有方法在不同幀中對同一物體分割結(jié)果不一致的問題。
引言
背景:在城市道路上,動態(tài)物體(如車輛和行人)會增加自動駕駛車輛的碰撞風(fēng)險,并對同時定位與建圖(SLAM)以及障礙物規(guī)避和路徑規(guī)劃帶來挑戰(zhàn)。
問題:由于LiDAR點云的無序性和稀疏性,移動物體分割(MOS)任務(wù)面臨挑戰(zhàn),尤其是在遠距離稀疏點云的情況下。
現(xiàn)有方法:大多數(shù)現(xiàn)有方法通過單次推理傳遞時空線索,導(dǎo)致不同幀中對同一物體的分割結(jié)果不一致。
解決方案:提出了一種流媒體結(jié)構(gòu)StreamMOS,利用短期記憶和長期記憶在多次推理中構(gòu)建特征和預(yù)測的關(guān)聯(lián)。
移動物體分割方法的流程對比。我們在(a)和(b)中比較了提出的StreamMOS與之前方法的結(jié)構(gòu)。同時,我們的方法在(c)中獲得了更好的空間完整性和時間連續(xù)性的分割結(jié)果。
相關(guān)工作
點云處理方法:Mersch等人采用稀疏4D卷積處理LiDAR掃描,并使用二元貝葉斯濾波器融合多次預(yù)測。Kreutz等人提出無監(jiān)督方法解決靜態(tài)LiDAR的MOS任務(wù)。Wang等人引入InsMOS,將檢測和分割統(tǒng)一到一個網(wǎng)絡(luò)中,以提高分割完整性。
投影方法:Chen等人將LiDAR掃描映射到球面坐標(biāo)生成殘差圖像,提取動態(tài)信息。Sun等人設(shè)計雙分支探索時空信息,并通過點精細化模塊緩解邊界模糊問題。Kim等人通過使用額外的語義特征提高性能。Mohapatra等人和Zhou等人利用鳥瞰圖(BEV)投影獲得更直觀的運動表示。
方法
框架概述
StreamMOS的整體架構(gòu)。(a) 特征編碼器采用逐點編碼器來提取點特征并將其投影到鳥瞰圖(BEV)。然后,使用級聯(lián)結(jié)構(gòu)和不對稱卷積的多視角編碼器從不同視角提取運動特征。(b) 時空融合利用注意力模塊將記憶特征傳播到當(dāng)前推理中。(c) 無參數(shù)上采樣的分割解碼器采用多尺度特征來預(yù)測類別標(biāo)簽。(d) 投票機制利用記憶預(yù)測來優(yōu)化每個3D體素和實例的運動狀態(tài)。
目標(biāo):基于多幀點云確定當(dāng)前掃描中每個點的運動狀態(tài)。
網(wǎng)絡(luò)結(jié)構(gòu):包括多視角編碼器、短期記憶、長時間記憶和投票機制。
多視角編碼器:采用級聯(lián)結(jié)構(gòu)從RV和BEV中提取密集外觀和直觀運動特征。
不對稱卷積:在BEV編碼中引入不對稱卷積,更好地捕捉垂直和水平運動。
注意力機制:實現(xiàn)時空融合,對齊不同時間的特征。
投票機制:在體素和實例級別統(tǒng)計分析長期運動狀態(tài),優(yōu)化預(yù)測標(biāo)簽。
多視角編碼器
設(shè)計:不同于以往只使用單一視角的方法,提出了多視角編碼器,從RV和BEV中提取物體的運動特征。
級聯(lián)結(jié)構(gòu):逐層獲取密集外觀和直觀運動特征,確保特征的一致性。
不對稱卷積:分離水平和垂直運動,提升特征提取的精度。
不對稱卷積塊和多視角特征的示意圖。
短期時空融合
目的:將上一次推理的記憶特征傳遞到當(dāng)前推理中,利用歷史空間狀態(tài)指導(dǎo)當(dāng)前物體運動的推斷。
實現(xiàn):構(gòu)建短期記憶庫,存儲歷史特征,并通過注意力機制實現(xiàn)時空融合。
投票機制
目的:解決神經(jīng)網(wǎng)絡(luò)輸出在不同幀中的不一致性問題。
方法:在體素和實例級別進行統(tǒng)計分析,選擇最可能的狀態(tài)更新原始點預(yù)測,優(yōu)化分割結(jié)果。
實驗
實驗設(shè)置
數(shù)據(jù)集:在SemanticKITTI-MOS和Sipailou-Campus數(shù)據(jù)集上進行實驗,驗證方法性能。
SemanticKITTI-MOS:包含22個序列,分為訓(xùn)練、驗證和測試集。
Sipailou-Campus:基于固態(tài)LiDAR構(gòu)建,分為訓(xùn)練、驗證和測試集。
評價指標(biāo):采用Jaccard指數(shù)或交并比(IoU)度量動態(tài)物體的MOS性能。
實現(xiàn)細節(jié)
數(shù)據(jù)處理:采用隨機旋轉(zhuǎn)、翻轉(zhuǎn)和輕微平移等數(shù)據(jù)增強技術(shù),提升模型的泛化能力。
訓(xùn)練策略:分兩階段訓(xùn)練,第一階段訓(xùn)練48個epoch,使用SGD優(yōu)化器,初始學(xué)習(xí)率為0.02,每10個epoch衰減0.1。
實驗結(jié)果
性能對比:在SemanticKITTI(77.8%)和Sipailou Campus(92.5%)數(shù)據(jù)集上,StreamMOS表現(xiàn)優(yōu)異,且具有實時運行能力。
速度對比:盡管使用了注意力機制和投票機制,StreamMOS仍保持了競爭性的運行時間。
SemanticKITTI驗證集上的MOS結(jié)果可視化。錯誤預(yù)測用藍色圓圈標(biāo)出。建議放大查看彩色圖。
定性分析
可視化結(jié)果:在各種場景中對比了不同方法的分割結(jié)果,StreamMOS在處理遠距離物體和邊界模糊問題上表現(xiàn)更好。
消融研究
模塊重要性:通過移除關(guān)鍵模塊(如時空融合、多視角編碼器、體素投票和實例投票)進行消融實驗,驗證各模塊的重要性。
多視角編碼器:比較了不同的多視角編碼策略,證明級聯(lián)結(jié)構(gòu)和不對稱卷積的有效性。
注意力機制:比較了不同的注意力機制,驗證了可變形注意力的優(yōu)勢。
時間窗口長度:實驗表明,時間窗口長度為8時性能最佳。
其他超參數(shù)設(shè)置:探討了幀數(shù)和BEV分辨率對性能的影響,確定了最佳設(shè)置。
結(jié)論
總結(jié):StreamMOS通過記憶機制在多次推理中傳遞先驗信息,捕捉多視角的完整外觀和運動特征,并通過投票機制優(yōu)化單次推理中的錯誤預(yù)測,實驗結(jié)果證明了該方法在多方面的競爭力。
相關(guān)信息
代碼:https://github.com/neu-real/streammos
論文:https://arxiv.org/abs/2407.17905v1