論文 RefMask3D: Language-Guided Transformer for 3D Referring Segmentation 提出了一種新的方法來(lái)解決3D點(diǎn)云中的目標(biāo)識(shí)別和分割問(wèn)題,特別是基于語(yǔ)言描述的目標(biāo)識(shí)別。
(a) 兩階段框架在后期匹配階段融合語(yǔ)言特征,表現(xiàn)出有限的交互和視覺(jué)與語(yǔ)言特征之間較弱的對(duì)齊。相比之下,(b) 我們的RefMask3D在早期特征編碼階段和解碼階段都進(jìn)行了全面的視覺(jué)-語(yǔ)言融合。結(jié)合對(duì)比學(xué)習(xí),我們的模型比兩階段方法學(xué)習(xí)到更結(jié)構(gòu)化的視覺(jué)-語(yǔ)言聯(lián)合特征空間。
主要貢獻(xiàn)
所提出的RefMask3D框架概述。它通過(guò)幾何增強(qiáng)的組詞注意力機(jī)制從點(diǎn)編碼器中提取富含文本信息的點(diǎn)特征。隨后,語(yǔ)言原語(yǔ)構(gòu)建模塊生成用于體現(xiàn)特定語(yǔ)義屬性的原語(yǔ)。這些原語(yǔ)隨后被輸入到Transformer解碼器中,以聚焦于多樣的語(yǔ)義。對(duì)象聚類(lèi)模塊用于分析語(yǔ)言原語(yǔ)之間的相互關(guān)系,統(tǒng)一它們的見(jiàn)解并提取共同特征,從而提高目標(biāo)識(shí)別的精度。
幾何增強(qiáng)的組詞注意力機(jī)制(Geometry-Enhanced Group-Word Attention, GEGWA):
目的:解決點(diǎn)云數(shù)據(jù)稀疏和不規(guī)則性帶來(lái)的噪聲問(wèn)題。
方法:在點(diǎn)編碼器的每個(gè)階段進(jìn)行語(yǔ)言和局部組(子云)之間的跨模態(tài)注意力機(jī)制。
優(yōu)勢(shì):利用幾何相鄰點(diǎn)的內(nèi)在關(guān)系,減少了直接點(diǎn)到詞的關(guān)聯(lián)帶來(lái)的噪聲,提高了模型對(duì)語(yǔ)言和幾何數(shù)據(jù)的理解能力。
效果:顯著提高了模型在跨模態(tài)交互中的表現(xiàn)。
語(yǔ)言原語(yǔ)構(gòu)建策略(Linguistic Primitives Construction, LPC):
目的:解決現(xiàn)有方法在訓(xùn)練和優(yōu)化過(guò)程中面臨的挑戰(zhàn),如噪聲和不足的訓(xùn)練。
方法:初始化一組多樣的原語(yǔ),每個(gè)原語(yǔ)代表不同的語(yǔ)義屬性(如形狀、顏色、大小、關(guān)系、位置等)。
優(yōu)勢(shì):通過(guò)與特定語(yǔ)言信息的交互,這些原語(yǔ)能夠獲取相應(yīng)的屬性,從而增強(qiáng)模型在點(diǎn)云中準(zhǔn)確定位和識(shí)別目標(biāo)的能力。
效果:提高了模型在多樣語(yǔ)義信息下的目標(biāo)識(shí)別能力。
對(duì)象聚類(lèi)模塊(Object Cluster Module):
目的:實(shí)現(xiàn)對(duì)語(yǔ)言和視覺(jué)信息的整體理解,從而準(zhǔn)確識(shí)別唯一目標(biāo)對(duì)象。
方法:分析語(yǔ)言原語(yǔ)之間的關(guān)系,提取共同特征,形成最終的對(duì)象嵌入。
優(yōu)勢(shì):幫助模型加深對(duì)語(yǔ)言和視覺(jué)信息的整體理解。
效果:顯著提高了模型在復(fù)雜場(chǎng)景下的目標(biāo)識(shí)別能力。
方法概述
架構(gòu)概覽:提出了一個(gè)端到端的3D指代分割模型RefMask3D,輸入為點(diǎn)云場(chǎng)景和文本描述,輸出為目標(biāo)對(duì)象的點(diǎn)狀掩碼。與傳統(tǒng)方法不同,RefMask3D在點(diǎn)編碼器中集成了多模態(tài)融合,利用幾何增強(qiáng)的組詞注意力機(jī)制來(lái)處理局部組(子云),減少了直接點(diǎn)到詞關(guān)聯(lián)帶來(lái)的噪聲。
視覺(jué)和語(yǔ)言特征提取:使用文本編碼器將文本描述嵌入到語(yǔ)言特征中,并在編碼器中建立深度交互。
對(duì)象聚類(lèi)模塊:通過(guò)分析語(yǔ)言原語(yǔ)之間的關(guān)系,提取共同特征,形成最終的對(duì)象嵌入,幫助模型加深對(duì)語(yǔ)言和視覺(jué)信息的整體理解。
實(shí)驗(yàn)結(jié)果
組件分析:詳細(xì)實(shí)驗(yàn)表明,幾何增強(qiáng)的組詞注意力機(jī)制(GEGWA)和語(yǔ)言原語(yǔ)構(gòu)建策略(LPC)顯著提高了模型的性能。通過(guò)對(duì)比不同的查詢(xún)輸入方法,LPC在準(zhǔn)確定位和識(shí)別目標(biāo)對(duì)象方面表現(xiàn)優(yōu)異。
性能對(duì)比:RefMask3D在3D指代分割和視覺(jué)定位任務(wù)中取得了新的最先進(jìn)性能,顯著超越了之前的方法。
可視化結(jié)果:可視化結(jié)果展示了不同原語(yǔ)代表的語(yǔ)義屬性(如顏色、關(guān)系、名稱(chēng)等),以及RefMask3D在復(fù)雜語(yǔ)言描述下準(zhǔn)確分割目標(biāo)對(duì)象的能力。
原語(yǔ)熱圖可視化。不同的原語(yǔ)代表不同的語(yǔ)義屬性。藍(lán)色表示最低響應(yīng)水平,而紅色表示最高響應(yīng)水平。
結(jié)論
- 論文提出的方法通過(guò)幾何增強(qiáng)的組詞注意力機(jī)制、語(yǔ)言原語(yǔ)構(gòu)建策略和對(duì)象聚類(lèi)模塊,顯著提高了3D點(diǎn)云中基于語(yǔ)言描述的目標(biāo)識(shí)別和分割性能。通過(guò)創(chuàng)新的跨模態(tài)融合和特征提取方法,為3D點(diǎn)云中的目標(biāo)識(shí)別和分割提供了新的思路和技術(shù)手段。
相關(guān)信息
代碼:https://github.com/heshuting555/refmask3d
論文:https://arxiv.org/abs/2407.18244v1