
三維物體檢測(cè)作為一種尖端的計(jì)算機(jī)視覺(jué)技術(shù),旨在準(zhǔn)確識(shí)別和分類三維空間內(nèi)的物體。3D 物體檢測(cè)的應(yīng)用非常廣泛。例如,在自動(dòng)駕駛中,必須識(shí)別各種物體的位置和類別。在增強(qiáng)現(xiàn)實(shí) (AR) 中,需要增強(qiáng)場(chǎng)景識(shí)別和理解 。此外,對(duì)于機(jī)器人物體操控等任務(wù),需要了解物體的位置和類別。由于需要估計(jì)現(xiàn)實(shí)世界空間中的物體形狀和方向,3D 物體檢測(cè)技術(shù)最近越來(lái)越受歡迎。
如今,激光雷達(dá)傳感器正在推動(dòng)該技術(shù)的發(fā)展,它通過(guò)將深度捕獲為點(diǎn)云,可以在不同光照條件下提供可靠的物體定位。盡管取得了進(jìn)展,但由于采樣密度稀疏,基于激光雷達(dá)的檢測(cè)性能對(duì)于遠(yuǎn)距離物體會(huì)下降。相反,彩色圖像傳感器可以提供高分辨率采樣和豐富的上下文數(shù)據(jù),從而彌補(bǔ)激光雷達(dá)的局限性。RGB圖像和LiDAR數(shù)據(jù)的融合通??梢栽鰪?qiáng)3D檢測(cè)性能。
當(dāng)前的 LiDAR–相機(jī)融合方法大致可分為三類:結(jié)果級(jí)、提案級(jí)和點(diǎn)級(jí)。
l結(jié)果級(jí)技術(shù) ,例如 FPointNet 和 RoarNet ,利用預(yù)先存在的 2D 檢測(cè)器來(lái)啟動(dòng) 3D 提案,隨后采用 PointNet 進(jìn)行對(duì)象定位。
l提案級(jí)融合技術(shù),包括 MV3D 和 AVOD,通過(guò)在每種模態(tài)中為共享提案實(shí)現(xiàn) RoIPool 來(lái)在區(qū)域提案級(jí)別執(zhí)行融合。然而,由于矩形感興趣區(qū)域 (RoI) 中通常存在高水平的背景噪聲,因此這些粗粒度融合技術(shù)已顯示出次優(yōu)結(jié)果。
l最近,大多數(shù)方法都嘗試了點(diǎn)級(jí)融合,并取得了有希望的結(jié)果。這些方法首先基于校準(zhǔn)矩陣在 LiDAR 點(diǎn)和圖像像素之間建立牢固的關(guān)聯(lián),然后通過(guò)逐點(diǎn)連接使用關(guān)聯(lián)像素的分割分?jǐn)?shù)或 CNN 特征增強(qiáng) LiDAR 特征。類似地,一些研究首先將點(diǎn)云投影到鳥瞰圖 (BEV) 平面上,然后將圖像特征與 BEV 像素融合。
融合作為最 先進(jìn)的技術(shù)之一,是使用兩個(gè) Transformer 解碼器層作為檢測(cè)頭的最 佳研究之一。它重新定位了融合過(guò)程的重點(diǎn),從硬關(guān)聯(lián)到軟關(guān)聯(lián),從而對(duì)圖像質(zhì)量下降和傳感器錯(cuò)位具有魯棒性。
盡管 Transfusion 的檢測(cè)準(zhǔn)確率高于其他模型,但它的推理時(shí)間較長(zhǎng)。這是因?yàn)?Transfusion 面臨著三個(gè)主要挑戰(zhàn),阻礙了它的廣泛應(yīng)用。首先,模型的主干未經(jīng)優(yōu)化,導(dǎo)致特征提取效率低下。其次,傳統(tǒng)解碼器的多尺度特征融合機(jī)制也帶來(lái)了顯著的計(jì)算開(kāi)銷。最后,Transfusion 的設(shè)計(jì)包括一些難以優(yōu)化的查詢,從而減慢了模型的推理速度。因此,由于計(jì)算成本高,Transfusion 成為模型的計(jì)算瓶頸。
在 3D AP 方面,多模態(tài)模型優(yōu)于僅使用 LiDAR 的模型;然而,它們的推理速度較慢,尤其是基于 Transformer 的多模態(tài)模型 Transfusion。盡管 Transfusion 的檢測(cè)準(zhǔn)確率較高,但它較慢的推理速度限制了它在未來(lái)應(yīng)用中的實(shí)際效用。
近年來(lái),基于 LiDAR 的 3D 物體檢測(cè)引起了廣泛關(guān)注,標(biāo)志著該領(lǐng)域取得了重大進(jìn)步。根據(jù)不同的實(shí)現(xiàn)途徑,基于 LiDAR 的 3D 檢測(cè)方法可分為三類:點(diǎn)云方法、體素化方法和深度圖方法。
PointNet 和 PointNet++ 是直接從點(diǎn)云中提取特征的方法,可以完成點(diǎn)云的分類和分割等。傳統(tǒng)方法通常涉及將 LiDAR 點(diǎn)云投影到 2D 平面上,例如鳥瞰圖 (BEV) 或范圍視圖圖像,以便于 3D 物體檢測(cè) 。
這種方法雖然有效,但簡(jiǎn)化了數(shù)據(jù)中固有的復(fù)雜空間關(guān)系。最近的研究致力于直接處理原始點(diǎn)云,繞過(guò)數(shù)據(jù)量化的需要,從而保留了空間信息的豐富性。這些系統(tǒng)的檢測(cè)頭設(shè)計(jì)通常與 2D 檢測(cè)框架中使用的設(shè)計(jì)相似,嚴(yán)重依賴錨框來(lái)識(shí)別物體邊界。
然而,創(chuàng)新方法已經(jīng)出現(xiàn),利用基于中心的表示來(lái)簡(jiǎn)化 3D 檢測(cè)過(guò)程。盡管 Transformer 架構(gòu)在 2D 檢測(cè)中具有變革性影響,但它們?cè)?3D 物體檢測(cè)中的應(yīng)用(尤其是在戶外環(huán)境中)主要局限于特征提取階段 。Transformer 的注意力機(jī)制對(duì)計(jì)算的需求非常大,尤其是當(dāng)應(yīng)用于 LiDAR 系統(tǒng)生成的海量數(shù)據(jù)時(shí)。因此,需要一種可以節(jié)省大量計(jì)算資源的策略。
為應(yīng)對(duì)這些挑戰(zhàn),本文提出了一種新穎的組合,即用于特征提取的 QConv 主干與配備一組簡(jiǎn)明的對(duì)象查詢用于檢測(cè)的 EH 解碼器。這種混合方法顯著減少了計(jì)算負(fù)擔(dān),使其成為實(shí)時(shí)應(yīng)用的可行解決方案。盡管如此,必須承認(rèn)一個(gè)持續(xù)存在的挑戰(zhàn):LiDAR 系統(tǒng)的掃描分辨率固有較低,尤其是對(duì)于遠(yuǎn)距離物體,這加劇了數(shù)據(jù)稀疏性問(wèn)題。我們的研究提出了一種創(chuàng)新的解決方案,即 LiDAR-攝像機(jī)融合方法,通過(guò)精心關(guān)聯(lián)和融合對(duì)象查詢來(lái)集成 RGB 圖像數(shù)據(jù),增強(qiáng)了模型有效檢測(cè)和解釋稀疏 LiDAR 數(shù)據(jù)的能力。該策略不僅減輕了 LiDAR 分辨率帶來(lái)的限制,而且豐富了檢測(cè)框架,提供了更穩(wěn)健、更準(zhǔn)確的檢測(cè)系統(tǒng) 。
基于圖像的 3D 物體檢測(cè)方法已經(jīng)迅速發(fā)展,單目和雙目視覺(jué)技術(shù)之間存在顯著區(qū)別。最直接的方法是使用神經(jīng)網(wǎng)絡(luò)直接從圖像中估計(jì) 3D 框參數(shù) 。這些方法從 2D 物體檢測(cè)網(wǎng)絡(luò)的架構(gòu)設(shè)計(jì)中汲取靈感,例如快速 RCNN ,這些網(wǎng)絡(luò)已證明能夠有效促進(jìn)端到端訓(xùn)練。
基于單目視覺(jué)的檢測(cè)系統(tǒng)主要利用包括深度估計(jì)、關(guān)鍵點(diǎn)檢測(cè)和利用基于 CAD 的先驗(yàn)信息等方法。單目圖像的根本挑戰(zhàn)在于其內(nèi)在的局限性:它們僅提供 3D 世界的 2D 投影,本質(zhì)上缺乏深度信息。這一限制嚴(yán)重限制了深度感知的準(zhǔn)確性和可靠性,進(jìn)而限制了 3D 物體檢測(cè)的有效性。
相比之下,基于雙目視覺(jué)的檢測(cè)方法試圖通過(guò)利用兩個(gè)有利位置之間的差異來(lái)克服這些限制,模擬人類的立體視覺(jué)來(lái)推斷深度。這種方法導(dǎo)致了創(chuàng)新框架和算法的發(fā)展,旨在從雙目圖像生成更精 確的 3D 數(shù)據(jù)。其中值得注意的是 Chen 等人提出的 3DOP 系統(tǒng),該系統(tǒng)從雙目圖像估計(jì)點(diǎn)云,以及 Xu 和 Chen 提出的 MLF 方法,該方法從雙目圖像計(jì)算視差圖以重建深度圖和點(diǎn)云。
此外,Li 等人提出的 CGStereo 系統(tǒng),通過(guò)語(yǔ)義分割監(jiān)督增強(qiáng),顯著提高了前景深度估計(jì)的精度。此外,Chen 等人開(kāi)發(fā)了一種名為偽立體的技術(shù),可以從雙目圖像估計(jì)深度圖,Peng 等人開(kāi)發(fā)了一種名為偽立體的技術(shù),介紹了一種利用雙分支網(wǎng)絡(luò)的 SIDE 生成偽雷達(dá)和目標(biāo)級(jí)深度估計(jì)的方法 。
盡管取得了這些進(jìn)展,但從 2D 圖像中準(zhǔn)確捕獲 3D 信息的固有挑戰(zhàn)仍然是一個(gè)重大障礙。在不依賴其他模態(tài)的情況下,從 2D 圖像中精 確提取深度和其他 3D 信息是不現(xiàn)實(shí)的。因此,雖然這些方法標(biāo)志著該領(lǐng)域的進(jìn)步,但通過(guò)基于圖像的方法提高檢測(cè)精度的追求仍然是一個(gè)復(fù)雜且不斷發(fā)展的挑戰(zhàn)。
基于視覺(jué)圖像的方法擅長(zhǎng)提供豐富的紋理細(xì)節(jié),但在提供深度線索方面有所欠缺。相反,基于點(diǎn)云的方法提供了空間幾何洞察,但缺乏紋理背景。紋理細(xì)節(jié)對(duì)于準(zhǔn)確的物體檢測(cè)和分類至關(guān)重要,而深度信息對(duì)于估計(jì)物體的空間定位至關(guān)重要。
多傳感器3D檢測(cè)方法能夠整合來(lái)自不同傳感器的信息,為解決激光雷達(dá)和基于攝像頭的檢測(cè)方法中遇到的挑戰(zhàn)提供了解決方案。圖像和點(diǎn)云特征的協(xié)同組合體現(xiàn)了傳感器融合的重要性,而多傳感器的集成有助于減輕單傳感器故障并增強(qiáng)在不同環(huán)境中的適應(yīng)性。目前,通過(guò)整合圖像和激光雷達(dá)數(shù)據(jù)來(lái)提高整體性能代表了多模態(tài)3D物體檢測(cè)方法領(lǐng)域一個(gè)很有前途的研究方向。
由于點(diǎn)云和圖像的協(xié)同特性,LiDAR-相機(jī) 3D 檢測(cè)引起了廣泛關(guān)注。最初的研究主要采用結(jié)果級(jí)或提案級(jí)融合技術(shù),其特點(diǎn)是融合粒度相對(duì)較粗,未充分利用兩種模態(tài)的潛力。PointPainting的出現(xiàn)標(biāo)志著向點(diǎn)級(jí)融合方法的轉(zhuǎn)變,這些方法已顯示出顯著的優(yōu)勢(shì)和令人鼓舞的結(jié)果。然而,這些方法容易受到由校準(zhǔn)矩陣定義的剛性點(diǎn)-像素關(guān)聯(lián)引起的傳感器錯(cuò)位問(wèn)題的影響 。此外,簡(jiǎn)單的逐點(diǎn)連接忽略了模態(tài)之間的完整性和上下文相互作用,當(dāng)圖像特征不理想時(shí)會(huì)導(dǎo)致性能下降。最近,引入了最 先進(jìn)的技術(shù) Transfusion,它已成為一種更為強(qiáng)大和有效的融合機(jī)制,解決了 LiDAR-相機(jī)融合中的這些挑戰(zhàn)。
盡管 Transfusion (SOTA) 在多模態(tài)物體檢測(cè)方面表現(xiàn)出色,但其推理速度與單模態(tài)檢測(cè)方法相比有所落后。這種差異部分是由于處理多模態(tài)固有的計(jì)算需求,部分是由于 Transfusion 架構(gòu)內(nèi)部有待優(yōu)化的低效率。
因此,本文提出了QConv,EH解碼器和半動(dòng)態(tài)查詢選擇三種方法來(lái)優(yōu)化Transfusion以實(shí)現(xiàn)快速Transfusion。
lTransfusion 對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)主干的依賴,由于跨通道特征映射的冗余而引入了大量的計(jì)算開(kāi)銷,而固定的卷積結(jié)構(gòu)在捕捉幾何變換方面自然受到限制,這也會(huì)降低準(zhǔn)確性。
lTransfusion 中多尺度特征的集成雖然提高了解碼器的性能和收斂速度,但同時(shí)也增加了計(jì)算成本。雖然可變形注意機(jī)制在一定程度上減輕了這些成本,但將多尺度特征納入解碼器仍然會(huì)帶來(lái)巨大的計(jì)算負(fù)擔(dān)。
l雖然Transfusion改進(jìn)了Object Query的初始化,將其擴(kuò)展到內(nèi)容查詢和位置查詢(anchor),但是由于分類分?jǐn)?shù)和位置置信度的分布不一致,一些預(yù)測(cè)框雖然分?jǐn)?shù)很高,但與GT框距離并不近,導(dǎo)致分?jǐn)?shù)高而IoU分?jǐn)?shù)低的框被選中,而分?jǐn)?shù)低而IoU分?jǐn)?shù)高的框被丟棄,從而影響檢測(cè)器的性能。
公眾號(hào) 掃碼咨詢
![]() | 上海市閔行區(qū)中春路4999號(hào)莘莊商務(wù)樓1326室 |
![]() | service@covond.com |
![]() | m.jxetj.com |
![]() | 交換機(jī):18017588179(孫經(jīng)理) 無(wú)人機(jī):13311882358(孫總) |