
由于需要對(duì)現(xiàn)實(shí)世界空間中的物體形狀和方向進(jìn)行估計(jì),三維物體檢測(cè)技術(shù)最近越來越受歡迎。3D物體檢測(cè)包括識(shí)別物體類別和位置。3D物體檢測(cè)在醫(yī)療診斷、工業(yè)生產(chǎn)檢查、監(jiān)控等許多領(lǐng)域都至關(guān)重要。
3D 檢測(cè)正在醫(yī)療領(lǐng)域應(yīng)用于內(nèi)臟器官疾病檢測(cè)。在醫(yī)療領(lǐng)域,3D CNN 用于通過計(jì)算機(jī)斷層掃描 (CT)、擴(kuò)散張量成像 (DTI)、磁共振成像 (MRI)、功能性磁共振成像和超聲獲得的 3D 圖像 。
n基于深度學(xué)習(xí)的 2D 物體檢測(cè)方法:
卷積神經(jīng)網(wǎng)絡(luò)( CNN )是這些算法的基礎(chǔ)。CNN可以檢測(cè)不同物體的模式和形狀。雖然 2D 物體檢測(cè)可以精 確檢測(cè)物體,但缺乏深度和高度信息。深度和高度信息在避障、自動(dòng)駕駛汽車導(dǎo)航、家用機(jī)器人、醫(yī)療手術(shù)等方面至關(guān)重要。
與 2D 物體檢測(cè)不同,3D 物體檢測(cè)在模型訓(xùn)練、數(shù)據(jù)可用性、注釋和處理方面更為復(fù)雜。圖 1說明了汽車的 2D 和 3D 物體檢測(cè)之間的區(qū)別。圖 1顯示,在 2D 物體檢測(cè)中,物體以二維形式(圖像中的長(zhǎng)度和寬度)檢測(cè)。另一方面,在 3D 物體檢測(cè)中,除了長(zhǎng)度和寬度之外,還可以預(yù)測(cè)深度。
圖 1. ( a ) 汽車的二維檢測(cè);( b ) 汽車的三維檢測(cè)。
n基于 LiDAR 點(diǎn)云的 3D 物體檢測(cè)
主要是自動(dòng)駕駛汽車導(dǎo)航的 3D 物體檢測(cè)。然而,除了自動(dòng)駕駛之外,3D 物體檢測(cè)最近在其他應(yīng)用領(lǐng)域也正在發(fā)展。精準(zhǔn)農(nóng)業(yè)、家用機(jī)器人、監(jiān)控服務(wù)等都可以從 3D 物體檢測(cè)中受益。隨著 3D 物體檢測(cè)在研究人員中迅速流行起來,也出現(xiàn)了一些新發(fā)現(xiàn),這些發(fā)現(xiàn)并未包含在之前發(fā)表的評(píng)論論文中。
自 2017 年以來,我們研究并分析了 3D 物體檢測(cè)技術(shù)在不同領(lǐng)域的應(yīng)用趨勢(shì)。2017 年之前,與 3D 物體檢測(cè)相關(guān)的研究非常稀缺。無論是使用激光雷達(dá)、單目相機(jī)、立體相機(jī)還是雷達(dá),每種技術(shù)都有各自的優(yōu)勢(shì)和局限性。缺乏一項(xiàng)深入的研究來描述不同領(lǐng)域單模和多模 3D 物體檢測(cè)技術(shù)的機(jī)會(huì)和障礙。
3D物體檢測(cè)需要推斷物體的高度和深度信息以及物體位置。為了獲取有關(guān)物體的這些知識(shí),研究人員使用了來自不同類型設(shè)備或傳感器的多種數(shù)據(jù)模態(tài)。3D 物體檢測(cè)技術(shù)的不同基準(zhǔn)數(shù)據(jù)集包含不同的模態(tài),并且它們表現(xiàn)出不同的范圍和約束。
許多 3D 物體檢測(cè)都是從點(diǎn)云執(zhí)行的。點(diǎn)云是從物體表面反射的點(diǎn)的照明值以及 3D 位置。帶有激光器的 LiDAR 傳感器可以直接產(chǎn)生點(diǎn)云。從 RGB-D 數(shù)據(jù)集的深度信息(通常由紅外或飛行時(shí)間相機(jī)獲得)中,通過處理推斷出點(diǎn)云。
對(duì)于 3D 檢測(cè),點(diǎn)云以兩種方式處理,即:i. 直接點(diǎn)云處理;ii. 在鳥瞰圖 (BEV) 或 2D 平面上投影點(diǎn)云。
在直接點(diǎn)云處理中,點(diǎn)云的點(diǎn)信息(如強(qiáng)度、3D 坐標(biāo)值、顏色等)由神經(jīng)網(wǎng)絡(luò)直接處理,以提取特征并預(yù)測(cè) 3D 物體邊界。與基于 2D 平面投影的方法相比,網(wǎng)絡(luò)必須處理更高維的數(shù)據(jù)。當(dāng)需要單獨(dú)識(shí)別每個(gè)對(duì)象時(shí),可能需要實(shí)例分割。語義分割可以定位所有具有共同類別名稱的物體的同一類,如汽車、人、自行車等,而實(shí)例分割能夠區(qū)分一輛汽車與其他汽車。這在物體跟蹤或監(jiān)視中通常是必不可少的。
鳥瞰圖 (BEV) 或二維平面中的點(diǎn)云投影
另一種常用的 3D 物體檢測(cè)方法是將 3D 點(diǎn)云投影到偽 2D 或鳥瞰平面。在 2D 視圖投影之后,應(yīng)用神經(jīng)網(wǎng)絡(luò)提取特征并生成物體預(yù)測(cè)。
Fang, Jin 等人使用 VoxelNet 或 PointPillars 形式的 LiDAR 點(diǎn)云,然后在特征圖中應(yīng)用 3D CNN。生成熱圖,其中局部最 大值是對(duì)象中心。識(shí)別中心可以加快對(duì)象跟蹤速度。Simon, Martin 等人(2019)從點(diǎn)云創(chuàng)建了鳥瞰圖投影,然后按照 YOLO V2 技術(shù)應(yīng)用復(fù)雜 YOLO 來預(yù)測(cè)對(duì)象類別。之后,使用歐拉區(qū)域提議來檢測(cè)物體的方向 。
雖然將 3D 點(diǎn)投影到 2D 平面的研究已經(jīng)成功檢測(cè)到道路場(chǎng)景中的物體,例如車輛或行人,但數(shù)據(jù)轉(zhuǎn)換到另一個(gè)平面可能會(huì)導(dǎo)致信息丟失并造成額外的計(jì)算損失。
基于視覺的系統(tǒng)已成功應(yīng)用于物體檢測(cè)和跟蹤 。Mahayuddin 等人使用語義卷積特征執(zhí)行了基于視覺的運(yùn)動(dòng)物體檢測(cè),并取得了比 YOLO V3 更高的檢測(cè)率和比 RCNN 更快的檢測(cè)率 。除了單個(gè)物體,研究人員甚至使用基于視覺的系統(tǒng)從無人機(jī)圖像中估計(jì)動(dòng)態(tài)人群 。雖然這項(xiàng)研究主要關(guān)注二維物體檢測(cè),但基于視覺的運(yùn)動(dòng)物體檢測(cè)在三維空間中也是可行的。使用攝像機(jī)的三維檢測(cè)可以通過兩種方法進(jìn)行,即 i. 單目和 ii. 立體圖像。
單目相機(jī)是用于生成 2D 圖像的單個(gè)相機(jī)。從單個(gè) 2D 圖像,可以完成 2D 物體檢測(cè)任務(wù),即物體分類和定位。對(duì)于 3D 物體檢測(cè),可以從已知物體的幾何線索、對(duì)比度或先前形狀信息推斷出額外的深度信息。
一些研究人員僅從單張圖像執(zhí)行了 3D 物體檢測(cè) 。Shapii 等人(2020 年)提出了基于單目圖像的 3D 重建方法,其中使用多張圖像生成人類活動(dòng)姿勢(shì)的 3D 視圖。這是最 便宜的 3D 物體檢測(cè)方法。但準(zhǔn)確度低于立體和基于 LiDAR 的檢測(cè)。但是,單目圖像可以與其他 3D 檢測(cè)技術(shù)相結(jié)合以獲得更好的精度。
雙目相機(jī)
立體相機(jī)使用兩個(gè)攝像頭,一個(gè)攝像頭拍攝左側(cè)圖像,另一個(gè)攝像頭拍攝右側(cè)圖像。其工作原理與人類視覺相似。通過比較兩個(gè)攝像頭圖像中相同像素之間的視差,可以感知物體的深度信息。立體圖像已被證明可用于 3D 物體檢測(cè),但與 LiDAR 相比,其精度略有降低。立體圖像可以精 確且經(jīng)濟(jì)地用于 3D 物體檢測(cè)。
三維物體檢測(cè)可以通過應(yīng)用多個(gè)傳感器或設(shè)備來執(zhí)行。
使用 RGB 圖像和深度信息進(jìn)行 3D 物體檢測(cè)。CNN 用于 RGB 圖像以生成區(qū)域提議,然后在提議的區(qū)域中合并深度信息以創(chuàng)建 3D 視錐體。之后,執(zhí)行 3D 實(shí)例分割和“非模態(tài) 3D 框估計(jì)”以查看障礙物后面的物體。該方法實(shí)時(shí)運(yùn)行,并且即使對(duì)于檢測(cè)小物體也表現(xiàn)出很高的召回率。但該方法嚴(yán)重依賴于 2D 物體檢測(cè)器在開始時(shí)提出的區(qū)域。
通過在 Point-RCNN、VoxelNet 和 PointPillars中結(jié)合 RGB 圖像,改進(jìn)了僅使用 LiDAR 的方法(即基于點(diǎn)云的方法)。這些方法類似于 PointPainting 。
點(diǎn)云和 RGB 圖像的另一種混合方法融合了點(diǎn)云特征和圖像特征。根據(jù)集體特征,識(shí)別出感興趣的區(qū)域。然后在這些區(qū)域中執(zhí)行3D物體檢測(cè)。雖然結(jié)合RGB 和 LiDAR 點(diǎn)云信息很復(fù)雜,但它在室外場(chǎng)景3D物體檢測(cè)中表現(xiàn)出比獨(dú)立的LiDAR體素方法更好的性能。
無線電探測(cè)和測(cè)距 (RADAR) 使用無線電信號(hào)感知距離。由于 RADAR 無法預(yù)測(cè)顏色信息,因此它只能假設(shè)形狀或大小,而不能進(jìn)行分類。與激光雷達(dá)或攝像機(jī)圖像相比,RADAR 的一大優(yōu)勢(shì)是不易受到惡劣天氣的影響。但將 RADAR 與圖像相結(jié)合已成功提高 3D 物體檢測(cè)的精度。從 2D 圖像中檢測(cè)出物體中心。然后,以該物體中心為目標(biāo),使用 RADAR 點(diǎn)云獲取截錐形的深度信息。它改進(jìn)了 nuScenes 數(shù)據(jù)集中基于圖像的檢測(cè)。使用 RADAR 生成的點(diǎn)云進(jìn)行物體區(qū)域提議。然后,將該區(qū)域施加到 2D 圖像上以執(zhí)行 3D 檢測(cè)。
圖像、LiDAR和RADAR多模態(tài)
3D物體檢測(cè)在各個(gè)領(lǐng)域越來越受歡迎。圖顯示了不同應(yīng)用領(lǐng)域中 3D 物體檢測(cè)的最 新研究成果。
除了上面討論的應(yīng)用之外,3D 物體檢測(cè)也在最近的一些醫(yī)學(xué)研究中得到應(yīng)用,例如手術(shù)或診斷中的增強(qiáng)輔助。醫(yī)學(xué)領(lǐng)域中 3D 物體檢測(cè)的輸入數(shù)據(jù)格式和采集過程與其他領(lǐng)域不同。計(jì)算機(jī)斷層掃描 (CT)、擴(kuò)散張量成像 (DTI)、磁共振成像 (MRI)、功能性磁共振成像和超聲波都是三維的。三維卷積網(wǎng)絡(luò)可以應(yīng)用于這些圖像,對(duì)器官進(jìn)行 3D 檢測(cè),從而更好地檢測(cè)疾病。三維 CNN 已成功應(yīng)用于疾病嚴(yán)重程度預(yù)測(cè)和分類。
自動(dòng)駕駛汽車導(dǎo)航:LiDAR 是該領(lǐng)域非常流行的一種模式。它既可用于單模態(tài)方法,也可用于多模態(tài)方法。LiDAR 具有遠(yuǎn)距離激光掃描功能,使其能夠設(shè)計(jì)獨(dú)立的端到端 3D 物體檢測(cè)系統(tǒng)。RGB-D 傳感器的探測(cè)范圍較小(通常低于 10 米)。由于這一限制,自動(dòng)駕駛汽車導(dǎo)航相關(guān)研究工作未發(fā)現(xiàn)使用這種模式。
在基于視覺的技術(shù)中,少數(shù)研究人員使用單目 RGB 攝像頭作為單一模式,但其精度不如 LiDAR 傳感器。此外,檢測(cè)范圍低于 LiDAR。一些研究人員提到立體攝像頭是一種在自動(dòng)駕駛汽車導(dǎo)航中具有巨大潛力的模式。甚至汽車公司特斯拉也專注于立體視覺而不是 LiDAR,認(rèn)為它更自然、更經(jīng)濟(jì)、更接近人類視覺。然而,立體攝像頭的范圍遠(yuǎn)小于 LiDAR。
由于 RADAR 無法感知物體的顏色信息,因此它不能作為 3D 物體檢測(cè)的單一模態(tài)系統(tǒng)使用。但在一些研究工作中,RADAR 與其他模態(tài)一起實(shí)施。
l機(jī)器人視覺:RGB-D 傳感器是最 受歡迎的傳感器,可用于機(jī)器人視覺的單一和多模態(tài)技術(shù)。這些研究工作大部分是在室內(nèi)環(huán)境中進(jìn)行的。因此,該領(lǐng)域缺乏遠(yuǎn)程檢測(cè)要求。這使得 RGB-D 成為感知室內(nèi)環(huán)境中物體顏色和深度信息的絕佳選擇。RGB-D 相機(jī)由 RGB 相機(jī)(用于顏色感知)和紅外傳感器(用于深度感知)構(gòu)成。
l精準(zhǔn)農(nóng)業(yè):在農(nóng)業(yè)領(lǐng)域,LiDAR 可用于遠(yuǎn)程 3D 檢測(cè)。特別是,涉及高空無人機(jī)的精準(zhǔn)農(nóng)業(yè)受益于 LiDAR。LiDAR 已與其他傳感器(如 RGB 相機(jī)或窄波束 SONAR(聲音導(dǎo)航和測(cè)距))一起用作單一模態(tài)或多模態(tài)技術(shù)。然而,單目相機(jī)在多視圖 3D 檢測(cè)技術(shù)中被用作單一模態(tài)。在這種方法中,從物體周圍不同角度捕獲的 2D 圖像有助于 3D 檢測(cè)。在多模態(tài)檢測(cè)的情況下,RGB 相機(jī)可與 RGB-D 傳感器一起使用。單目相機(jī)的探測(cè)范圍比 LiDAR 低,可用于近距離的 3D 物體檢測(cè)。
l人體活動(dòng)/姿勢(shì)檢測(cè):?jiǎn)文?RGB 相機(jī)廣泛用于使用多視圖 3D 物體檢測(cè)技術(shù)的人體姿勢(shì)檢測(cè)。對(duì)于遠(yuǎn)距離檢測(cè),研究人員已經(jīng)使用了 LiDAR。為了增強(qiáng)基于 LiDAR 的檢測(cè)的可檢測(cè)性,現(xiàn)有研究工作中還使用了一些其他模式,例如慣性測(cè)量單元 (IMU)。然而,在室內(nèi)機(jī)器人視覺、人類活動(dòng)檢測(cè)和精準(zhǔn)農(nóng)業(yè)中,RADAR 通常不是 3D 物體檢測(cè)技術(shù)的首 選。原因可能是 RADAR 的空間分辨率較低(與 LiDAR 或相機(jī)相比),這使得檢測(cè)細(xì)小物體或近距離物體變得困難且模糊。
多模態(tài)技術(shù)的發(fā)展充分利用了多個(gè)傳感器的優(yōu)勢(shì)。例如,使用 LiDAR 可以很好地感知物體的結(jié)構(gòu)信息,而攝像頭則擅長(zhǎng)感知精細(xì)的紋理信息。然而,多模態(tài)技術(shù)需要同步來自不同傳感器的不同格式的數(shù)據(jù),這會(huì)增加成本和復(fù)雜性。
通過分析現(xiàn)有研究成果的優(yōu)缺點(diǎn),我們得到了一些有價(jià)值的見解。具體如下:
l基于點(diǎn)云的 3D 物體檢測(cè)可以在室內(nèi)和室外環(huán)境中進(jìn)行。然而,LiDAR 可以在多變的天氣條件下生成更遠(yuǎn)距離的點(diǎn)云,而基于 RGB-D 或 Kinect 的點(diǎn)云在范圍和天氣條件方面受到限制。因此,在自動(dòng)駕駛汽車導(dǎo)航研究中,基于點(diǎn)云的 3D 物體檢測(cè)是在 LiDAR 傳感器的幫助下進(jìn)行的。然而,RGB-D 傳感器價(jià)格較低,生成的點(diǎn)云已成功應(yīng)用于精準(zhǔn)農(nóng)業(yè)或室內(nèi)機(jī)器人視覺的近距離研究工作;
l深度學(xué)習(xí)極大地支持了三維物體檢測(cè)技術(shù)。深度學(xué)習(xí)網(wǎng)絡(luò)由多層神經(jīng)網(wǎng)絡(luò)組成,可以學(xué)習(xí)數(shù)據(jù)模式。在重要的 3D 物體檢測(cè)網(wǎng)絡(luò)中,例如 PointNet、PointNet++、VoxelNet、CenterNet 等,深度學(xué)習(xí)用于從點(diǎn)或點(diǎn)組中學(xué)習(xí)物體信息。此外,在最初使用 RGB 圖像進(jìn)行區(qū)域提議的兩階段網(wǎng)絡(luò)中,深度學(xué)習(xí)用于預(yù)測(cè)物體區(qū)域。未來的研究工作可能包括深度學(xué)習(xí),以利用更多機(jī)會(huì),例如 3D 物體檢測(cè)相關(guān)研究中的遷移學(xué)習(xí);
l端到端 3D 物體檢測(cè)網(wǎng)絡(luò)的開發(fā)因其易用性而變得流行起來。端到端網(wǎng)絡(luò)需要直接收集原始傳感器數(shù)據(jù)并提供 3D 邊界框輸出預(yù)測(cè)。要開發(fā)這樣的網(wǎng)絡(luò),必須選擇必要的傳感器類型(LiDAR、攝像頭或 RADAR)、預(yù)處理數(shù)據(jù)、設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)數(shù)據(jù)的特征并訓(xùn)練、驗(yàn)證和評(píng)估模型。端到端網(wǎng)絡(luò)的開發(fā)人員需要具備硬件和軟件知識(shí);
l與二維物體檢測(cè)相比,三維物體檢測(cè)的數(shù)據(jù)收集和注釋更為復(fù)雜。三維物體檢測(cè)數(shù)據(jù)收集涉及融合來自不同類型傳感器的數(shù)據(jù),例如 LiDAR、單目或立體攝像機(jī)、RADAR 等。此過程需要校準(zhǔn)不同的設(shè)備并同步數(shù)據(jù)。三維物體檢測(cè)的數(shù)據(jù)注釋不僅需要描述物體的位置,還需要描述其空間維度、位置和方向。數(shù)據(jù)描述涉及物體的長(zhǎng)度、寬度、高度、偏航、俯仰、滾動(dòng)、遮擋量等參數(shù)。在三維物體檢測(cè)的情況下,需要更多三維幾何方面的專業(yè)知識(shí)來注釋數(shù)據(jù);
l基于點(diǎn)云的物體檢測(cè)的局限性在于稀疏性,尤其是在室外環(huán)境中。因此,薄物體檢測(cè)是該領(lǐng)域的一個(gè)懸而未決的研究問題。如何提高使用點(diǎn)云方法檢測(cè)薄物體的精度是一個(gè)懸而未決的研究問題;
l數(shù)據(jù)稀缺是 3D 物體檢測(cè)相關(guān)研究的主要制約因素之一。由于汽車公司在開發(fā)自動(dòng)駕駛汽車方面的支持和贊助,一些豐富的基準(zhǔn)數(shù)據(jù)集(如 KITTI、Waymo、nuScenes 等)已廣泛可用。一些室內(nèi)基準(zhǔn)數(shù)據(jù)集也可用于機(jī)器人視覺研究,例如 SUN RGB-D 和 ScanNet。但其他領(lǐng)域缺乏開放的基準(zhǔn)數(shù)據(jù)集。具體來說,3D 物體檢測(cè)在精準(zhǔn)農(nóng)業(yè)中越來越受歡迎,但發(fā)現(xiàn)進(jìn)行的研究工作使用的是自收集的數(shù)據(jù)集。然而,這些數(shù)據(jù)集并不公開。這是在農(nóng)業(yè)領(lǐng)域開展 3D 物體檢測(cè)研究的一個(gè)制約因素。
結(jié)論
三維物體檢測(cè)在研究人員和從業(yè)人員中迅速流行起來。由于現(xiàn)實(shí)世界是三維的,因此深度和高度信息也至關(guān)重要。以前,計(jì)算機(jī)的計(jì)算能力低、傳感器的缺乏和數(shù)據(jù)集數(shù)量較少阻礙了三維物體檢測(cè)的研究。隨著時(shí)間的推移,這些障礙正在減少,三維物體檢測(cè)正在許多領(lǐng)域中得到應(yīng)用。
公眾號(hào) 掃碼咨詢
![]() | 上海市閔行區(qū)中春路4999號(hào)莘莊商務(wù)樓1326室 |
![]() | service@covond.com |
![]() | m.jxetj.com |
![]() | 交換機(jī):18017588179(孫經(jīng)理) 無人機(jī):13311882358(孫總) |