
邊緣AI(端側(cè)AI)的重要性
1. 端側(cè)化能夠有效降低計算資源的消耗,減輕云計算中心或服務器端的壓力。
2. 端側(cè)化能夠減少數(shù)據(jù)傳輸延遲。尤其在實時性要求較高的場景中,如自動駕駛、實時翻譯等,數(shù)據(jù)傳輸延遲可能會嚴重影響用戶體驗。
3. 端側(cè)化有助于保護用戶隱私。在涉及敏感數(shù)據(jù)的場景中,如醫(yī)療健康、金融交易等,用戶隱私保護尤為重要。
4. 端側(cè)化還可以促進大模型的個性化和定制化。根據(jù)場景需求進行定制化,實現(xiàn)更精準的預測和決策。
5. 大模型部署到終端設備上,還可以促進大模型與終端設備的深度融合,激發(fā)新的應用場景和創(chuàng)新點。結(jié)合終端設備的傳感器和攝像頭,大模型可以實現(xiàn)更精準的環(huán)境感知和目標檢測;結(jié)合終端設備的語音識別和自然語言處理能力,大模型可以實現(xiàn)更智能的人機交互和智能助手。
n剪枝
模型剪枝是一種模型壓縮技術(shù),旨在減小模型規(guī)模、降低計算量和內(nèi)存占用,同時盡量保持原始模型的性能。
其基本原理是將模型中的權(quán)重或其他參數(shù)進行逐個檢查,如果某個參數(shù)對模型的性能影響很小,則將其設置為0,從而使得模型更加稀疏。
n蒸餾
知識蒸餾是一種機器學習技術(shù),旨在將大型、復雜的模型(通常稱為教師模型)的知識傳遞給小型、高效的模型(通常稱為學生模型)。
知識蒸餾的核心思想是,通過將教師模型的輸出(通常包括類概率)轉(zhuǎn)化為軟化后的概率分布,作為學生模型的訓練目標。
n量化
大模型量化是一種將大型神經(jīng)網(wǎng)絡模型中的權(quán)重和激活從浮點數(shù)(FP32)轉(zhuǎn)換為低比特寬度的整數(shù)(如INT8、INT4等)的技術(shù)。這種技術(shù)的目的是減少模型的存儲需求和計算成本,同時盡量減少模型的性能損失,使得這些模型能夠在資源受限的設備上運行。
1.小目標檢測
定義:當目標在圖像中的像素占比非常小時,即為小目標。這類目標通常難以被檢測到,因為它們提供的特征信息較少,容易被背景噪聲掩蓋。
例子:遠處的人或車輛,在航拍圖像中的小型動物等。
2.遮擋目標檢測
定義:當目標部分或全部被其他物體遮擋時,稱為遮擋目標。
挑戰(zhàn):遮擋會減少可用于識別目標的信息量,使得目標的形狀、顏色等特征發(fā)生改變,增加識別難度。
3.模糊目標檢測
定義:當目標處于運動狀態(tài)或相機移動時,可能會導致目標在圖像中呈現(xiàn)模糊效果。
挑戰(zhàn):模糊會導致目標邊界不清晰,紋理特征喪失,進而影響檢測精度。
4.其他困難情況
低對比度目標:目標與背景之間的顏色或亮度差異很小。
光照變化:不同光照條件下,同一目標的外觀會發(fā)生變化。
視角變化:從不同角度觀察同一目標可能導致其外觀形態(tài)的變化。
密集目標檢測:當多個目標緊密排列在一起時,分離個體變得困難。
目標檢測流程
1.兩階段檢測器(如Faster R-CNN):首先生成候選區(qū)域,然后對每個區(qū)域進行特征提取、分類和邊界框回歸。
2.單階段檢測器(如YOLO、SSD):直接在全圖上進行檢測,省略了候選區(qū)域生成的過程,從而提高了檢測速度。
n候選區(qū)域生成
使用候選區(qū)域生成網(wǎng)絡(如Selective Search、EdgeBoxes或RPN等)來生成一系列可能包含目標的區(qū)域。
在一些現(xiàn)代框架中,如YOLO(You Only Look Once),直接在整張圖片上進行預測,跳過了候選區(qū)域生成這一步驟。
n特征提取
利用卷積神經(jīng)網(wǎng)絡(CNN)從候選區(qū)域中提取特征。
特征圖會捕捉到圖像的不同層次信息,包括邊緣、紋理等。
n分類與定位
使用分類器對每個候選區(qū)域進行分類,判斷是否包含特定類別的目標。
同時,計算邊界框回歸,調(diào)整候選區(qū)域的位置和大小,使其更貼近真實目標。
n后處理
運行非極大值抑制(NMS),移除那些重疊的邊界框,保留得分最 高的檢測結(jié)果。
根據(jù)設定的閾值過濾掉低置信度的檢測結(jié)果。
n輸出結(jié)果
最終輸出每個檢測到的目標類別、位置(以邊界框的形式給出)以及相應的置信度評分。
主流目標檢測算法框架
nR-CNN系列
R-CNN (Regions with CNN features):這是最早使用深度學習進行目標檢測的工作之一。它首先使用選擇性搜索(Selective Search)來生成候選區(qū)域,然后對每個區(qū)域分別提取CNN特征,并進行分類和邊界框回歸。由于其計算量較大,處理速度較慢。
Fast R-CNN:改進了R-CNN,通過共享所有候選區(qū)域的卷積計算,加快了檢測速度。
Faster R-CNN:引入了區(qū)域提議網(wǎng)絡(Region Proposal Network, RPN),使用卷積網(wǎng)絡自動生成候選區(qū)域,進一步提升了效率。
Mask R-CNN:在Faster R-CNN基礎上增加了分割模塊,能夠同時完成目標檢測和實例分割任務。
nYOLO (You Only Look Once)
YOLO v1:提出了一種端到端的單階段檢測方法,將檢測問題視為一個回歸問題,直接從輸入圖像到邊界框坐標和類別概率。YOLO v1以其速度優(yōu)勢著稱,但早期版本的準確率相對較低。
YOLO v2/v3/v4/v5:后續(xù)版本不斷改進了網(wǎng)絡架構(gòu)、特征融合策略、模塊化設計、數(shù)據(jù)增強技術(shù)等,提升了檢測精度和速度。
YOLO v6/v7:繼續(xù)優(yōu)化模型結(jié)構(gòu),加入無錨框(Anchor-Free)的設計,更高效的訓練方法,提高實時檢測性能的同時保持高準確率。
YOLOv8/v9::提供SOTA目標檢測,支持多尺度模型適應不同需求,采用高效網(wǎng)絡模塊提升特征提取能力,優(yōu)化正樣本分配及損失函數(shù)以增強檢測精度與速度。
YOLOv10:采用雙重標簽分配和一致匹配度量,實現(xiàn)無NMS的YOLO訓練,提升推理效率,并通過輕量級設計、解耦下采樣、排名引導塊、大核卷積及自注意力提升整體效率與準確性
nSSD (Single Shot MultiBox Detector)
SSD:類似于YOLO,SSD也是單階段的檢測器,但它利用不同尺度的特征圖來檢測不同大小的目標。通過在不同層添加額外的卷積層來產(chǎn)生默認框(default boxes),并在這些框上進行分類和定位。
n其他值得注意的框架
RetinaNet:針對類別不平衡的問題提出了焦點損失(Focal Loss),改善了小目標檢測的效果。
EfficientDet:結(jié)合了網(wǎng)絡結(jié)構(gòu)設計、尺度縮放技術(shù)和復合損失函數(shù),實現(xiàn)了高效且準確的目標檢測。
CenterNet:基于中心點的檢測方法,簡化了檢測流程,提高了檢測速度。
Deformable DETR:基于Transformer的端到端目標檢測模型,具有良好的泛化能力。
l傳統(tǒng)的封閉域目標檢測(Closed-DomainObjectDetection)
傳統(tǒng)的封閉域目標檢測通常在特定的數(shù)據(jù)集上進行訓練,例如COCO或PascalVOC,這些數(shù)據(jù)集包含預定義的類別列表。另外傳統(tǒng)封閉域目標檢測模型被設計為只識別這些預定義類別的對象,并且假設測試圖像中只會出現(xiàn)這些已知類別。
封閉域目標檢測中,評價模型性能的主要指標包括:
l平均精度(AveragePrecision,AP):用于評估模型對某一類別的檢測精度,通常通過繪制精 確率-召回率曲線(Precision-RecallCurve)來計算。
l平均平均精度(MeanAveragePrecision,mAP):計算所有類別AP的平均值,是衡量整體性能的重要指標。
l開放域目標檢測(Open-DomainObjectDetection):
目標是在未知類別的存在下進行檢測,即模型需要能夠處理在訓練時未見過的新類別。它要求模型具備一定的泛化能力,能夠在面對新類別時做出合理的響應,如識別出這是一個未知類別,而不是錯誤地將其歸類為一個已知類別。開放域檢測通常使用更復雜的數(shù)據(jù)集,這些數(shù)據(jù)集可能包含大量的未知類別樣本。
除了傳統(tǒng)的AP和mAP指標之外,還需要考慮以下指標來全面評估模型的表現(xiàn):
l拒絕率(RejectionRate,RR):衡量模型在面對未知類別時拒絕做出分類的能力。拒絕率越高,表示模型越能夠識別出未知類別。
l開放域精度(Open-DomainAccuracy,ODA):結(jié)合了對已知類別的識別準確性和對未知類別的拒絕能力。
l異常檢測能力(AnomalyDetectionAbility,ADA):評估模型識別未知類別或異常情況的能力。
l未知類別識別率(UnknownClassRecognitionRate,UCRR):衡量模型能夠正確識別未知類別并將其歸類為未知的能力。
開放域目標檢測的難點
泛化能力:泛化能力是指機器學習模型在未見過的數(shù)據(jù)上表現(xiàn)的能力。在一個開放域的場景下,模型經(jīng)常需要處理各種未知類別的情況,這就要求模型不僅要能夠準確地識別和分類已知類別中的數(shù)據(jù),還要能夠在遇到未知類別時做出合理的響應。
數(shù)據(jù)不平衡:開放域數(shù)據(jù)集往往包含大量未知類別實例,這可能導致模型偏向于預測未知類別。數(shù)據(jù)不平衡是指在訓練數(shù)據(jù)集中,不同類別的樣本數(shù)量存在顯著差異的現(xiàn)象。在開放域數(shù)據(jù)集中,這種不平衡問題尤為突出,因為這類數(shù)據(jù)集通常包含了大量不屬于已知分類的未知類別實例。這種不平衡會導致機器學習模型傾向于預測那些更為常見的類別,包括未知類別,從而影響了模型對已知類別的識別準確率。
評估標準:確定一個合適的評估方法來衡量模型對未知類別的處理能力是一個挑戰(zhàn)性的問題。在開放域分類任務中,模型不僅要能夠準確地識別和分類已知類別的實例,還需要能夠合理地處理未知類別的實例。由于未知類別的多樣性和不可預知性,傳統(tǒng)的評估指標(如準確率、精 確率、召回率和F1分數(shù))可能不足以全面評估模型在這方面的性能。評估模型對未知類別處理能力時需要考慮異常檢測性能、分類性能、綜合性能、不確定性估計、魯棒性測試等多種關(guān)鍵因素。
計算資源:計算資源對于開放域目標檢測任務來說至關(guān)重要,因為在訓練和使用過程中都會涉及到處理大規(guī)模的數(shù)據(jù)集。為了進一步加快訓練速度和處理更大的數(shù)據(jù)集,通常采用分布式訓練方法,這要求有專門的分布式計算框架(如TensorFlow的DistributionStrategies、PyTorch的DistributedDataParallel等)和相應的網(wǎng)絡基礎設施支持。在推理階段,對于某些場景,比如自動駕駛汽車中的實時目標檢測,可能需要在設備端(邊緣側(cè))進行處理,這就要求設備具備一定的計算能力,或者通過邊緣計算服務來提供額外的支持。
異常檢測:異常檢測在開放域目標檢測任務中是一項重要的挑戰(zhàn),特別是在面對未知類別或罕見情況時。在開放域目標檢測任務中,模型不僅要識別出常見的已知類別,還要能夠區(qū)分正常與異常的情況。這是因為開放域場景往往包含了多樣化的背景和未知對象,而這些對象可能并未出現(xiàn)在訓練數(shù)據(jù)集中。例如,在一個監(jiān)控攝像頭系統(tǒng)中,除了識別行人、車輛等常見對象外,還可能需要檢測到突然出現(xiàn)的非典型物體,如動物、遺棄物品或其他異常事件。由于模型訓練時只接觸到了有限數(shù)量的已知類別,當遇到未知類別時,模型可能會將它們誤分類為已知類別之一,或者無法給出任何有意義的預測結(jié)果。
模型設計:在開放域目標檢測任務中,設計既能識別已知類別又能識別未知類別的模型架構(gòu)是一項具有挑戰(zhàn)性的任務。開放域目標檢測任務要求模型不僅能夠準確地識別訓練數(shù)據(jù)中出現(xiàn)過的已知類別,而且還需要具備識別未知類別或異常情況的能力。
無人機機載端側(cè)AI
1. 開放式目標檢測(比如道路的交通事故檢測、高架大貨車檢測等)
2. 困難目標檢測(小目標、模糊、多角度等)
3. 實時性要求高、需要和定位、飛行、拍照形成業(yè)務閉環(huán)
4. 輕量模型,小于6T
公眾號 掃碼咨詢
![]() | 上海市閔行區(qū)中春路4999號莘莊商務樓1326室 |
![]() | service@covond.com |
![]() | m.jxetj.com |
![]() | 交換機:18017588179(孫經(jīng)理) 無人機:13311882358(孫總) |