具身智能是指通過物理身體與環(huán)境的交互實(shí)現(xiàn)智能行為的系統(tǒng),強(qiáng)調(diào)感知、決策、行動(dòng)一體化,而非依賴純符號(hào)化推理。其核心在于智能體需具備本體(物理載體)與智能體(決策核心)的耦合,并通過實(shí)時(shí)交互學(xué)習(xí)適應(yīng)環(huán)境。具身智能需在真實(shí)或虛擬世界中“身體力行”完成任務(wù)。
1. 本體(物理載體)
l形態(tài)多樣:涵蓋人形機(jī)器人、四足機(jī)器人、工業(yè)機(jī)器人、無人機(jī)等,需具備環(huán)境感知、運(yùn)動(dòng)和執(zhí)行能力。
l人形機(jī)器人被認(rèn)為是終 極形態(tài),因其更接近人類行為模式,便于復(fù)雜任務(wù)泛化。
2. 智能體(決策核心)
l依賴大語言模型(LLM)、視覺語言模型(VLM)等技術(shù),賦予機(jī)器人自然語言交互、多模態(tài)感知和任務(wù)分解能力。
l需解決復(fù)雜環(huán)境下的3D感知、多級(jí)語義推理、長期記憶等挑戰(zhàn)。
3. 學(xué)習(xí)與進(jìn)化機(jī)制
l通過仿真環(huán)境加速訓(xùn)練,結(jié)合真實(shí)環(huán)境遷移優(yōu)化決策。
1. 數(shù)據(jù)與泛化能力
l現(xiàn)實(shí)場景復(fù)雜多變,高質(zhì)量數(shù)據(jù)稀缺,需結(jié)合仿真與真實(shí)交互生成動(dòng)態(tài)數(shù)據(jù)。
l大模型(如RT系列)通過端到端訓(xùn)練提升泛化,但需解決算力與實(shí)時(shí)性矛盾。
2. 多模態(tài)融合與交互
l需整合視覺、語言、動(dòng)作等多模態(tài)信號(hào),如CLIP模型統(tǒng)一視覺與文本表征。
3. 技術(shù)路線分歧
l開源與閉源之爭:開源可加速生態(tài)構(gòu)建(如DeepSeek模式),但需平衡核心技術(shù)與商業(yè)化。
1. 典型應(yīng)用
l服務(wù)機(jī)器人:客服、家庭服務(wù)機(jī)器人,通過自然語言交互執(zhí)行任務(wù)。
l工業(yè)場景:自適應(yīng)高精度操作,如智元機(jī)器人靈犀X1實(shí)現(xiàn)開源硬件與軟件協(xié)同。
l人機(jī)協(xié)作:如特斯拉Optimus執(zhí)行精細(xì)動(dòng)作,需結(jié)合預(yù)訓(xùn)練技能與大模型規(guī)劃。
2. 國內(nèi)發(fā)展動(dòng)態(tài)
l上海徐匯區(qū)推出政策支持具身智能研發(fā),單項(xiàng)目最 高資助1000萬元,并成立產(chǎn)業(yè)聯(lián)盟。
l智元機(jī)器人推出全球首款全棧開源人形機(jī)器人靈犀X1,推動(dòng)“人人可造”生態(tài)。
1. 技術(shù)融合
l大模型與機(jī)器人深度結(jié)合(如RT-H分層決策),需解決語義到物理動(dòng)作的精準(zhǔn)映射。
2. 倫理與標(biāo)準(zhǔn)化
l需建立統(tǒng)一技術(shù)路線與行業(yè)標(biāo)準(zhǔn),避免重復(fù)投入與生態(tài)碎片化。
3. 商業(yè)化落地
l當(dāng)前人形機(jī)器人仍處早期,應(yīng)用效率低于人類,需突破成本與性能瓶頸。
總結(jié)
具身智能正從實(shí)驗(yàn)室走向產(chǎn)業(yè),其發(fā)展依賴跨學(xué)科技術(shù)突破與開源生態(tài)共建。中國在硬件制造與場景資源上具備優(yōu)勢,但需解決核心算法、數(shù)據(jù)閉環(huán)與商業(yè)化路徑問題。未來十年或成為繼智能手機(jī)后的萬億級(jí)市場。
空天具身智能(Aerospace Embodied Intelligence)旨在賦能無人機(jī)、衛(wèi)星等空天平臺(tái)實(shí)現(xiàn)自主感知、認(rèn)知、行動(dòng)端到端閉環(huán),具備以自我為中心主動(dòng)與人類和環(huán)境交互的能力。空天具身大模型是實(shí)現(xiàn)無人機(jī)自主智能的有效手段,也是通往空天具身智能的必經(jīng)之路。構(gòu)造無人機(jī)智能體數(shù)據(jù)集主要存在以下幾個(gè)挑戰(zhàn):
無人機(jī)具身任務(wù)缺乏統(tǒng)一定義:無人機(jī)智能體需要在場景隨機(jī)和環(huán)境局部可觀測條件下理解四維時(shí)空的內(nèi)在關(guān)聯(lián)并做出準(zhǔn)確的行動(dòng),涉及感知、認(rèn)知、規(guī)劃、決策等多個(gè)層面。任務(wù)多樣且相互耦合,導(dǎo)致空天智能體的任務(wù)定義至今仍不清晰。
無人機(jī)3D數(shù)據(jù)采集難:采集戶外環(huán)境3D數(shù)據(jù)需要無人機(jī)等設(shè)備,門檻較高,并且戶外3D數(shù)據(jù)采集需要專業(yè)人員操控?zé)o人機(jī)在更廣的范圍中采集更多的點(diǎn)云數(shù)據(jù)。
無人機(jī)具身數(shù)據(jù)標(biāo)注成本高:無人機(jī)智能體的動(dòng)作空間多,需要對(duì)標(biāo)注人員進(jìn)行長期的培訓(xùn)才能完成對(duì)無人機(jī)智能體的熟練標(biāo)注。
空天具身智能領(lǐng)域的應(yīng)用主要包括以下方面:
無人機(jī)自主導(dǎo)航與控制:提高無人機(jī)在復(fù)雜城市環(huán)境中的自主導(dǎo)航、避障和任務(wù)執(zhí)行能力。
衛(wèi)星遙感與智能解析:空天具身智能技術(shù)可應(yīng)用于衛(wèi)星遙感圖像的智能解析,提高衛(wèi)星對(duì)地觀測數(shù)據(jù)的處理和分析能力。
空中交通管理:利用無人機(jī)具身智能技術(shù),實(shí)現(xiàn)空中交通的自主管理,提高空中交通系統(tǒng)的安全性和效率。
災(zāi)害監(jiān)測與救援:無人機(jī)智能體可應(yīng)用于災(zāi)害現(xiàn)場的快速偵查、監(jiān)測和救援任務(wù),提高救援效率。
城市規(guī)劃與管理:通過無人機(jī)智能體收集的城市空間數(shù)據(jù),為城市規(guī)劃、建設(shè)和管理工作提供有力支持。
環(huán)境保護(hù)與監(jiān)測:利用無人機(jī)智能體對(duì)環(huán)境進(jìn)行實(shí)時(shí)監(jiān)測,及時(shí)發(fā)現(xiàn)和處理環(huán)境污染問題。
軍事領(lǐng)域:空天具身智能技術(shù)可應(yīng)用于軍事偵察、目標(biāo)識(shí)別、戰(zhàn)場態(tài)勢感知等方面,提高軍事作戰(zhàn)能力
SkyAgent-Models:空天智能體模型
空天具身場景感知:二維視覺語言模型的視覺模型僅能接收?qǐng)D片,無法接收環(huán)境特征,因此在測試該任務(wù)時(shí)對(duì)二維視覺語言模型進(jìn)行調(diào)整,將輸入改為無人機(jī)位置前后左右所拍攝的四張圖片,通過描述圖片的prompt生成各自的caption之后,對(duì)四個(gè)caption進(jìn)行拼接,得到輸出的環(huán)境觀察信息。
空天具身空間推理:該任務(wù)同樣需要輸入三維特征,因此在測試該任務(wù)時(shí)對(duì)二維視覺語言模型進(jìn)行調(diào)整,將輸入改為無人機(jī)位置正前方的觀察圖像與問題,通過對(duì)該圖像進(jìn)行推理問答,得到空間推理答案。
空天具身導(dǎo)航探索:將輸入改為無人機(jī)飛行路徑上的幾張圖片和問題,通過生成各自圖像的caption之后,根據(jù)拼接后的caption回答問題,最終得到無人機(jī)導(dǎo)航探索的答案。
空天具身任務(wù)規(guī)劃:首先通過對(duì)終點(diǎn)圖片生成caption并設(shè)計(jì)問題,即詢問無人機(jī)智能體怎么到達(dá)該地點(diǎn)。然后,依據(jù)拼接后的飛行路徑圖片caption進(jìn)行解答,得到無人機(jī)路徑規(guī)劃的答案。
易和聯(lián)航&具身智能體AIBOX
公司愿景:
以通信、定位、導(dǎo)航、識(shí)別、控制(CLNRC)五大智能體核心能力為技術(shù)底座,通過具身智能理論構(gòu)建智能體物理存在與數(shù)字認(rèn)知的深度融合,讓智能系統(tǒng)不僅擁有環(huán)境感知的大腦,更具備與環(huán)境共融的"身體"。結(jié)合人工智能與自動(dòng)駕駛技術(shù)的深度耦合,打造具有物理具身性、環(huán)境交互性和認(rèn)知涌現(xiàn)性的跨設(shè)備(無人機(jī)/機(jī)械臂/機(jī)器狗/無人艇)、跨介質(zhì)(陸地/空中/水域)、跨場景的自主決策系統(tǒng),致力于成為無人化垂直場景的智能基礎(chǔ)設(shè)施構(gòu)建者。
讓智能體突破人類操作的物理邊疆
通過構(gòu)建空間智能時(shí)代的具身智能載體:"手"(機(jī)械臂)、"足"(機(jī)器狗)、"翼"(無人機(jī))、"鰭"(無人艇),我們正在重新定義生產(chǎn)力工具的邊界。每個(gè)智能體通過多模態(tài)傳感器形成"數(shù)字軀體",在真實(shí)物理環(huán)境中實(shí)現(xiàn)感知-決策-執(zhí)行的具身閉環(huán),讓危險(xiǎn)場景無人值守,讓精密操作無限重復(fù),讓人類專注更具創(chuàng)造力的價(jià)值領(lǐng)域。
核心技術(shù)與產(chǎn)品布局
公司聚焦定位、導(dǎo)航、邊緣視覺大模型等核心技術(shù),推出AiBox系列產(chǎn)品,涵蓋通信增強(qiáng)、安全增強(qiáng)、算力增強(qiáng)等功能,滿足不同無人化場景需求。
公眾號(hào) 掃碼咨詢
![]() | 上海市閔行區(qū)中春路4999號(hào)莘莊商務(wù)樓1326室 |
![]() | service@covond.com |
![]() | m.jxetj.com |
![]() | 交換機(jī):18017588179(孫經(jīng)理) 無人機(jī):13311882358(孫總) |