在機器人技術(shù)領(lǐng)域,規(guī)模化應(yīng)用長期面臨數(shù)據(jù)割裂、動作表示不統(tǒng)一以及空間理解能力不足等難題。不同廠商、不同形態(tài)的機器人數(shù)據(jù)體系獨立,導致模型難以跨平臺復用,訓練效率受限且部署成本高昂。近日,阿里巴巴集團旗下高德推出的兩款基座模型——具身操作基座模型ABot-M0與具身導航基座模型ABot-N0,為解決這些問題帶來了新的突破。
ABot-M0作為通用的具身操作基礎(chǔ)模型,從“數(shù)據(jù)統(tǒng)一—算法革新—空間感知”三個維度進行系統(tǒng)性重構(gòu),以提升模型在多樣化機器人形態(tài)和任務(wù)場景下的泛化能力。在數(shù)據(jù)層面,它整合全球開源資源,構(gòu)建了規(guī)模超600萬條真實操作軌跡的通用機器人數(shù)據(jù)集。通過統(tǒng)一動作表示、坐標系與控制頻率,并采用增量式動作建模,實現(xiàn)了跨平臺數(shù)據(jù)融合,支持完全基于公開數(shù)據(jù)的預訓練。
算法上,ABot-M0提出全球首個動作流形學習。由于機器人動作受物理規(guī)律、任務(wù)目標與環(huán)境約束,集中分布在低維結(jié)構(gòu)化流形上,該模型設(shè)計了AML(Action Manifold Learning)算法,可直接預測結(jié)構(gòu)合理、物理可行的動作序列,提升策略穩(wěn)定性與解碼效率。為增強空間感知,模型引入3D感知模塊,強化對“前后、遠近、遮擋”等空間語義的理解,能在復雜環(huán)境中做出更精準的操作決策。
在Libero、Libero-Plus、RoboCasa基準測試中,ABot-M0在包含復雜任務(wù)組合與動態(tài)場景擾動的設(shè)定下,平均任務(wù)成功率均達到SOTA。其中,在Libero-Plus基準上達到80.5%,較業(yè)界先進方案pi0提升近30%,在高擾動高難度具身操作任務(wù)中表現(xiàn)卓越。
導航是機器人進入物理開放世界的核心能力,但當前具身導航研究存在“碎片化”問題。主流方法針對特定任務(wù)構(gòu)建孤立專用架構(gòu),限制了模型跨任務(wù)泛化能力,阻礙智能體提取統(tǒng)一物理先驗,導致機器人常“環(huán)境看不懂、動作做不準”,復雜指令難以執(zhí)行。
高德推出的具身導航基座模型ABot-N0以“全任務(wù)一統(tǒng)”為目標,全球首次在單一模型中完整集成Point-Goal(點位導航)、Object-Goal(目標導航)、Instruction-Following(指令跟隨)、POI-Goal(興趣點導航)與Person-Following(人物跟隨)五大導航任務(wù),突破了傳統(tǒng)架構(gòu)任務(wù)割裂的瓶頸。例如,當用戶要求搭載ABot-N0的機器人“帶我去奶茶店買一杯奶茶,再幫我占個座”時,系統(tǒng)會自動分解任務(wù):先執(zhí)行Point-Goal接近奶茶店區(qū)域,再切換至POI-Goal鎖定店鋪入口并靠近,接著觸發(fā)Instruction-Following進入店鋪導航至柜臺,最后執(zhí)行Object-Goal尋找空沙發(fā)停靠。
ABot-N0在架構(gòu)設(shè)計、數(shù)據(jù)引擎和系統(tǒng)框架上均有關(guān)鍵革新。模型架構(gòu)采用層次化的“大腦?動作”設(shè)計哲學,“認知大腦”理解指令并推理,“動作專家”基于流匹配生成精確且多峰分布的連續(xù)軌跡。訓練時,先進行認知訓練熱身,再用部分認知數(shù)據(jù)和海量導航動作聯(lián)合監(jiān)督微調(diào),最后用強化學習將導航?jīng)Q策對齊到人類偏好的行為價值,打造出更通用的VLA基座模型。
數(shù)據(jù)方面,依托高德長期積累的場景資產(chǎn)和專家示例,構(gòu)建了業(yè)內(nèi)最大規(guī)模的具身導航數(shù)據(jù)引擎,涵蓋約8000個高保真3D場景等海量時空數(shù)據(jù)與近1700萬條專家示例,增強了模型在真實環(huán)境中的泛化能力與魯棒性。基于這些創(chuàng)新,ABot-N0在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大權(quán)威基準測試中全面刷新世界紀錄。其中在SocNav閉環(huán)仿真中,成功率(SR)飆升40.5%,在HM3D-OVON評測中成功率(SR)提升8.8%,均顯著優(yōu)于之前的SOTA模型。
為解決機器人在執(zhí)行長程復雜任務(wù)時的任務(wù)拆解與容錯問題,高德提出可落地的Agentic Navigation System具身導航系統(tǒng)框架,形成從“讀懂指令”到“長程復雜任務(wù)執(zhí)行”的閉環(huán)能力架構(gòu),支持機器人在執(zhí)行過程中持續(xù)感知、記憶、決策與糾錯。該系統(tǒng)已成功部署于真實四足機器人平臺,并在邊緣側(cè)實現(xiàn)高效推理與閉環(huán)控制,驗證了其在動態(tài)現(xiàn)實環(huán)境中的泛化性能與工業(yè)級穩(wěn)定性。












