近日,螞蟻集團旗下的螞蟻靈波科技正式宣布全面開源其具身智能大模型 ——LingBot-VLA 及相關(guān)的后訓(xùn)練代碼。這一舉措不僅標志著在機器人領(lǐng)域的重大進展,還驗證了該模型在不同類型機器人的跨本體遷移能力,進一步推動了智能機器人的發(fā)展。
LingBot-VLA 目前已成功與星海圖、松靈、樂聚等多家機器人制造商實現(xiàn)適配。通過螞蟻靈波科技開發(fā)的一套后訓(xùn)練工具鏈,在8卡 GPU 配置下,模型能夠以每秒261個樣本的速度高效訓(xùn)練。這一訓(xùn)練效率是目前主流框架 StarVLA、OpenPI 等的1.5到2.8倍,有效降低了數(shù)據(jù)和算力的成本。
在海量真實世界數(shù)據(jù)的基礎(chǔ)上,螞蟻靈波首次系統(tǒng)研究了 VLA 模型在真實機器人任務(wù)中的表現(xiàn),發(fā)現(xiàn)隨著預(yù)訓(xùn)練數(shù)據(jù)的增加,模型在下游任務(wù)的成功率也持續(xù)提升。從3000小時的數(shù)據(jù)訓(xùn)練到最終的20000,模型的成功率不斷上升,顯示出數(shù)據(jù)量和模型性能之間的良性關(guān)系。
更令人振奮的是,LingBot-VLA 在上海交通大學(xué)開源的具身評測基準 GM-100測試中,在三種不同的真實機器人平臺上,跨本體泛化的平均成功率從13.0% 提升至15.7%。而在引入深度信息后,成功率進一步攀升至17.3%。
螞蟻靈波科技還于1月27日推出了 LingBot-Depth 空間感知模型。該模型專注于真實場景中的深度補全,利用雙目3D 相機進行 RGB-Depth 數(shù)據(jù)的采集與驗證。LingBot-Depth 能夠?qū)⑹茉肼曈绊懙牟煌暾疃葌鞲衅鲾?shù)據(jù)轉(zhuǎn)換為高質(zhì)量的三維測量結(jié)果,極大提升了環(huán)境的深度感知和三維理解能力。
在多項基準測試中,LingBot-Depth 在深度補全和單目深度估計等任務(wù)上均表現(xiàn)出色,顯示出其在精度和穩(wěn)定性方面的行業(yè)領(lǐng)先地位。該模型的成功認證也為機器人和自動駕駛汽車等智能終端提供了更精準的三維視覺能力。











