螞蟻靈波科技在具身智能領域再推創新成果——具身世界模型LingBot-VA正式開源。該模型首次構建自回歸視頻-動作世界建模框架,通過將大規模視頻生成能力與機器人控制技術深度整合,實現了"預測世界狀態"與"生成動作序列"的同步輸出。這一突破使機器人具備"推演即行動"的類人決策能力,在復雜任務執行中展現出顯著優勢。
真機實測數據顯示,LingBot-VA在三大類六項高難度任務中表現卓越。面對制作早餐、拆解快遞等長時序任務,插入試管、拾取螺絲等高精度操作,以及疊衣物、整理褲裝等柔性物體操控場景,模型僅需30-50條演示數據即可完成適配。與行業標桿Pi0.5相比,其任務成功率平均提升20%,在復雜物理交互場景中展現出更強的環境適應能力。
在仿真環境測試中,該模型持續刷新行業紀錄。雙臂協同操作基準RoboTwin 2.0測試顯示,LingBot-VA將任務成功率首次推高至90%以上;長時序終身學習基準LIBERO測試中,更取得98.5%的平均成功率。這些數據驗證了模型在復雜動態環境中的穩定性和可靠性。
技術架構方面,LingBot-VA采用創新的Mixture-of-Transformers(MoT)設計,通過跨模態融合機制實現視頻理解與動作控制的有機統一。其閉環推演系統可實時整合環境反饋,確保生成內容始終符合物理規律。針對機器人端側部署的計算瓶頸,研發團隊設計了異步推理管線,將動作預測與執行指令并行處理,配合記憶緩存機制和噪聲增強策略,在保證控制精度的同時將響應延遲降低至行業領先水平。
此次開源是螞蟻靈波技術生態建設的重要里程碑。繼此前發布模擬環境LingBot-World、智能基座LingBot-VLA和空間感知模塊LingBot-Depth后,LingBot-VA的加入完整構建了"世界模型賦能具身操作"的技術路徑。所有核心代碼、模型權重及訓練框架已通過InclusionAI社區向全球開發者開放,為真實產業場景中的AGI應用提供基礎設施支持。











