螞蟻靈波科技近日宣布開源其最新研發的具身世界模型LingBot-VA,這一成果標志著具身智能領域在"世界模型賦能操作"方向上取得重要突破。該模型創新性地將大規模視頻生成能力與機器人控制技術深度融合,通過自回歸視頻-動作世界建模框架,使機器人能夠同步推演環境變化并生成對應動作序列,實現"邊思考邊行動"的類人決策模式。
技術架構方面,LingBot-VA采用Mixture-of-Transformers(MoT)設計,通過跨模態融合機制打通視頻理解與動作控制的神經通路。其獨創的閉環推演系統在每個決策周期都會整合真實環境反饋,確保生成的畫面與動作始終符合物理規律。這種設計使模型在處理疊衣物、插入試管等精細操作時,成功率較行業基準模型Pi0.5提升達20%。
在雙臂協同操作基準測試RoboTwin2.0中,LingBot-VA以超過90%的完成率刷新紀錄,而在長時序任務基準LIBERO上更取得98.5%的平均成功率。這些數據驗證了模型在制作早餐、拆解快遞等復雜場景中的卓越適應能力,尤其值得注意的是,其僅需30-50條真機演示數據即可完成新任務適配,展現出極強的泛化性能。
針對機器人端側部署的計算瓶頸,研發團隊設計了異步推理管線,將動作預測與電機執行解耦并行處理。配合記憶緩存機制與噪聲歷史增強策略,模型在保持大模型理解深度的同時,將響應延遲控制在工業級應用標準內。這種優化使得機械臂在執行螺絲拾取等高速任務時,既能保證動作精度又具備實時交互能力。
此次開源是螞蟻靈波技術生態建設的重要里程碑。繼此前發布模擬環境LingBot-World、智能基座LingBot-VLA和空間感知模塊LingBot-Depth后,LingBot-VA的加入完整了從環境建模到操作執行的閉環鏈條。所有核心組件均通過InclusionAI社區開源開放,為行業提供了覆蓋感知、決策、執行全流程的具身智能開發套件。
目前,LingBot-VA的模型權重與推理代碼已向全球開發者開放下載。這套總代碼量超過50萬行的系統,不僅包含預訓練模型和微調工具,還配套了詳細的硬件適配指南,支持從仿真環境到真實機械臂的無縫遷移,為具身智能技術的產業化落地鋪平道路。











