螞蟻靈波科技今日宣布,其自主研發(fā)的具身世界模型LingBot-VA正式開源,為機器人領域帶來突破性進展。該模型首次將自回歸視頻-動作世界建模框架應用于具身智能,通過深度融合大規(guī)模視頻生成與機器人控制技術,實現(xiàn)了“邊推演、邊行動”的類人決策能力。在真機測試中,LingBot-VA僅需30至50條演示數(shù)據(jù),即可完成制作早餐、疊衣物、拆快遞等六大類高難度任務的適配,任務成功率較行業(yè)標桿模型Pi0.5平均提升20%。
技術架構方面,LingBot-VA采用創(chuàng)新的Mixture-of-Transformers(MoT)設計,通過跨模態(tài)融合機制統(tǒng)一處理視頻信息與動作指令。其閉環(huán)推演系統(tǒng)能夠實時整合環(huán)境反饋,確保生成的畫面與動作始終符合物理規(guī)律。針對機器人端側部署的計算瓶頸,研發(fā)團隊設計了異步推理管線,將動作預測與電機執(zhí)行并行處理,同時引入記憶緩存與噪聲增強策略,在減少生成步驟的同時提升指令精度,使模型兼具大模型的認知能力與實時的控制響應速度。
在仿真環(huán)境測試中,LingBot-VA展現(xiàn)出顯著優(yōu)勢:在雙臂協(xié)同操作基準RoboTwin2.0上,模型以超過90%的成功率刷新行業(yè)紀錄;在長時序終身學習基準LIBERO測試中,更取得98.5%的平均成功率。這些數(shù)據(jù)表明,該模型在復雜動態(tài)環(huán)境中的適應能力已達到行業(yè)領先水平。螞蟻靈波透露,此次開源包含完整的模型權重與推理代碼,開發(fā)者可基于現(xiàn)有框架進行二次開發(fā)。
作為螞蟻集團InclusionAI社區(qū)的重要成果,LingBot-VA與近期開源的LingBot-World模擬環(huán)境、LingBot-VLA智能基座及LingBot-Depth空間感知模型形成技術閉環(huán)。這種“世界模型+具身操作”的研發(fā)路徑,為機器人從實驗室走向真實產(chǎn)業(yè)場景提供了完整解決方案。通過開源社區(qū)的協(xié)作機制,螞蟻集團旨在推動具身智能技術在工業(yè)制造、物流倉儲、家庭服務等領域的應用落地,加速構建開放共享的AGI技術生態(tài)。












