AIPress.com.cn報(bào)道
1 月 30 日,螞蟻靈波科技宣布開源具身世界模型 LingBot-VA。該模型在此前連續(xù)發(fā)布空間感知模型、具身大模型與世界模型的基礎(chǔ)上,進(jìn)一步探索世界模型在真實(shí)機(jī)器人控制中的應(yīng)用路徑。
LingBot-VA 首次提出自回歸的視頻-動(dòng)作世界建模框架,將大規(guī)模視頻生成模型與機(jī)器人動(dòng)作控制深度融合。模型在生成“下一步世界狀態(tài)”的同時(shí),同步推演并輸出對(duì)應(yīng)的動(dòng)作序列,使機(jī)器人能夠在持續(xù)感知環(huán)境變化的過程中完成動(dòng)作決策與執(zhí)行。
在真實(shí)機(jī)器人評(píng)測中,LingBot-VA 展現(xiàn)出對(duì)復(fù)雜物理交互任務(wù)的適應(yīng)能力。在長時(shí)序任務(wù)、高精度操作以及柔性與關(guān)節(jié)物體操控三大類共六項(xiàng)高難度場景中,模型僅依賴 30 至 50 條真機(jī)演示數(shù)據(jù)即可完成適配,任務(wù)成功率較業(yè)界強(qiáng)基線 Pi0.5 平均提升約 20%。
在仿真環(huán)境中,LingBot-VA 在多項(xiàng)具身智能基準(zhǔn)測試中刷新現(xiàn)有成績。在高難度雙臂協(xié)同操作基準(zhǔn) RoboTwin 2.0 上,模型成功率首次超過 90%;在長時(shí)序終身學(xué)習(xí)基準(zhǔn) LIBERO 上,平均成功率達(dá)到 98.5%。
據(jù)介紹,LingBot-VA 采用 Mixture-of-Transformers(MoT)架構(gòu),實(shí)現(xiàn)視頻感知與動(dòng)作控制的跨模態(tài)融合。通過閉環(huán)推演機(jī)制,模型在每一步生成過程中引入真實(shí)世界的實(shí)時(shí)反饋,以減少長期推演中畫面與動(dòng)作偏離物理現(xiàn)實(shí)的風(fēng)險(xiǎn)。
針對(duì)大規(guī)模視頻世界模型在機(jī)器人端側(cè)部署的計(jì)算挑戰(zhàn),LingBot-VA 設(shè)計(jì)了異步推理管線,使動(dòng)作預(yù)測與電機(jī)執(zhí)行并行運(yùn)行,并結(jié)合記憶緩存與噪聲歷史增強(qiáng)策略,在減少生成步數(shù)的同時(shí)保持動(dòng)作輸出的穩(wěn)定性與精度,從而兼顧模型能力與低延遲控制需求。
螞蟻靈波表示,LingBot-VA 與此前開源的 LingBot-World、LingBot-VLA 和 LingBot-Depth 共同構(gòu)成具身智能技術(shù)體系,探索“世界模型賦能具身操作”的技術(shù)路線。相關(guān)模型權(quán)重與推理代碼目前已全面開源。











