螞蟻靈波科技近日宣布開(kāi)源其最新研發(fā)的具身世界模型LingBot-VA,標(biāo)志著該公司在機(jī)器人控制領(lǐng)域的技術(shù)探索邁入新階段。這一模型基于此前發(fā)布的系列技術(shù)成果,包括空間感知模型、具身大模型和世界模型,進(jìn)一步深化了世界模型在真實(shí)機(jī)器人場(chǎng)景中的應(yīng)用實(shí)踐。
LingBot-VA的核心創(chuàng)新在于提出了自回歸的視頻-動(dòng)作世界建模框架。該框架通過(guò)將大規(guī)模視頻生成能力與機(jī)器人動(dòng)作控制系統(tǒng)深度結(jié)合,使模型在預(yù)測(cè)環(huán)境下一狀態(tài)的同時(shí),能夠同步生成對(duì)應(yīng)的動(dòng)作序列。這種設(shè)計(jì)讓機(jī)器人能夠在動(dòng)態(tài)感知環(huán)境變化的過(guò)程中,實(shí)時(shí)完成動(dòng)作決策與執(zhí)行,顯著提升了復(fù)雜場(chǎng)景下的適應(yīng)能力。
在真實(shí)機(jī)器人測(cè)試中,該模型展現(xiàn)出強(qiáng)大的任務(wù)處理能力。面對(duì)長(zhǎng)時(shí)序操作、高精度控制以及柔性物體交互等六大類(lèi)高難度任務(wù),LingBot-VA僅需30至50條真實(shí)機(jī)器人演示數(shù)據(jù)即可完成模型適配。實(shí)驗(yàn)數(shù)據(jù)顯示,其任務(wù)成功率較當(dāng)前業(yè)界領(lǐng)先基準(zhǔn)模型Pi0.5平均提升約20%,特別是在需要持續(xù)環(huán)境交互的場(chǎng)景中表現(xiàn)尤為突出。
仿真環(huán)境測(cè)試進(jìn)一步驗(yàn)證了模型的先進(jìn)性。在雙臂協(xié)同操作基準(zhǔn)測(cè)試RoboTwin 2.0中,LingBot-VA以超過(guò)90%的成功率刷新紀(jì)錄;在長(zhǎng)時(shí)序終身學(xué)習(xí)基準(zhǔn)LIBERO測(cè)試中,平均成功率達(dá)到98.5%。這些數(shù)據(jù)表明,該模型在處理復(fù)雜時(shí)序邏輯和持續(xù)學(xué)習(xí)任務(wù)方面具有顯著優(yōu)勢(shì)。
技術(shù)架構(gòu)方面,LingBot-VA采用創(chuàng)新的Mixture-of-Transformers(MoT)設(shè)計(jì),實(shí)現(xiàn)了視頻感知與動(dòng)作控制的跨模態(tài)深度融合。通過(guò)引入閉環(huán)推演機(jī)制,模型在每步生成過(guò)程中都會(huì)整合真實(shí)世界的實(shí)時(shí)反饋,有效避免了長(zhǎng)期預(yù)測(cè)中可能出現(xiàn)的畫(huà)面與動(dòng)作偏離物理規(guī)律的問(wèn)題。這種設(shè)計(jì)使機(jī)器人操作更符合真實(shí)環(huán)境約束。
針對(duì)機(jī)器人端側(cè)部署的計(jì)算瓶頸,研發(fā)團(tuán)隊(duì)設(shè)計(jì)了異步推理管線(xiàn)。該方案通過(guò)并行處理動(dòng)作預(yù)測(cè)與電機(jī)執(zhí)行,結(jié)合記憶緩存技術(shù)和噪聲歷史增強(qiáng)策略,在減少生成步數(shù)的同時(shí)確保動(dòng)作輸出的穩(wěn)定性。這種優(yōu)化使模型既能保持高性能,又能滿(mǎn)足低延遲控制需求,為實(shí)際工業(yè)應(yīng)用奠定了基礎(chǔ)。
此次開(kāi)源的LingBot-VA與先前發(fā)布的LingBot-World、LingBot-VLA和LingBot-Depth共同構(gòu)成完整的具身智能技術(shù)體系。這套技術(shù)方案聚焦于"世界模型賦能具身操作"的技術(shù)路徑,為機(jī)器人領(lǐng)域提供了新的研發(fā)范式。目前,所有相關(guān)模型的權(quán)重參數(shù)和推理代碼均已向研究社區(qū)開(kāi)放。











