機器人領域迎來重大突破——螞蟻靈波團隊近日開源了全球首個面向通用機器人控制的因果視頻-動作世界模型LingBot-VA,這項技術讓機器人首次具備"腦補未來"的能力。傳統機器人依賴"觀察-反應"模式,如同條件反射般執行動作,而LingBot-VA通過自回歸視頻預測技術,在執行動作前會先在腦海中推演未來數秒的畫面,這種"想象力決策"機制為機器人控制開辟了全新路徑。
該模型的核心創新在于解耦了傳統VLA(視覺-語言-動作)架構中的表征纏繞問題。研究團隊采用"先想象世界,再反推動作"的兩步策略:首先通過視頻世界模型預測未來視覺狀態,再利用逆向動力學模型推導所需動作。這種設計使機器人能夠完成三類高難度任務:在長時序任務中(如準備早餐),機器人可精準記憶操作步驟;高精度任務中(如擦拭試管),動作精度達到毫米級;面對可變形物體(如折疊衣物),能通過視頻推演預判物體形變。真機測試顯示,機器人完成擰螺絲任務時,動作流暢度與人類操作幾乎無異。
技術實現層面,團隊在三個維度取得突破。架構設計上,視頻Token與動作Token構成自回歸交錯序列,配合因果注意力機制確保模型只能使用歷史信息。通過KV-cache技術賦予模型長期記憶能力,使其能清晰追溯三步前的操作狀態。在模型分工方面,Mixture-of-Transformers架構將視覺推演與動作控制分離:視頻流負責復雜視覺分析,動作流專注精準運動控制,兩者通過共享注意力機制實現信息互通。工程優化環節,部分去噪技術允許模型從含噪中間狀態提取關鍵信息,異步推理機制使動作計算與執行并行進行,FDM接地技術則通過真實數據持續校正模型想象,防止出現脫離現實的幻覺。
在RoboTwin 2.0雙臂協作基準測試中,LingBot-VA展現出顯著優勢:簡單場景成功率達92.93%,復雜場景成功率91.55%,分別超出第二名4.2%和4.6%。隨著任務難度增加,其領先幅度擴大至9%以上。在LIBERO基準測試中,該模型更以98.5%的平均成功率刷新紀錄。實驗數據顯示,LingBot-VA具有三大核心能力:長期記憶能力使其在計數任務中精準記錄操作次數;少樣本適應能力僅需50條演示數據即可掌握新任務;泛化能力允許模型識別并操作不同顏色、形狀或擺放位置的同類物體。
此次開源是螞蟻靈波四天技術發布計劃的收官之作。此前三天,團隊已陸續開源LingBot-Depth(增強視覺感知)、LingBot-VLA(打通語言視覺動作接口)、LingBot-World(構建可預測世界模型)三個項目。四者構成完整技術鏈條:從清晰感知到理解世界,從構建想象到指導行動,推動通用機器人進入視頻推理時代。這種技術范式已引發行業連鎖反應,谷歌Project Genie項目、宇樹科技UnifoLM-VLA-0等相繼開源,海外媒體評價稱:"螞蟻集團通過完整開源工具包,在全球機器人領域主導權爭奪中邁出戰略性一步。"






