AIPress.com.cn報道
1 月 29 日,螞蟻集團旗下的靈波科技開源了名為LingBot-World的世界模型。這是繼空間感知模型(LingBot-Depth)和 VLA 基座模型之后,螞蟻在具身智能領域的第三次重磅發布。
官方宣稱,該模型在視頻質量、動態交互和長時一致性上,已經可以媲美谷歌的 Genie 3。這意味著,開發者現在擁有了一個免費、開源且高性能的“數字演練場”,無論是用來訓練機器人、開發游戲,還是做自動駕駛模擬,都變得觸手可及。
目前,LingBot-World在適用場景、生成時長、動態程度、分辨率等方面均處于業界頂尖水平。
視頻生成領域有一個常見難題叫"長時漂移":生成時間一長,就可能出現物體變形、細節塌陷、主體消失或場景結構崩壞。LingBot-World通過多階段訓練和并行化加速,實現了近10分鐘的連續穩定無損生成,為長序列、多步驟的復雜任務訓練提供支撐。
在壓力測試中,鏡頭最長移開60秒后返回,目標物體仍然存在且結構一致。
交互性能方面,LingBot-World可實現約16 FPS的生成吞吐,端到端交互延遲控制在1秒以內。用戶可以通過鍵盤或鼠標實時控制角色和相機視角,畫面隨指令即時反饋。
用戶可以通過文本觸發環境變化和世界事件,比如調整天氣、改變畫面風格或生成特定事件,同時保持場景幾何關系相對一致。
模型具備零樣本泛化能力,僅需輸入一張真實照片(如城市街景)或游戲截圖,即可生成可交互的視頻流,無需針對單一場景進行額外訓練或數據采集。
為解決高質量交互數據匱乏的問題,LingBot-World采用混合采集策略:一方面清洗大規模網絡視頻覆蓋多樣化場景,另一方面結合游戲采集和虛幻引擎合成管線,從渲染層直接提取無UI干擾的畫面,同步記錄操作指令和相機位姿,為模型學習"動作如何改變環境"提供精確對齊的訓練信號。
具身智能規模化落地面臨的核心挑戰是復雜長程任務的真機訓練數據極度稀缺。LingBot-World憑借長時序一致性、實時交互響應,以及對"動作-環境變化"因果關系的理解,能夠在數字世界中"想象"物理世界,為智能體提供低成本、高保真的試錯空間。
模型還支持場景多樣化生成(如光照、擺放位置變化),有助于提升具身智能算法在真實場景中的泛化能力。
目前LingBot-World模型權重和推理代碼已面向社區開放。











