螞蟻靈波科技近日推出了一款名為LingBot-World的開源世界模型框架,為交互式環(huán)境模擬提供了全新解決方案。該模型通過構(gòu)建高保真、可控且邏輯一致的虛擬空間,為機(jī)器人訓(xùn)練和具身智能研究開辟了"數(shù)字試驗(yàn)場",其核心性能指標(biāo)已接近國際領(lǐng)先水平。
在技術(shù)架構(gòu)上,LingBot-World創(chuàng)新性地采用可擴(kuò)展數(shù)據(jù)引擎,通過分析海量游戲環(huán)境中的物理規(guī)律與因果關(guān)系,實(shí)現(xiàn)了生成世界與用戶的實(shí)時(shí)互動。測試數(shù)據(jù)顯示,該模型在視頻質(zhì)量、動態(tài)表現(xiàn)、長時(shí)穩(wěn)定性等維度均達(dá)到行業(yè)頂尖水準(zhǔn),特別是在持續(xù)生成能力方面取得突破性進(jìn)展——可實(shí)現(xiàn)近10分鐘的連續(xù)穩(wěn)定輸出,有效解決了傳統(tǒng)模型中常見的物體變形、場景崩壞等問題。
交互性能是該模型的另一大亮點(diǎn)。通過優(yōu)化訓(xùn)練流程與并行計(jì)算技術(shù),LingBot-World將端到端響應(yīng)延遲壓縮至1秒以內(nèi),支持每秒16幀的流暢畫面生成。用戶可通過鍵盤鼠標(biāo)實(shí)時(shí)操控虛擬角色與攝像機(jī)視角,指令執(zhí)行與畫面反饋實(shí)現(xiàn)同步。更值得關(guān)注的是,模型允許通過文本指令觸發(fā)環(huán)境變化,如調(diào)整天氣系統(tǒng)、切換畫面風(fēng)格或生成特定事件,所有改動均能在保持場景幾何結(jié)構(gòu)穩(wěn)定的前提下完成。
針對具身智能訓(xùn)練中的數(shù)據(jù)瓶頸問題,研發(fā)團(tuán)隊(duì)設(shè)計(jì)了混合采集策略:一方面從網(wǎng)絡(luò)視頻中提取多樣化場景素材,另一方面利用游戲引擎與虛幻合成管線生成無干擾純凈畫面。這種雙軌制數(shù)據(jù)獲取方式使模型具備強(qiáng)大的零樣本泛化能力——僅需輸入單張城市街景照片或游戲截圖,即可自動生成可交互視頻流,無需針對特定場景進(jìn)行額外訓(xùn)練,顯著降低了實(shí)際應(yīng)用中的部署成本。
在復(fù)雜任務(wù)訓(xùn)練方面,LingBot-World展現(xiàn)出獨(dú)特優(yōu)勢。其長時(shí)序一致性特征與因果推理能力,使模型能夠在數(shù)字空間中模擬物理世界的運(yùn)行規(guī)律,為智能體提供低成本、高保真的試錯(cuò)環(huán)境。通過調(diào)整光照條件、物體擺放位置等參數(shù),系統(tǒng)還能生成多樣化訓(xùn)練場景,有效提升算法在真實(shí)環(huán)境中的適應(yīng)能力。這些特性恰好解決了具身智能規(guī)模化落地的核心挑戰(zhàn)——真實(shí)世界中復(fù)雜長程任務(wù)訓(xùn)練數(shù)據(jù)的稀缺性問題。
隨著LingBot-World的發(fā)布,螞蟻在具身智能領(lǐng)域的布局愈發(fā)清晰。繼此前推出兩款"靈波"系列大模型后,此次技術(shù)突破標(biāo)志著其通用人工智能戰(zhàn)略從數(shù)字認(rèn)知向物理感知層面的關(guān)鍵延伸。該模型構(gòu)建的"基礎(chǔ)模型-通用應(yīng)用-實(shí)體交互"技術(shù)棧,正在為連接生成式AI與具身智能開辟新的路徑。











