近期,全球人工智能領域迎來一場引人矚目的“開源風暴”,主角正是中國科技企業螞蟻集團旗下的螞蟻靈波與科技巨頭谷歌之間展開的激烈角逐。這場較量不僅點燃了全球AI社區的熱情,更在行業格局中激起層層漣漪。
一切始于螞蟻靈波的“閃電戰”。1月27日起,該團隊在短短四天內接連開源四大核心模型,其中最受矚目的當屬世界模型LingBot-World。這款被外界視為谷歌Genie 3有力競爭者的模型,一經發布便引發連鎖反應——谷歌迅速調整策略,于1月30日面向特定用戶開放其世界模型體驗平臺Project Genie。兩大巨頭的“前后腳”動作,直接將相關話題推上海外社交平臺X的熱門榜單首位,Reddit等社區的AI板塊也將其列為頭號熱帖。
LingBot-World的震撼之處,在于其突破了傳統世界模型的技術邊界。從演示畫面來看,該模型不僅在視覺效果上與Genie 3不相上下,更實現了近10分鐘的連續無損生成。無論是物體特征的穩定性、場景邏輯的自洽性,還是交互響應的即時性,均達到行業領先水平。用戶可通過鍵盤或鼠標操控角色與相機視角,畫面隨指令實時變化;甚至能以文本指令觸發天氣、風格等環境變化,且在鏡頭移動60秒后返回時,目標物體仍能保持結構與外觀的一致性。更令人驚嘆的是,其端到端交互延遲控制在1秒以內,生成幀率達16 FPS,徹底告別卡頓感。
該模型的另一大亮點是Zero-shot泛化能力。開發者僅需輸入一張真實照片或游戲截圖,即可生成可交互的視頻流,無需針對單一場景進行額外訓練或數據采集。這一特性直擊行業痛點——此前,具身智能訓練因成本高昂、泛化能力弱而進展緩慢,而LingBot-World的開源,相當于為全球開發者提供了一套“即插即用”的工業級工具包。
螞蟻的野心遠不止于此。除LingBot-World外,其同步開源的三大模型——高精度空間感知模型LingBot-Depth、具身大模型LingBot-VLA和具身世界模型LingBot-VA,共同構建起從“感知”到“行動”再到“認知”的完整技術鏈條。其中,LingBot-Depth專注于解決透明反光物抓取等行業難題,被喻為機器人的“眼睛”;LingBot-VLA則基于20000+小時真實機器人操作數據訓練而成,能適配9種主流雙臂機器人構型,堪稱機器人的“通用大腦”;而LingBot-VA則將視頻生成與機器人控制深度融合,讓機器人具備“邊推演、邊行動”的能力,在真機評測中多項性能超越業界標桿Pi0.5。
這場開源風暴的背后,是行業格局的深刻變革。長期以來,高端AI模型領域被谷歌、OpenAI等巨頭壟斷,閉源策略筑起高高的技術壁壘。中小企業和初創公司因資金、算力不足,往往難以觸及前沿技術。而螞蟻的開源舉措,相當于向全球開發者開放了工業級技術工具包,開發者僅憑消費級硬件即可部署和微調模型,大大降低了創新門檻。德國頭部財經網站AdHocNews評價稱,螞蟻的行動是“全球機器人領域主導權爭奪戰中的戰略性舉措”,而行業專家則直言:“這對整個行業都是變革,此前這類訓練環境通常是專有的,成本昂貴。”
谷歌的快速跟進,進一步印證了螞蟻開源策略的影響力。從閉源壟斷到開源協同,世界模型賽道正經歷前所未有的轉折。這場較量不僅關乎技術領先,更關乎誰能定義下一代AI的標準。螞蟻的突圍,讓世界看到中國科技公司在具身智能領域的硬實力,也為全球AI發展注入新的可能性。










