近日,國際頂級學術期刊《Nature》發表了一項來自中國團隊的重要研究成果——北京智源人工智能研究院提出的“Emu3”多模態大模型,以顛覆性的技術路徑在AI領域引發廣泛關注。該模型通過“統一預測下一個符號”的極簡設計,首次實現了圖像生成、視頻理解、語言推理等跨模態任務的高水平協同,為通用人工智能(AGI)的發展開辟了新路徑。
傳統多模態模型往往采用“分而治之”的策略:圖像、視頻、語言分別由獨立模塊處理,再通過復雜工程拼接。這種模式雖在特定任務中表現優異,卻面臨協同效率低、跨模態推理能力弱等瓶頸。例如,OpenAI的Sora擅長視頻生成但難以理解內容,Google的Gemini整合多模態需依賴預訓練編碼器,而meta的Chameleon雖嘗試統一架構,性能仍落后于專用模型。Emu3則徹底摒棄這一思路,提出“所有模態均可轉化為符號序列”的核心假設,通過預測下一個符號實現跨模態學習。
這一突破的關鍵在于團隊設計的“視覺分詞器”。該組件能將512×512像素的圖像壓縮為4096個離散符號,視頻則在時間維度進一步壓縮4倍,同時保留98%以上的視覺信息。更創新的是,分詞器采用三維卷積核,可同步捕捉空間結構與時間動態,使模型無需逐幀處理即可理解視頻內容。實驗顯示,其重建質量與逐幀編碼相當,但符號使用量減少75%,為后續統一訓練奠定了基礎。
在模型架構上,Emu3采用極簡的decoder-only Transformer設計,僅通過擴大詞匯表(新增32768個視覺符號)將語言模型擴展至多模態領域。這種“無編碼器、無模態融合模塊”的架構,迫使模型在預測任務中自主學習跨模態關聯。測試結果表明,Emu3在圖像生成人類偏好評分(70.0)超越Stable Diffusion XL(66.9),視覺語言理解平均分(62.1)媲美LLaVA-1.6,視頻生成得分(81.0)超過Open-Sora-1.2,首次在生成與理解任務中同時達到專用模型水平。
論文更揭示了多模態學習的“規模定律”:當訓練數據量翻倍時,模型驗證損失以0.55的指數下降,且不同模態共享同一擴展規律。基于7億參數模型的實驗數據,研究團隊準確預測了更大模型的性能,誤差不足3%。這一發現意味著,未來無需為不同模態設計專屬訓練策略,僅需混合數據統一訓練即可實現能力自然涌現,大幅降低AGI研發門檻。
在機器人控制任務中,Emu3展現了跨模態推理的深層潛力。在CALVIN基準測試中,模型以87%的成功率連續完成“拿杯子-開抽屜-放置”等復雜操作,證明其能同步處理視覺感知、語言指令與動作規劃。更令人矚目的是其“世界模型”能力:僅憑烹飪視頻前兩秒,模型可準確預測后續食材翻炒軌跡、手勢移動方向及蒸汽擴散路徑,為物理世界理解提供了新范式。
與海外模型相比,Emu3的開放性優勢顯著。團隊承諾開源視覺分詞器、訓練代碼及預訓練權重,這與OpenAI對Sora的封閉策略形成鮮明對比。對于全球研究社區而言,這意味著一條可復現、可改進的技術路線正式誕生,有望加速多模態AI的普及與創新。
商業化層面,Emu3的統一架構帶來顯著效率提升。其核心模型可復用大語言模型的推理基礎設施,支持動態批處理、內存優化等技術,在保持生成質量的同時實現低延遲服務。單一模型替代多專用模型的部署模式,更可降低70%以上的運維成本。在教育、電商、醫療等領域,其跨模態交互能力已展現出變革潛力:例如自動生成產品演示視頻與說明書、同步處理醫療影像與報告分析等。
盡管Emu3仍面臨推理速度優化、長視頻處理等挑戰,但其核心價值已得到學術界高度認可。這項研究不僅為中國AI研究確立了原創性標桿,更通過“預測即智能”的哲學視角,重新定義了多模態學習的可能性——當所有模態轉化為符號序列,智能或許正是對下一個符號的連續探索。











