近日,頂級學術期刊《Nature》發表了一項來自中國團隊的重要研究成果——北京智源人工智能研究院提出的“Emu3”多模態大模型,為人工智能領域長期存在的核心命題提供了全新思路:能否通過統一框架讓機器同時掌握視覺、聽覺、語言和行動能力?這項突破不僅挑戰了主流技術路線,更在實驗中展現出超越專用模型的性能,引發全球科研界廣泛關注。
當前主流多模態模型多采用“拼裝式”架構:OpenAI的Sora依賴擴散模型生成視頻,Google的Gemini通過復雜編碼器整合模態,meta的Chameleon雖嘗試統一但性能受限。智源團隊則選擇了一條看似“返璞歸真”的道路——僅用“下一符號預測”這一基礎任務驅動模型學習。該理念源于語言模型的成功經驗:GPT-3已證明單純預測文本序列可涌現復雜推理能力,但將其擴展至圖像、視頻領域面臨雙重挑戰:視覺數據量遠超文本,且空間結構與時間連續性難以通過線性預測捕捉。
研究團隊的核心創新在于開發了專為動態視覺設計的“視覺分詞器”。該技術可將512×512圖像壓縮為4096個離散符號,視頻則在時間維度進一步壓縮4倍,同時保持關鍵信息。與傳統逐幀處理不同,其采用三維卷積核同步捕捉空間與時間特征,實驗顯示用四分之一符號量即可達到同等重建質量。這種設計使圖像、視頻與文本統一為符號序列,為單一Transformer架構處理多模態任務奠定基礎。
Emu3的模型結構堪稱極簡:僅包含一個從零訓練的解碼器Transformer,詞匯表擴展至32768個視覺符號與文本符號的混合體系。這種設計避免了主流模型中視覺編碼器與語言模型間的模態隔閡,所有能力均通過統一預測任務自然涌現。實驗數據顯示,該模型在圖像生成人類偏好評分中以70.0分超越Stable Diffusion XL(66.9分),視覺語言理解基準測試平均分達62.1,與復雜架構的LLaVA-1.6持平,視頻生成評分81.0分更超過專用模型Open-Sora-1.2(79.8分)。
研究團隊對規模定律的探索具有重要科學價值。通過系統分析不同模態數據擴展對模型性能的影響,發現文字-圖像、圖像-文字、文字-視頻等任務的驗證損失均遵循0.55的指數下降規律。基于小規模模型數據,研究準確預測了70億參數模型的性能,擬合優度超0.99且誤差不足3%。這一發現表明,多模態能力提升遵循統一數學規律,為通用人工智能研發提供了可預測的優化路徑。
在機器人控制領域,Emu3展現出獨特優勢。在CALVIN基準測試中,該模型以87%成功率連續完成五個復雜任務,包括“拿起杯子-打開抽屜-放入物品”等需要視覺、語言與動作協同的操作。更引人注目的是其“世界模型”能力:僅憑烹飪視頻前兩秒,即可預測后續食材翻炒軌跡、手勢移動方向及蒸汽擴散模式。這種對物理世界動態的預測能力,被視為邁向高級人工智能的關鍵標志。
與海外同類研究相比,Emu3呈現出鮮明差異。meta的Chameleon雖采用類似統一架構,但性能與專用模型存在差距;OpenAI的Sora雖在視頻生成質量上領先,卻需額外模型實現內容理解;Google的Gemini依賴預訓練組件的整合策略,可能引入模態偏見。智源團隊選擇從零訓練的激進路線,雖計算成本更高,但實現了多模態知識的深度融合。更值得關注的是,研究團隊承諾開源關鍵技術,包括視覺分詞器、訓練代碼及預訓練權重,為全球科研社區提供了可復現的技術框架。
這項突破在產業應用層面同樣具有想象空間。單一模型架構可顯著降低多模態服務的部署成本,避免為不同功能維護多個專用模型。其統一的預測框架更可能催生新型交互形態:用戶可上傳產品視頻要求生成圖文說明書,或描述場景讓模型同步生成視頻并解答疑問。在教育、電商、醫療影像分析等垂直領域,統一處理圖像生成、內容解釋與問答的能力將帶來效率革命。盡管當前模型在推理速度、長視頻處理等方面仍需優化,但其展現的技術路徑已為行業指明新方向。










