近日,國際頂級學術期刊《Nature》發表了一項來自中國團隊的重要研究成果——北京智源人工智能研究院推出的多模態大模型Emu3,為人工智能領域提出了一種全新的技術路徑。該模型通過“下一詞預測”這一簡潔機制,試圖統一視覺、聽覺、語言及行動等多模態能力,挑戰了當前主流的“專科化”模型設計范式,引發全球科研界廣泛關注。
傳統多模態模型通常采用“分而治之”策略:圖像生成、文字理解、視頻處理等任務由獨立模型完成,再通過復雜架構拼接。盡管這種方法在特定領域取得顯著成果,但模型間協同效率低、工程復雜度高的問題日益凸顯。Emu3則選擇了一條截然不同的道路——將所有模態數據統一轉換為離散符號序列,僅通過預測下一個符號的任務,實現跨模態能力的融合。這一設計靈感源于GPT-3等語言模型的成功經驗,但將其擴展至視覺和視頻領域面臨巨大挑戰:一張高分辨率圖像可能包含數十萬符號,計算負擔沉重;圖像的空間結構與視頻的時間連續性,也遠非線性文字可比。
研究團隊的核心突破在于開發了一種高效的“視覺分詞器”。該組件可將512×512圖像壓縮為4096個符號,壓縮比達64:1;視頻處理則在時間維度進一步壓縮4倍,僅用四分之一符號量即可達到與逐幀編碼相當的重建質量。更關鍵的是,分詞器通過三維卷積核同時捕捉空間與時間信息,使模型能夠真正理解視頻的動態本質,而非簡單堆砌靜態畫面。這一技術為后續訓練奠定了基礎。
Emu3的模型架構堪稱極簡主義的典范:僅使用一個從零訓練的decoder-only Transformer,詞匯表中新增32768個視覺符號,無需任何預訓練視覺編碼器或復雜模態融合機制。這種設計在實驗中展現出驚人效果:在圖像生成任務中,人類偏好評分超越擴散模型標桿Stable Diffusion XL;視覺語言理解基準測試平均分與復雜編碼器架構模型持平;視頻生成質量更超過專門設計的擴散模型。更引人注目的是,同一模型在生成與理解任務上均達到專業水平,打破了傳統架構中“擅長理解者不擅長生成”的局限。
研究團隊對規模定律的深入探索為成果提供了理論支撐。實驗表明,多模態學習與純語言模型遵循相似的數學規律:訓練數據量翻倍時,驗證損失以0.55指數下降,且不同模態共享同一套擴展指數。基于小規模模型數據,團隊準確預測了70億參數模型的性能,誤差不足3%。這一發現意味著,未來多模態能力提升可能無需針對每種模態單獨設計訓練策略,僅需擴大數據規模與模型參數即可自然涌現,為通用人工智能研發開辟了新路徑。
在機器人操控任務中,Emu3展現出跨模態理解的深層潛力。在CALVIN基準測試中,模型以87%成功率連續完成五個復雜任務,包括視覺感知、語言解析與動作規劃的協同。更令人印象深刻的是,給定烹飪視頻片段,模型可準確預測后續動作——食材翻炒方式、廚師手部移動軌跡乃至蒸汽升騰方向。這種“世界模型”能力被視為通向高級AI的關鍵,它使模型能夠理解物理世界因果關系,而非僅記憶靜態關聯。
與海外同類研究相比,Emu3的技術路線具有獨特優勢。meta的Chameleon雖同樣采用統一符號化與自回歸預測,但性能與專用模型存在差距;OpenAI的Sora在視頻生成質量上領先,卻需額外模型支持內容理解;Google的Gemini整合多模態但依賴預訓練組件,可能引入模態偏見。Emu3則通過從零訓練策略,實現了更純粹的多模態表征學習。研究團隊承諾開源關鍵技術與模型,包括視覺分詞器、訓練代碼及預訓練權重,為全球科研社區提供了可復現、可改進的技術基礎。
從產業應用視角看,Emu3的架構特性為商業化帶來獨特價值。其標準Transformer結構可復用現有推理基礎設施,支持低延遲、高吞吐服務;單一模型架構統一了圖像生成、視覺問答、視頻理解等多種能力,顯著降低運維復雜度與資源消耗。在教育、電商、醫療影像分析等領域,統一多模態模型可簡化工作流程,例如自動生成產品演示圖文、實時回答視頻內容問題等。盡管當前模型在推理速度、長視頻處理等方面仍存局限,但這些被視為工程優化問題,而非技術路線瓶頸。
這項研究不僅為多模態學習提供了新范式,更重新定義了人工智能的能力邊界。當預測任務從文字擴展至視覺與行動,當統一框架涌現出跨模態理解與創造能力,人們開始思考:智能的本質是否正是對下一個符號的預測?這種簡潔原則能否成為通向通用人工智能的鑰匙?Emu3的突破或許只是開始,但它已為AI的下一個十年指明了方向。











