國際頂級學術期刊《自然》即將在紙質版刊發一項來自中國科研機構的重要成果——北京智源人工智能研究院研發的多模態大模型“通過預測下一個詞元進行多模態學習的多模態大模型”成功入選。這一突破標志著我國科研機構主導的大模型研究首次登上《自然》正刊,為生成式人工智能領域開辟了新路徑。
自2018年GPT通過“預測下一個詞元(NTP)”的自回歸技術實現語言大模型重大突破以來,生成式人工智能浪潮席卷全球。然而,多模態模型的發展長期依賴對比學習、擴散模型等獨立技術路線,自回歸路線能否成為統一多模態學習的通用方案,一直是學界懸而未決的難題。智源研究院提出的Emu3模型,以“預測下一個詞元”為核心,首次將圖像、文本和視頻數據統一離散化至同一表示空間,并通過單一Transformer架構實現多模態序列的聯合訓練,為這一難題提供了創新性解答。
Emu3模型的架構設計突破了傳統多模態模型的局限。研究團隊摒棄了針對不同模態分別訓練的思路,轉而構建了一個能夠同時處理文本、圖像和視頻的統一框架。通過將多模態數據轉化為離散詞元序列,模型在訓練過程中自動學習跨模態關聯,無需依賴外部對齊工具或預訓練模型。這一設計不僅簡化了模型結構,還顯著提升了計算效率,為原生多模態大模型的訓練提供了新范式。
實驗數據顯示,Emu3在生成與感知任務中展現出卓越性能。在文生圖任務中,其生成質量達到擴散模型水平;在視覺語言理解任務中,表現可與融合CLIP和大語言模型的主流方案媲美。更引人注目的是,Emu3突破了傳統視頻生成模型的局限,通過自回歸方式逐詞元預測視頻序列,實現了基于因果關系的視頻生成與延展。這一特性使其能夠初步模擬物理世界中的環境變化、人類行為和動物動作,為視頻生成領域帶來了新的可能性。
《自然》期刊編輯在點評中指出,Emu3模型僅憑“預測下一個詞元”這一簡單機制,便實現了文本、圖像和視頻的統一學習,其性能與使用專門路線的模型相當。這一成果不僅驗證了自回歸路線在多模態學習中的可行性,更為構建可擴展、統一的多模態智能系統奠定了基礎。研究團隊還開源了多項關鍵技術與模型代碼,為全球科研人員進一步探索多模態學習提供了重要資源。
據悉,Emu3模型的研發團隊在訓練過程中采用了大規模多模態序列混合數據集,覆蓋了文本、圖像和視頻的多種組合形式。通過聯合訓練,模型能夠自動捕捉不同模態之間的內在聯系,例如將圖像中的視覺元素與文本描述對應,或將視頻中的動作序列與語言指令關聯。這種跨模態理解能力使Emu3在機器人操作、多模態交互等復雜任務中具有潛在應用價值。











