滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

智源Emu3登Nature：用“下一詞預測”開啟多模態AI統一新范式

時間：2026-02-07 11:27:48 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

近日，國際頂級學術期刊《Nature》發表了一項來自中國團隊的重要研究成果——北京智源人工智能研究院推出的多模態大模型Emu3，為人工智能領域提出了一種全新的技術路徑。該模型通過“下一詞預測”這一簡潔機制，試圖統一視覺、聽覺、語言及行動等多模態能力，挑戰了當前主流的“專科化”模型設計范式，引發全球科研界廣泛關注。

傳統多模態模型通常采用“分而治之”策略：圖像生成、文字理解、視頻處理等任務由獨立模型完成，再通過復雜架構拼接。盡管這種方法在特定領域取得顯著成果，但模型間協同效率低、工程復雜度高的問題日益凸顯。Emu3則選擇了一條截然不同的道路——將所有模態數據統一轉換為離散符號序列，僅通過預測下一個符號的任務，實現跨模態能力的融合。這一設計靈感源于GPT-3等語言模型的成功經驗，但將其擴展至視覺和視頻領域面臨巨大挑戰：一張高分辨率圖像可能包含數十萬符號，計算負擔沉重；圖像的空間結構與視頻的時間連續性，也遠非線性文字可比。

研究團隊的核心突破在于開發了一種高效的“視覺分詞器”。該組件可將512×512圖像壓縮為4096個符號，壓縮比達64:1；視頻處理則在時間維度進一步壓縮4倍，僅用四分之一符號量即可達到與逐幀編碼相當的重建質量。更關鍵的是，分詞器通過三維卷積核同時捕捉空間與時間信息，使模型能夠真正理解視頻的動態本質，而非簡單堆砌靜態畫面。這一技術為后續訓練奠定了基礎。

Emu3的模型架構堪稱極簡主義的典范：僅使用一個從零訓練的decoder-only Transformer，詞匯表中新增32768個視覺符號，無需任何預訓練視覺編碼器或復雜模態融合機制。這種設計在實驗中展現出驚人效果：在圖像生成任務中，人類偏好評分超越擴散模型標桿Stable Diffusion XL；視覺語言理解基準測試平均分與復雜編碼器架構模型持平；視頻生成質量更超過專門設計的擴散模型。更引人注目的是，同一模型在生成與理解任務上均達到專業水平，打破了傳統架構中“擅長理解者不擅長生成”的局限。

研究團隊對規模定律的深入探索為成果提供了理論支撐。實驗表明，多模態學習與純語言模型遵循相似的數學規律：訓練數據量翻倍時，驗證損失以0.55指數下降，且不同模態共享同一套擴展指數。基于小規模模型數據，團隊準確預測了70億參數模型的性能，誤差不足3%。這一發現意味著，未來多模態能力提升可能無需針對每種模態單獨設計訓練策略，僅需擴大數據規模與模型參數即可自然涌現，為通用人工智能研發開辟了新路徑。

在機器人操控任務中，Emu3展現出跨模態理解的深層潛力。在CALVIN基準測試中，模型以87%成功率連續完成五個復雜任務，包括視覺感知、語言解析與動作規劃的協同。更令人印象深刻的是，給定烹飪視頻片段，模型可準確預測后續動作——食材翻炒方式、廚師手部移動軌跡乃至蒸汽升騰方向。這種“世界模型”能力被視為通向高級AI的關鍵，它使模型能夠理解物理世界因果關系，而非僅記憶靜態關聯。

與海外同類研究相比，Emu3的技術路線具有獨特優勢。meta的Chameleon雖同樣采用統一符號化與自回歸預測，但性能與專用模型存在差距；OpenAI的Sora在視頻生成質量上領先，卻需額外模型支持內容理解；Google的Gemini整合多模態但依賴預訓練組件，可能引入模態偏見。Emu3則通過從零訓練策略，實現了更純粹的多模態表征學習。研究團隊承諾開源關鍵技術與模型，包括視覺分詞器、訓練代碼及預訓練權重，為全球科研社區提供了可復現、可改進的技術基礎。

從產業應用視角看，Emu3的架構特性為商業化帶來獨特價值。其標準Transformer結構可復用現有推理基礎設施，支持低延遲、高吞吐服務；單一模型架構統一了圖像生成、視覺問答、視頻理解等多種能力，顯著降低運維復雜度與資源消耗。在教育、電商、醫療影像分析等領域，統一多模態模型可簡化工作流程，例如自動生成產品演示圖文、實時回答視頻內容問題等。盡管當前模型在推理速度、長視頻處理等方面仍存局限，但這些被視為工程優化問題，而非技術路線瓶頸。

這項研究不僅為多模態學習提供了新范式，更重新定義了人工智能的能力邊界。當預測任務從文字擴展至視覺與行動，當統一框架涌現出跨模態理解與創造能力，人們開始思考：智能的本質是否正是對下一個符號的預測？這種簡潔原則能否成為通向通用人工智能的鑰匙？Emu3的突破或許只是開始，但它已為AI的下一個十年指明了方向。

更多>同類資訊

技術賦能抖音直播投流：AI精準獲客引擎助力ROI躍升新路徑

其算法創新體現在兩個方面：一是全自動化觸達策略，通過軟件在平臺規則內，對預篩選用戶進行批量、合規的關注、私信等互動，引導其關注主播或進入直播間，測試顯示，這種預熱能將直播間的初始互動率提升30%以上；二是智能…

02-07

釘釘8.2.10版本發布：AI群聊升級，專屬AI小釘24小時在線助力高效溝通

02-07

新能源車碰撞后車門“失靈”引關注新國標出臺規范車門把手安全

根據調查認定，本次事故是車輛與貨車高速碰撞后引發。：2024年，山西運城一問界M7車輛高速追尾后，隱藏式門把手無法打開；2025年，小米SU7高速碰撞事故中，隱藏式門把手未被打開也成為外界的關注點之一。同時，…

02-07

B站百萬粉絲UP主高若翔涉損害商品聲譽案開庭，律師作無罪辯護并申請取保候審

高若翔團隊相關負責人告訴紅星資本局，辯護律師為高若翔作了無罪辯護，也提交了專家論證意見，高若翔本人也表態不認罪。據紅星資本局此前報道，2024年，高若翔團隊“耗資近百萬元”，安排小米SU7與極氪007進行…

02-07

肇源經濟開發區：冬日里企業生產忙共赴春日新希望

02-07

國產GPU雙雄：技術突圍與商業轉型并行，生態構建成破局關鍵

02-07

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

02-07

雷軍漂移秀小米SU7車技網友催更并期待新一代SU7上市

02-07

上市高管轉型創業，蘇州潤芯微科技獲近4億B+輪融資助力國產智能發展

02-07

蘋果iOS 26.4將至：Siri架構大升級，4月或迎AI新體驗

02-07

陶琳回應馬斯克團隊來華考察：非特斯拉相關

02-07

NASA終于松口：允許宇航員帶手機去月球

02-07

蘋果iOS 26.4前瞻：Siri史詩級重構，預估4月上線

02-07

特斯拉交流會，陶琳首次披露：關于FSD入華等最新細節

02-07

陶琳回應馬斯克團隊來華考察：不是關于特斯拉，可能是 SpaceX 或其他項目

2 月 6 日消息，據華爾街見聞報道，特斯拉副總裁陶琳于 2 月 6 日在北京交流會上公布了公司 2026 年戰略方向。近期馬斯克團隊來華考察供應鏈一事引發廣泛關注，陶琳表示，應該不是關于特斯拉的，可能是 SpaceX 或其他項目。關于供應鏈，特斯拉采取全球采購策略，只要某

02-07

點擊查看更多 +

全站最新

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

賓利Bentayga X概念車首發：豪華基因碰撞越野靈魂，探索新可能

比亞迪大唐來襲！定位高端全尺寸SUV，或成理想L9、問界M9有力對手

通用汽車2026年推新皮卡動力提升且更環保全新Silverado和Sierra將亮相

從天樞智能到鈉電戰略，長安汽車以安全為筆，繪就出行安心新畫卷

大眾途銳3.0TSI銳境版上市，豪華配置與強勁動力開啟中大型SUV新體驗

熱門內容

本欄最新

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

MWC將迎小米17 Ultra國際版：電池縮水但影像滿配，長焦新標桿來了

小米17國際版配色揭秘：全新綠色獨享性能影像雙升級亮點足

零跑汽車2026年銷量目標劍指105萬！高管放言：每款皆爆款，創新領跑車市

“金葉”鋪就振興路深耕治理聚民心——民樂村的靜默蛻變與希望答卷

工信部新批公告揭曉小米YU7 GT黑化登場極速300km/h上半年或發布

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

智源Emu3登Nature：用“下一詞預測”開啟多模態AI統一新范式