滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

北京智源研究院Emu3模型登Nature：用“下一詞預測”解鎖多模態智能新路徑

時間：2026-02-07 11:37:06 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

近日，國際頂級學術期刊《Nature》發表了一項來自中國團隊的重要研究成果——北京智源人工智能研究院提出的“Emu3”多模態大模型，以顛覆性的技術路徑在AI領域引發廣泛關注。該模型通過“統一預測下一個符號”的極簡設計，首次實現了圖像生成、視頻理解、語言推理等跨模態任務的高水平協同，為通用人工智能（AGI）的發展開辟了新路徑。

傳統多模態模型往往采用“分而治之”的策略：圖像、視頻、語言分別由獨立模塊處理，再通過復雜工程拼接。這種模式雖在特定任務中表現優異，卻面臨協同效率低、跨模態推理能力弱等瓶頸。例如，OpenAI的Sora擅長視頻生成但難以理解內容，Google的Gemini整合多模態需依賴預訓練編碼器，而meta的Chameleon雖嘗試統一架構，性能仍落后于專用模型。Emu3則徹底摒棄這一思路，提出“所有模態均可轉化為符號序列”的核心假設，通過預測下一個符號實現跨模態學習。

這一突破的關鍵在于團隊設計的“視覺分詞器”。該組件能將512×512像素的圖像壓縮為4096個離散符號，視頻則在時間維度進一步壓縮4倍，同時保留98%以上的視覺信息。更創新的是，分詞器采用三維卷積核，可同步捕捉空間結構與時間動態，使模型無需逐幀處理即可理解視頻內容。實驗顯示，其重建質量與逐幀編碼相當，但符號使用量減少75%，為后續統一訓練奠定了基礎。

在模型架構上，Emu3采用極簡的decoder-only Transformer設計，僅通過擴大詞匯表（新增32768個視覺符號）將語言模型擴展至多模態領域。這種“無編碼器、無模態融合模塊”的架構，迫使模型在預測任務中自主學習跨模態關聯。測試結果表明，Emu3在圖像生成人類偏好評分（70.0）超越Stable Diffusion XL（66.9），視覺語言理解平均分（62.1）媲美LLaVA-1.6，視頻生成得分（81.0）超過Open-Sora-1.2，首次在生成與理解任務中同時達到專用模型水平。

論文更揭示了多模態學習的“規模定律”：當訓練數據量翻倍時，模型驗證損失以0.55的指數下降，且不同模態共享同一擴展規律。基于7億參數模型的實驗數據，研究團隊準確預測了更大模型的性能，誤差不足3%。這一發現意味著，未來無需為不同模態設計專屬訓練策略，僅需混合數據統一訓練即可實現能力自然涌現，大幅降低AGI研發門檻。

在機器人控制任務中，Emu3展現了跨模態推理的深層潛力。在CALVIN基準測試中，模型以87%的成功率連續完成“拿杯子-開抽屜-放置”等復雜操作，證明其能同步處理視覺感知、語言指令與動作規劃。更令人矚目的是其“世界模型”能力：僅憑烹飪視頻前兩秒，模型可準確預測后續食材翻炒軌跡、手勢移動方向及蒸汽擴散路徑，為物理世界理解提供了新范式。

與海外模型相比，Emu3的開放性優勢顯著。團隊承諾開源視覺分詞器、訓練代碼及預訓練權重，這與OpenAI對Sora的封閉策略形成鮮明對比。對于全球研究社區而言，這意味著一條可復現、可改進的技術路線正式誕生，有望加速多模態AI的普及與創新。

商業化層面，Emu3的統一架構帶來顯著效率提升。其核心模型可復用大語言模型的推理基礎設施，支持動態批處理、內存優化等技術，在保持生成質量的同時實現低延遲服務。單一模型替代多專用模型的部署模式，更可降低70%以上的運維成本。在教育、電商、醫療等領域，其跨模態交互能力已展現出變革潛力：例如自動生成產品演示視頻與說明書、同步處理醫療影像與報告分析等。

盡管Emu3仍面臨推理速度優化、長視頻處理等挑戰，但其核心價值已得到學術界高度認可。這項研究不僅為中國AI研究確立了原創性標桿，更通過“預測即智能”的哲學視角，重新定義了多模態學習的可能性——當所有模態轉化為符號序列，智能或許正是對下一個符號的連續探索。

更多>同類資訊

技術賦能抖音投流：黑虎AI破局傳統痛點，實現ROI與獲客雙提升

從實際應用表現來看，以黑虎AI為代表的智能化獲客平臺，其價值不僅體現在效率提升上，更在于對營銷策略的根本性重塑。通過采用類似黑虎AI所提供的一體化智能獲客解決方案，企業能夠系統性地解決內容創作、流量獲取、互…

02-07

智源Emu3登Nature：用“下一詞預測”開啟多模態AI統一新范式

這在頂級學術期刊上并非新鮮事，但這篇論文的分量卻非同尋常：它來自北京智源人工智能研究院，核心成果是一個名為“Emu3”的多模態大模型，而它試圖回答的問題，是整個AI領域過去五年來懸而未決的核心命題——我們能否…

02-07

技術賦能抖音直播投流：AI精準獲客引擎助力ROI躍升新路徑

其算法創新體現在兩個方面：一是全自動化觸達策略，通過軟件在平臺規則內，對預篩選用戶進行批量、合規的關注、私信等互動，引導其關注主播或進入直播間，測試顯示，這種預熱能將直播間的初始互動率提升30%以上；二是智能…

02-07

釘釘8.2.10版本發布：AI群聊升級，專屬AI小釘24小時在線助力高效溝通

02-07

新能源車碰撞后車門“失靈”引關注新國標出臺規范車門把手安全

根據調查認定，本次事故是車輛與貨車高速碰撞后引發。：2024年，山西運城一問界M7車輛高速追尾后，隱藏式門把手無法打開；2025年，小米SU7高速碰撞事故中，隱藏式門把手未被打開也成為外界的關注點之一。同時，…

02-07

B站百萬粉絲UP主高若翔涉損害商品聲譽案開庭，律師作無罪辯護并申請取保候審

高若翔團隊相關負責人告訴紅星資本局，辯護律師為高若翔作了無罪辯護，也提交了專家論證意見，高若翔本人也表態不認罪。據紅星資本局此前報道，2024年，高若翔團隊“耗資近百萬元”，安排小米SU7與極氪007進行…

02-07

肇源經濟開發區：冬日里企業生產忙共赴春日新希望

02-07

國產GPU雙雄：技術突圍與商業轉型并行，生態構建成破局關鍵

02-07

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

02-07

雷軍漂移秀小米SU7車技網友催更并期待新一代SU7上市

02-07

上市高管轉型創業，蘇州潤芯微科技獲近4億B+輪融資助力國產智能發展

02-07

蘋果iOS 26.4將至：Siri架構大升級，4月或迎AI新體驗

02-07

陶琳回應馬斯克團隊來華考察：非特斯拉相關

02-07

NASA終于松口：允許宇航員帶手機去月球

02-07

蘋果iOS 26.4前瞻：Siri史詩級重構，預估4月上線

02-07

點擊查看更多 +

全站最新

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

賓利Bentayga X概念車首發：豪華基因碰撞越野靈魂，探索新可能

比亞迪大唐來襲！定位高端全尺寸SUV，或成理想L9、問界M9有力對手

通用汽車2026年推新皮卡動力提升且更環保全新Silverado和Sierra將亮相

從天樞智能到鈉電戰略，長安汽車以安全為筆，繪就出行安心新畫卷

大眾途銳3.0TSI銳境版上市，豪華配置與強勁動力開啟中大型SUV新體驗

熱門內容

本欄最新

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

MWC將迎小米17 Ultra國際版：電池縮水但影像滿配，長焦新標桿來了

小米17國際版配色揭秘：全新綠色獨享性能影像雙升級亮點足

零跑汽車2026年銷量目標劍指105萬！高管放言：每款皆爆款，創新領跑車市

“金葉”鋪就振興路深耕治理聚民心——民樂村的靜默蛻變與希望答卷

工信部新批公告揭曉小米YU7 GT黑化登場極速300km/h上半年或發布

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

北京智源研究院Emu3模型登Nature：用“下一詞預測”解鎖多模態智能新路徑