滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

智源研究院Emu3登Nature：以“下一詞預測”解鎖多模態AI新范式

時間：2026-02-07 13:02:34 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

近日，頂級學術期刊《Nature》發表了一項來自中國團隊的重要研究成果——北京智源人工智能研究院提出的“Emu3”多模態大模型，為人工智能領域長期存在的核心命題提供了全新思路：能否通過統一框架讓機器同時掌握視覺、聽覺、語言和行動能力？這項突破不僅挑戰了主流技術路線，更在實驗中展現出超越專用模型的性能，引發全球科研界廣泛關注。

當前主流多模態模型多采用“拼裝式”架構：OpenAI的Sora依賴擴散模型生成視頻，Google的Gemini通過復雜編碼器整合模態，meta的Chameleon雖嘗試統一但性能受限。智源團隊則選擇了一條看似“返璞歸真”的道路——僅用“下一符號預測”這一基礎任務驅動模型學習。該理念源于語言模型的成功經驗：GPT-3已證明單純預測文本序列可涌現復雜推理能力，但將其擴展至圖像、視頻領域面臨雙重挑戰：視覺數據量遠超文本，且空間結構與時間連續性難以通過線性預測捕捉。

研究團隊的核心創新在于開發了專為動態視覺設計的“視覺分詞器”。該技術可將512×512圖像壓縮為4096個離散符號，視頻則在時間維度進一步壓縮4倍，同時保持關鍵信息。與傳統逐幀處理不同，其采用三維卷積核同步捕捉空間與時間特征，實驗顯示用四分之一符號量即可達到同等重建質量。這種設計使圖像、視頻與文本統一為符號序列，為單一Transformer架構處理多模態任務奠定基礎。

Emu3的模型結構堪稱極簡：僅包含一個從零訓練的解碼器Transformer，詞匯表擴展至32768個視覺符號與文本符號的混合體系。這種設計避免了主流模型中視覺編碼器與語言模型間的模態隔閡，所有能力均通過統一預測任務自然涌現。實驗數據顯示，該模型在圖像生成人類偏好評分中以70.0分超越Stable Diffusion XL（66.9分），視覺語言理解基準測試平均分達62.1，與復雜架構的LLaVA-1.6持平，視頻生成評分81.0分更超過專用模型Open-Sora-1.2（79.8分）。

研究團隊對規模定律的探索具有重要科學價值。通過系統分析不同模態數據擴展對模型性能的影響，發現文字-圖像、圖像-文字、文字-視頻等任務的驗證損失均遵循0.55的指數下降規律。基于小規模模型數據，研究準確預測了70億參數模型的性能，擬合優度超0.99且誤差不足3%。這一發現表明，多模態能力提升遵循統一數學規律，為通用人工智能研發提供了可預測的優化路徑。

在機器人控制領域，Emu3展現出獨特優勢。在CALVIN基準測試中，該模型以87%成功率連續完成五個復雜任務，包括“拿起杯子-打開抽屜-放入物品”等需要視覺、語言與動作協同的操作。更引人注目的是其“世界模型”能力：僅憑烹飪視頻前兩秒，即可預測后續食材翻炒軌跡、手勢移動方向及蒸汽擴散模式。這種對物理世界動態的預測能力，被視為邁向高級人工智能的關鍵標志。

與海外同類研究相比，Emu3呈現出鮮明差異。meta的Chameleon雖采用類似統一架構，但性能與專用模型存在差距；OpenAI的Sora雖在視頻生成質量上領先，卻需額外模型實現內容理解；Google的Gemini依賴預訓練組件的整合策略，可能引入模態偏見。智源團隊選擇從零訓練的激進路線，雖計算成本更高，但實現了多模態知識的深度融合。更值得關注的是，研究團隊承諾開源關鍵技術，包括視覺分詞器、訓練代碼及預訓練權重，為全球科研社區提供了可復現的技術框架。

這項突破在產業應用層面同樣具有想象空間。單一模型架構可顯著降低多模態服務的部署成本，避免為不同功能維護多個專用模型。其統一的預測框架更可能催生新型交互形態：用戶可上傳產品視頻要求生成圖文說明書，或描述場景讓模型同步生成視頻并解答疑問。在教育、電商、醫療影像分析等垂直領域，統一處理圖像生成、內容解釋與問答的能力將帶來效率革命。盡管當前模型在推理速度、長視頻處理等方面仍需優化，但其展現的技術路徑已為行業指明新方向。

更多>同類資訊

國產GPU雙雄轉型：技術突圍與生態構建并行，未來能否共拓全球市場？

02-07

馬斯克布局太空計算：100萬顆衛星構想，能否開啟算力新紀元？

02-07

春節寄件不用愁！多家快遞企業官宣“不打烊”，部分費用或有調整

02-07

阿里千問1分錢奶茶活動火爆：系統崩潰，外賣小哥忙取單，你搶到了嗎？

02-07

天涯社區擬2026年6月重啟，1999元服務包限量發售，邀您共建精神家園

02-07

千問免單活動熱度爆棚致系統擁擠，優惠期限延長至2月28日

02-07

?陶琳談馬斯克團隊來華：或聚焦SpaceX等項目，太空光伏概念引關注?

02-07

NASA宇航員將攜iPhone開啟深空之旅消費電子解鎖太空新場景

02-07

景林資產四季度調整科技股布局：減持英偉達，加碼谷歌拼多多

02-07

天涯社區擬2026年6月重啟，1999元限量服務包邀您共建“精神原鄉”

02-07

馬斯克暢談未來：太空AI將爆發，中國制造業優勢顯著

02-07

陶琳談馬斯克團隊來華：或聚焦SpaceX等項目，太空光伏概念引關注

02-07

蘋果iOS 26.4前瞻：Siri架構升級功能革新，或于4月正式與用戶見面

02-07

阿里五次投訴公眾號“千問”商標侵權，微信駁回，溝通解決或更妥當

02-07

特斯拉2026戰略規劃曝光：FSD入華暫無期，AI訓練與機器人量產成焦點

02-07

點擊查看更多 +

全站最新

史詩級行情，道指首破50000點！黃仁勛回應6600億質疑

B站百萬粉絲UP主高若翔涉損害商品聲譽案開庭，律師作無罪辯護并申請取保候審

極氪8X性能旗艦版登場：22英寸大寬胎配三電機運動風范拉滿

AITO問界牽手阿聯酋ADM 共拓中東高端新能源市場新藍海

從負債累累到季度盈利，蔚來跨越盈利門檻，未來發展前景可期

東方美學遇上科技豪華！長城魏牌V9X外觀官圖發布旗艦六座SUV來襲

熱門內容

本欄最新

B站百萬粉絲UP主高若翔涉損害商品聲譽案開庭，律師作無罪辯護并申請取保候審

寶馬2026中國布局：20款新車來襲，馬年版車型亮相，本地化再加碼

MWC將迎小米17 Ultra國際版：電池縮水但影像滿配，長焦新標桿來了

小米17國際版配色揭秘：全新綠色獨享性能影像雙升級亮點足

零跑汽車2026年銷量目標劍指105萬！高管放言：每款皆爆款，創新領跑車市

“金葉”鋪就振興路深耕治理聚民心——民樂村的靜默蛻變與希望答卷

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

智源研究院Emu3登Nature：以“下一詞預測”解鎖多模態AI新范式