滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

智源研究院Emu3模型登《自然》：自回歸路線統一多模態學習獲突破

時間：2026-01-30 03:05:52 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

國際頂級學術期刊《自然》即將在紙質版刊發一項來自中國科研機構的重要成果——北京智源人工智能研究院研發的多模態大模型“通過預測下一個詞元進行多模態學習的多模態大模型”成功入選。這一突破標志著我國科研機構主導的大模型研究首次登上《自然》正刊，為生成式人工智能領域開辟了新路徑。

自2018年GPT通過“預測下一個詞元（NTP）”的自回歸技術實現語言大模型重大突破以來，生成式人工智能浪潮席卷全球。然而，多模態模型的發展長期依賴對比學習、擴散模型等獨立技術路線，自回歸路線能否成為統一多模態學習的通用方案，一直是學界懸而未決的難題。智源研究院提出的Emu3模型，以“預測下一個詞元”為核心，首次將圖像、文本和視頻數據統一離散化至同一表示空間，并通過單一Transformer架構實現多模態序列的聯合訓練，為這一難題提供了創新性解答。

Emu3模型的架構設計突破了傳統多模態模型的局限。研究團隊摒棄了針對不同模態分別訓練的思路，轉而構建了一個能夠同時處理文本、圖像和視頻的統一框架。通過將多模態數據轉化為離散詞元序列，模型在訓練過程中自動學習跨模態關聯，無需依賴外部對齊工具或預訓練模型。這一設計不僅簡化了模型結構，還顯著提升了計算效率，為原生多模態大模型的訓練提供了新范式。

實驗數據顯示，Emu3在生成與感知任務中展現出卓越性能。在文生圖任務中，其生成質量達到擴散模型水平；在視覺語言理解任務中，表現可與融合CLIP和大語言模型的主流方案媲美。更引人注目的是，Emu3突破了傳統視頻生成模型的局限，通過自回歸方式逐詞元預測視頻序列，實現了基于因果關系的視頻生成與延展。這一特性使其能夠初步模擬物理世界中的環境變化、人類行為和動物動作，為視頻生成領域帶來了新的可能性。

《自然》期刊編輯在點評中指出，Emu3模型僅憑“預測下一個詞元”這一簡單機制，便實現了文本、圖像和視頻的統一學習，其性能與使用專門路線的模型相當。這一成果不僅驗證了自回歸路線在多模態學習中的可行性，更為構建可擴展、統一的多模態智能系統奠定了基礎。研究團隊還開源了多項關鍵技術與模型代碼，為全球科研人員進一步探索多模態學習提供了重要資源。

據悉，Emu3模型的研發團隊在訓練過程中采用了大規模多模態序列混合數據集，覆蓋了文本、圖像和視頻的多種組合形式。通過聯合訓練，模型能夠自動捕捉不同模態之間的內在聯系，例如將圖像中的視覺元素與文本描述對應，或將視頻中的動作序列與語言指令關聯。這種跨模態理解能力使Emu3在機器人操作、多模態交互等復雜任務中具有潛在應用價值。

更多>同類資訊

AI開發者馴化OpenClaw：在理想與現實間探索通用智能體新可能

02-10

蘋果2026年推紅外攝像頭AirPods Pro：以視覺智能拓展AI生態新版圖

02-10

維信諾攜手清華北大研發全球首款FLEXI柔性存算芯片填補技術空白

02-10

OpenAI免費版ChatGPT測試廣告付費用戶無影響且月度增長超10%

02-10

奧特曼宣布：Codex App上線一周下載量破百萬，用戶總數增超60%

02-10

哥大博士突破機器人交互瓶頸：唇部同步技術讓機器人臉告別“面癱” 跨11國語言

1 月 15 日，Science Robotics 封面刊發了胡宇航團隊關于 Emo面部機器人的研究，展示了其如何通過學習實現與語音、歌曲同步的唇部運動，這也是 Science Robotics 首次將人…

02-10

全球首個人形機器人格斗聯賽官宣 16支勁旅角逐冠軍將獲千萬純金腰帶

現場介紹，此次賽事以眾擎機器人的人形機器人為標準競技載體，進行開源開放、安全非暴力的賽事。據了解，眾擎旗下的T800人形機器人于2025年12月發布，定價18萬元起。值得一提的是，在2025科技風云榜年…

02-10

硅谷996現象蔓延：工作強度攀升或致創新力枯竭與行業危機

02-10

網傳對AI說“謝謝”浪費資源？實測主流大模型：影響甚微可放心表達

02-10

蘋果與人大攜手：VSSFlow模型突破傳統，無聲視頻秒變有聲精彩大片

02-10

全球首個人形機器人格斗聯賽官宣 16強角逐千萬純金腰帶

現場介紹，此次賽事以眾擎機器人的人形機器人為標準競技載體，進行開源開放、安全非暴力的賽事。據了解，眾擎旗下的T800人形機器人于2025年12月發布，定價18萬元起。值得一提的是，在2025科技風云榜年…

02-10

996在美國硅谷蔓延科學家警告：人真的會被拖垮

02-10

“不要對AI說謝謝”瘋傳實測多個大模型：放心大膽用

02-10

上海影院新探索：AI機器人“入職”，多元業態融合開啟觀影新體驗

02-10

蘋果系統更新路線曝光：iOS 26.4本月測試在即，iOS 27將深耕AI與系統優化

預計 iOS 26.4 版本將首次在真實系統中展示部分在 WWDC 2024 上承諾的個性化 Siri 功能以及其他一些改進。蘋果 AI相關能力已經被期待了很長時間，而從目前的信息來看，iOS 26.4 …

02-10

點擊查看更多 +

全站最新

小紅書上線語音問一問：以真人經驗為基，拓展搜索新邊界與商業潛力

Seedance2.0：AI視頻生成新突破，多場景落地催生產業新機遇

臺股漲近2%，再創歷史新高

離岸人民幣兌美元升破6.91，續創2023年5月以來新高

A股CPO概念股普漲，長飛光纖漲超8%

中核國際(02302.HK)把握核能新周期

熱門內容

本欄最新

時代智能攜手地平線，軟硬協同共探新能源汽車智能化新路徑

寒假新體驗！湖北省科技館攜手特斯拉，引領青少年探索科技新世界

科技豪華雙引領！騰勢D9三連冠重塑全球高端MPV市場新格局

時代智能攜手地平線軟硬協同探索新能源汽車完整智能化新路徑

極映科技：AI重構物理仿真范式，工業創新“天花板”如何被擊穿？

2025年我國互聯網發展成果豐碩：網民超11億生成式AI用戶達6億

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

智源研究院Emu3模型登《自然》：自回歸路線統一多模態學習獲突破