百度近日宣布,其自主研發(fā)的原生全模態(tài)大模型文心5.0正式版已全面上線。這款模型擁有2.4萬億參數(shù)規(guī)模,通過原生全模態(tài)統(tǒng)一建模技術(shù),實現(xiàn)了對文本、圖像、音頻、視頻等多種信息類型的全面支持,既能理解也能生成多模態(tài)內(nèi)容。目前,個人用戶可通過文心APP或官網(wǎng)直接體驗,企業(yè)和開發(fā)者則可通過百度千帆平臺進(jìn)行調(diào)用。
在權(quán)威基準(zhǔn)測試中,文心5.0正式版展現(xiàn)出強(qiáng)勁實力。其語言與多模態(tài)理解能力超越Gemini-2.5-Pro、GPT-5-High等國際主流模型,穩(wěn)居全球第一梯隊;圖像與視頻生成能力則與垂直領(lǐng)域?qū)I(yè)模型相當(dāng),整體技術(shù)處于世界領(lǐng)先水平。這一成果標(biāo)志著中國在多模態(tài)大模型領(lǐng)域的技術(shù)突破。
百度集團(tuán)副總裁吳甜介紹,文心5.0采用獨特的自回歸架構(gòu)進(jìn)行原生全模態(tài)建模,將文本、圖像、視頻、音頻等多源數(shù)據(jù)在同一模型框架中聯(lián)合訓(xùn)練。這種技術(shù)路線使多模態(tài)特征在統(tǒng)一架構(gòu)下深度融合,實現(xiàn)了真正的全模態(tài)理解與生成,而非傳統(tǒng)方案的"后期融合"。模型通過超大規(guī)模混合專家結(jié)構(gòu)和超稀疏激活參數(shù)設(shè)計,激活參數(shù)比低于3%,在保持強(qiáng)大能力的同時顯著提升了推理效率。
基于大規(guī)模工具環(huán)境合成的長程任務(wù)軌跡數(shù)據(jù),以及思維鏈和行動鏈的端到端多輪強(qiáng)化學(xué)習(xí)訓(xùn)練,文心5.0的智能體和工具調(diào)用能力得到顯著增強(qiáng)。在應(yīng)用場景中,該模型展現(xiàn)出驚人實力:輸入一段復(fù)刻"活了么"App的教程視頻,它能自動拆解步驟、理解交互邏輯,并直接生成可運行的前端代碼;在創(chuàng)意寫作任務(wù)中,可模擬《紅樓夢》中王熙鳳的語言風(fēng)格,創(chuàng)作出融合古典語境與現(xiàn)代商業(yè)邏輯的"大觀園資產(chǎn)重組方案"。這些案例充分證明了模型在情境理解和創(chuàng)作方面的卓越能力。
為持續(xù)提升模型質(zhì)量,百度同步推進(jìn)"文心導(dǎo)師"計劃。目前已有835位來自科技、金融、文化、教育、醫(yī)療、能源等重點行業(yè),以及數(shù)理化生文史哲等學(xué)科的專家加入導(dǎo)師隊伍。他們在知識傳授、鑒賞評價、專業(yè)校準(zhǔn)等方面為模型提供指導(dǎo),幫助其在邏輯嚴(yán)謹(jǐn)性、專業(yè)深度、創(chuàng)意質(zhì)量和價值觀對齊等方面不斷優(yōu)化。
回顧發(fā)展歷程,文心5.0系列模型自2025年11月發(fā)布Preview版本以來,已在LMArena全球大模型競技場多次取得優(yōu)異成績,長期位居文本榜和視覺理解榜國內(nèi)第一,躋身國際第一梯隊。最新數(shù)據(jù)顯示,1月15日文心5.0以1460分位列LMArena文本榜國內(nèi)第一、全球第八,超越GPT-5.1-High、Gemini-2.5-Pro等多款國內(nèi)外主流模型。這一系列成就體現(xiàn)了中國模型廠商在多模態(tài)大模型底層技術(shù)的自主創(chuàng)新能力,有助于提升中國AI在全球產(chǎn)業(yè)競爭中的技術(shù)話語權(quán)。







