百度近日正式推出并上線了其原生全模態大模型文心5.0正式版,這一模型以2.4萬億參數的規模,成為當前全球參數規模最大的多模態大模型之一。與傳統的多模態方案不同,文心5.0采用原生全模態統一建模技術,將文本、圖像、視頻和音頻等多源數據在同一模型框架內聯合訓練,實現了多模態特征的原生融合與協同優化,從而具備了全模態理解與生成能力。
在技術架構上,文心5.0引入了超大規模混合專家結構,通過超稀疏激活參數設計,將激活參數比控制在3%以下,既保證了模型的強大能力,又顯著提升了推理效率。該模型還基于大規模工具環境合成長程任務軌跡數據,并采用端到端多輪強化學習訓練方法,進一步增強了智能體和工具調用能力。在權威基準評測中,文心5.0的語言與多模態理解能力已超越Gemini-2.5-Pro、GPT-5-High等國際主流模型,穩居全球第一梯隊,其圖像與視頻生成能力也達到垂直領域專精模型水平。
百度應用模型研發部負責人賈磊在發布會上強調,模型的價值最終體現在應用場景中。他指出,文心5.0的研發始終圍繞“跑得穩、答得對、用得起”的目標,致力于讓模型在真實場景中發揮實效。基于這一理念,百度構建了矩陣模型和專精模型兩大體系:矩陣模型面向通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型;專精模型則聚焦行業應用,如搜索閃電專精模型、電商蒸汽機模型、文心數字人大模型及行業大模型等。
在技術突破方面,賈磊分享了三項創新成果。首先是基于聲音Token的端到端合成大模型,該模型通過離散語音token定義、MoE大語言模型韻律建模、flow后處理譜分布描述以及Unet自重構特征vocoder等技術,實現了高質量聲音合成。其次是5分鐘超越真人的直播技術,通過少量音色采樣、臉譜化妝和韻律模式匹配,使合成語音具備直播帶貨所需的情緒感染力。最后是實時交互數字人技術,采用三態Token聯動架構,實現文本、語音、視頻的流式控制,并由聲音Token實時驅動表情與口型,輸出低延遲、高表現力的視頻流,百度羅永浩數字人即基于此技術開發。
為推動大模型在產業中的落地,百度千帆平臺推出了Agent Infra解決方案。該平臺集成文心5.0及150余個全場景SOAT模型服務,提供百度AI搜索等工具及MCP和Agent工具鏈,并結合數據管理和企業級服務,為企業構建全周期、多場景的業務運行環境。目前,千帆平臺已累計開發超130萬個Agents,以百度AI搜索為代表的工具日均調用量突破千萬次。此前,百度的數字人生成技術已在直播帶貨等領域廣泛應用,2025年羅永浩數字人直播曾創下行業紀錄。
作為國內大模型領域的先行者,百度正通過“芯云模體”全棧自研生態閉環,持續探索AI賦能行業的解決方案。這一生態以芯片為底座、智能云為平臺框架、模型為支撐,覆蓋從底層技術到上層應用的完整鏈條,為AI在真實世界中的落地提供了堅實基礎。當前,全球AI行業正加速進入應用深化階段,如何讓AI技術真正服務于行業需求,已成為行業共同關注的焦點。








