小米公司今日宣布,其自主研發(fā)的MiMo大模型系列迎來重大更新,推出旗艦基座大模型MiMo-V2-Pro、全模態(tài)Agent模型MiMo-V2-Omni以及語音合成大模型MiMo-V2-TTS。此次更新聚焦于提升智能體能力,旨在為用戶提供更高效、更智能的交互體驗。
MiMo-V2-Pro作為旗艦基座模型,總參數(shù)量超過1T,激活參數(shù)量達到42B,支持100萬上下文長度。該模型在編程Agent、通用Agent和工具使用方面展現(xiàn)出強大能力,性能與Claude Sonnet 4.6、GPT 5.2、Gemini 3.0 Pro等國際領先模型相近。在OpenClaw標準評測榜單PinchBench和Claw-eval上,MiMo-V2-Pro排名第三,僅次于Claude Sonnet 4.6和Claude Opus 4.6。MiMo-V2-Pro的API定價僅為Claude Opus 4.6的1/5,具有顯著的價格優(yōu)勢。
全模態(tài)基座模型MiMo-V2-Omni則專注于多模態(tài)交互與執(zhí)行場景,支持文本、視覺、語音全模態(tài)輸入。該模型在音頻理解、圖像理解和視頻理解方面均表現(xiàn)出色,能夠跨模態(tài)理解復雜環(huán)境、自主制定并執(zhí)行計劃,并在遇到異常時實時修正策略。例如,MiMo-V2-Omni可以像人一樣操控瀏覽器,根據(jù)用戶指令在小紅書查找信息、在京東比價下單,甚至與客服砍價。該模型還支持接入WPS Office,通過自然語言指令直接生成Word、Excel、PPT和PDF等文檔。
語音合成大模型MiMo-V2-TTS則致力于讓智能體擁有更自然、更富有情感的聲音。該模型基于小米自研的Audio Tokenizer和多碼本語音-文本聯(lián)合建模架構,經(jīng)過上億小時語音數(shù)據(jù)的大規(guī)模預訓練和多維度強化學習,實現(xiàn)了高度可控的多粒度語音風格控制。MiMo-V2-TTS支持多方言、多角色、多語氣生成,能夠智能識別文本中的標點符號、語氣詞和強調標記,并將其轉化為恰當?shù)恼Z音表達。該模型還支持高質量的歌聲合成,讓智能體既能說、能演,也能唱。
據(jù)悉,MiMo-V2-Pro和MiMo-V2-Omni的早期測試版曾以匿名模型Hunter Alpha和Healer Alpha的身份在全球最大API聚合平臺OpenRouter上引發(fā)熱議,其API調用量多天登頂日榜。目前,這兩個匿名模型仍在OpenRouter向開發(fā)者免費開放。MiMo-V2-Pro和MiMo-V2-Omni還將聯(lián)合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等智能體開發(fā)框架團隊,為全球開發(fā)者提供為期一周的限時免費接口支持。










