小米公司今日宣布推出全新自研語音合成大模型Xiaomi MiMo-V2-TTS,這款集語音生成、情感表達與音樂演繹能力于一體的技術成果,標志著小米在智能語音領域實現重大突破。該模型突破傳統語音合成的單一功能限制,不僅能夠完成自然流暢的對話輸出,更具備專業級的歌唱表現力,可精準還原音高變化與節奏韻律。
技術架構層面,研發團隊創新性地采用自研Audio Tokenizer與多碼本聯合建模方案,通過超億小時的語音數據預訓練構建起龐大的聲學知識庫。配合多維度強化學習機制,模型在保持輸出穩定性的同時,實現了對語音風格、情感強度的精細化控制。實驗數據顯示,該系統可精準捕捉文本中的標點符號、語氣詞等隱含表達意圖,自動轉化為符合人類交流習慣的語音特征。
在情感表達維度,MiMo-V2-TTS展現出驚人的控制力。系統支持從整體語氣定調到局部情感波動的多層級調節,能夠在單句輸出中完成從平靜陳述到激動質問的自然過渡。針對歌唱場景開發的專用模塊,通過解析樂譜中的音符時值與強弱記號,可生成媲美專業歌手的演唱效果,在清唱測試中獲得92.3%的音準準確率。
方言支持能力成為該模型的另一大亮點。通過構建覆蓋東北官話、西南官話、中原官話、粵語及閩南語等五大方言區的語音數據庫,系統實現了對23種地方語音特征的精準建模。在角色扮演測試中,模型可根據文本內容自動切換方言語調,配合情感控制模塊生成極具地域特色的語音輸出。
據技術白皮書披露,該模型已實現與小米多模態理解系統MiMo-V2-Omni的初步融合。這種跨模態協同架構使AI代理在視覺感知的基礎上,能夠通過富有表現力的語音輸出實現更自然的人機交互。研發團隊透露,后續版本將擴展至日韓法德等15種外語,并優化多語言混合場景下的語音生成質量。
這項技術成果已應用于小米智能音箱、車載系統及機器人產品線,用戶可通過OTA升級體驗最新功能。在內部測試中,搭載該模型的設備在對話自然度評分中達到4.7分(滿分5分),較前代產品提升38%,特別是在情感表達豐富度和方言識別準確率等關鍵指標上表現突出。











