近日,小米下一代 Kaldi 團隊(k2-fsa)正式開源 OmniVoice,這是一款支持超過600種語言的超大規模多語言零樣本文本轉語音(TTS)模型,在中英文及多語言基準測試中多項關鍵指標達到 SOTA(State-of-the-Art),為語音合成領域帶來全新突破。
性能指標領先:中文 WER 低至0.84%,多語言超越主流商用模型
在 Seed-TTS 中文測試集上,OmniVoice 的詞錯誤率(WER)僅為0.84%。在多語言 benchmark 上,其相似度(SIM-o)和 WER 指標均超過 ElevenLabs v2和 MiniMax 等知名模型,展現出卓越的語音自然度和清晰度。
極速推理:RTF 低至0.025,合成速度比實時快40倍
OmniVoice 的實時因子(RTF)低至0.025,意味著合成速度遠超實時需求,效率提升顯著。這使得模型在實際應用中能夠快速生成長文本語音,極大提升用戶體驗。
核心架構創新:擴散語言模型風格的離散非自回歸設計
OmniVoice 采用擴散語言模型風格的離散非自回歸架構,可直接從文本一步生成語音,跳過傳統的中間語義 token 階段。這一設計顯著簡化了流程,同時保證了語音質量。全碼本隨機掩碼策略結合預訓練 LLM 初始化,進一步提升了訓練效率和最終輸出的清晰度與可懂度。
靈活語音克隆與定制:3-10秒參考音頻即可實現
模型支持使用3-10秒的短參考音頻進行高品質零樣本語音克隆。用戶還可以通過自然語言描述自定義聲音屬性,包括性別、年齡、音調、口音、方言等,甚至可以生成耳語風格等特殊效果。
支持非語言符號與精細發音控制
OmniVoice 能夠處理非語言符號,例如[laughter]表示笑聲,還支持通過拼音或音標進行發音糾正,特別適合中文及方言的精準合成。
600+ 語種覆蓋:助力小語種與瀕危語言數字化保護
OmniVoice 的最大亮點在于其廣泛的語言覆蓋范圍,從主流語種到眾多低資源語言均能高效支持。對于小語種和瀕危語言而言,只需少量樣本即可生成高質量語音,這對語言文化的數字化保存和保護具有重要意義。
OmniVoice 的代碼和預訓練模型已在 GitHub 和 Hugging Face 上開源,開發者可輕松本地部署或集成應用。AIbase 將持續關注 OmniVoice 的社區反饋與實際使用案例,歡迎開發者分享更多體驗。
項目地址:https://github.com/k2-fsa/OmniVoice











