滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

小米重磅開源！OmniVoice 覆蓋 600+ 語種零樣本語音克隆 TTS：WER 僅 0.84%、速度快 40 倍，小語種也能輕松復活

時間：2026-04-09 18:44:21 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

近日，小米下一代 Kaldi 團隊（k2-fsa）正式開源 OmniVoice，這是一款支持超過600種語言的超大規模多語言零樣本文本轉語音(TTS)模型，在中英文及多語言基準測試中多項關鍵指標達到 SOTA(State-of-the-Art)，為語音合成領域帶來全新突破。

性能指標領先:中文 WER 低至0.84%，多語言超越主流商用模型

在 Seed-TTS 中文測試集上，OmniVoice 的詞錯誤率（WER）僅為0.84%。在多語言 benchmark 上，其相似度(SIM-o)和 WER 指標均超過 ElevenLabs v2和 MiniMax 等知名模型，展現出卓越的語音自然度和清晰度。

極速推理:RTF 低至0.025，合成速度比實時快40倍

OmniVoice 的實時因子（RTF）低至0.025，意味著合成速度遠超實時需求，效率提升顯著。這使得模型在實際應用中能夠快速生成長文本語音，極大提升用戶體驗。

核心架構創新:擴散語言模型風格的離散非自回歸設計

OmniVoice 采用擴散語言模型風格的離散非自回歸架構，可直接從文本一步生成語音，跳過傳統的中間語義 token 階段。這一設計顯著簡化了流程，同時保證了語音質量。全碼本隨機掩碼策略結合預訓練 LLM 初始化，進一步提升了訓練效率和最終輸出的清晰度與可懂度。

靈活語音克隆與定制:3-10秒參考音頻即可實現

模型支持使用3-10秒的短參考音頻進行高品質零樣本語音克隆。用戶還可以通過自然語言描述自定義聲音屬性，包括性別、年齡、音調、口音、方言等，甚至可以生成耳語風格等特殊效果。

支持非語言符號與精細發音控制

OmniVoice 能夠處理非語言符號，例如[laughter]表示笑聲，還支持通過拼音或音標進行發音糾正，特別適合中文及方言的精準合成。

600+ 語種覆蓋:助力小語種與瀕危語言數字化保護

OmniVoice 的最大亮點在于其廣泛的語言覆蓋范圍，從主流語種到眾多低資源語言均能高效支持。對于小語種和瀕危語言而言，只需少量樣本即可生成高質量語音，這對語言文化的數字化保存和保護具有重要意義。

OmniVoice 的代碼和預訓練模型已在 GitHub 和 Hugging Face 上開源，開發者可輕松本地部署或集成應用。AIbase 將持續關注 OmniVoice 的社區反饋與實際使用案例，歡迎開發者分享更多體驗。

項目地址：https://github.com/k2-fsa/OmniVoice

更多>同類資訊

誰在喂養 AI?研究發現聊天機器人25% 的引言“搬運”自新聞報道

04-09

宇樹新款機器人R1 現身阿里園區，“樹賣通”項目浮出水面

04-09

未來三年大洗牌：波士頓咨詢預測超半數美國崗位將被AI重塑

04-09

REDMI K90 Max高溫購機補貼上線：最高補貼1200元回收發熱手機

04-09

谷歌發布 Gemini「notebooks」功能：跨平臺深度管理項目實戰

04-09

知行合一：智元發布具身大模型 GO-2 刷新機器人性能標桿

04-09

阿里云百煉上線“記憶庫”功能:支持跨會話記憶，檢索性能提升50%

04-09

AI新模型能挖0-day漏洞，網絡攻防或迎“人機混合雙打”時代？

04-09

北京亦莊：無人車穿梭、機器人夜跑，未來感生活已照進現實

04-09

HappyHorse-1.0強勢登頂AI視頻榜！多賽道碾壓對手，技術突破引期待

04-09

特斯拉Cybercab量產新進展：60臺帶方向盤實車亮相得州工廠

04-09

CocoLoop龍蝦理財競賽開啟，人與Agent同臺競技共赴財富新體驗

04-09

特斯拉傳奇落幕：Model S與Model X庫存告急，最后珍藏機會來了

04-09

大三學生徐為先：用AI加速AI進化，探索科研新范式與未來之路

04-09

硅谷團隊打造CREAO：讓AI Agent告別高門檻，普通人也能輕松“駕馭”

04-09

點擊查看更多 +

全站最新

大曝光！國家隊買入這些ETF

Meta殺回大模型主桌！扎克伯格打響AI翻身仗？

極光發布Modellix.ai：打通全球頂尖模型，重構下一代AI媒體生成

龍虎榜丨東山精密兩連板創新高，深股通凈買入2.92億元，一機構凈買入2.38億元

美股異動丨優信盤前漲5% 機構料其CY2025-2027E收入高增長

港股收評：恒科指大跌2%！黃金股承壓，鋁業股逆勢走高

熱門內容

本欄最新

PearlError-包含視頻過濾

推理經濟崛起：國產芯片迎新機遇，AI產業利潤分配格局重塑

SCRM深度賦能：解鎖電商私域流量高效管理新路徑與增長策略

京東開源JoyAI-Image-Edit圖像模型：攻克空間難題，賦能多元領域應用

B站上線播放頁暫停廣告：商業化嘗試再引熱議，理想現實如何平衡？

字節跳動Seeduplex全雙工語音模型上線，豆包通話實現邊聽邊講更自然

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

小米重磅開源！OmniVoice 覆蓋 600+ 語種零樣本語音克隆 TTS：WER 僅 0.84%、速度快 40 倍，小語種也能輕松復活