近日,語音生成領域迎來重要進展,Qwen3-TTS全家桶正式開源上線,為開發者與用戶帶來功能全面的語音生成解決方案。該系列模型由Qwen團隊開發,支持音色克隆、音色創造、超高質量擬人化語音生成,以及基于自然語言描述的語音控制,覆蓋從創作到應用的完整需求。
技術層面,Qwen3-TTS通過創新的多碼本語音編碼器Qwen3-TTS-Tokenizer-12Hz,實現了對語音信號的高效壓縮與精準表征。這一設計不僅完整保留了副語言信息(如語調、重音)和聲學環境特征,還通過輕量級非DiT架構實現高速、高保真的語音還原。其Dual-Track雙軌建模技術進一步優化了生成效率,首包音頻的響應時間縮短至僅需一個字符的輸入,顯著提升了實時交互體驗。
開源模型包含1.7B和0.6B兩種參數規模,滿足不同場景需求。1.7B版本以極致性能見長,具備強大的控制能力,可精準匹配復雜指令;0.6B版本則在性能與效率間取得平衡,適合資源受限的輕量化應用。模型支持10種主流語言(包括中文、英文、日語、韓語等)及多種方言音色,覆蓋全球用戶需求,為跨語言應用提供技術支撐。
在功能擴展上,Qwen3-TTS展現出強大的上下文適應能力。模型可根據文本語義和用戶指令動態調整語氣、節奏與情感表達,例如將陳述句轉化為疑問語氣,或通過語速變化傳遞緊迫感。其對輸入文本噪聲(如錯別字、標點缺失)的魯棒性顯著提升,確保在非理想條件下仍能生成穩定、自然的語音輸出。目前,該系列模型已通過GitHub開源,并開放Qwen API接口供開發者快速集成。








