阿里通義實驗室語音團隊近日宣布推出兩款創新模型——Fun-CosyVoice3.5與Fun-AudioGen-VD,這兩款模型均支持通過自然語言指令實現FreeStyle生成,為語音技術領域帶來新的突破。
Fun-CosyVoice3.5專注于多語種復刻與精細化表達控制。用戶只需用日常語言描述期望的語音特征,如“語氣更堅定”、“降低音調并放慢語速”或“增加情緒波動”,模型便能精準理解并生成符合要求的語音。針對生僻字和復雜語句的發音難題,該模型經過專項優化,生僻字讀錯率從原先的15.2%大幅下降至5.3%,顯著提升了語音輸出的準確性。
另一款模型Fun-AudioGen-VD則側重于聲音設計與場景化音頻生成。它能夠根據自然語言描述,不僅生成特定的音色和情緒表達,還能構建完整的聽覺場景。這一功能使得用戶能夠創造出沉浸式的音頻體驗,仿佛聲音本身就存在于一個真實的世界之中。
兩款模型的推出,標志著語音技術在自然語言交互和場景化應用方面邁出了重要一步。它們不僅簡化了語音生成的流程,還極大地拓展了語音技術的應用范圍,為內容創作者、教育工作者以及娛樂產業提供了更多可能性。








