鳳凰網科技訊 3月2日,阿里通義實驗室語音團隊發布兩款支持FreeStyle指令生成的模型Fun-CosyVoice3.5與Fun-AudioGen-VD。
官方宣稱,無論是精細控制聲音表達,還是從零設計音色與場景,都可以通過自然語言指令直接生成。
其中,Fun-CosyVoice3.5應用方向為多語種復刻+精細化表達控制:用戶可以直接用自然語言描述表達方式,例如:“語氣堅定一點”、“稍微壓低音調,語速慢一點”、“帶一點情緒起伏”...... 模型即可理解并生成相應表達。針對生僻字、復雜語句等容易讀錯的場景專項優化,Fun-CosyVoice3.5生僻字讀錯率從15.2%降至5.3%,
Fun-AudioGen-VD則主打聲音設計+場景化音頻生成。支持根據自然語言描述,生成目標音色、情緒表達和完整聽覺場景,Fun-AudioGen-VD不僅能生成聲音,還能生成聲音所處的“世界”,打造沉浸式聽覺場景。











