YouTube近日宣布對其人工智能配音功能進行重大升級,推出名為“Expressive Speech(情緒化語音)”的新技術,支持英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語和西班牙語八種語言。這一創新旨在解決此前AI配音被詬病的“語調單一、缺乏情感”問題,通過更自然的語音表現提升用戶體驗。
據YouTube配音產品負責人介紹,Expressive Speech功能由YouTube與Google DeepMind聯合開發,通過分析原始視頻中的音高、語調、節奏和能量等特征,將這些元素精準映射到AI配音中,使合成語音更接近人類表達方式。該功能自2025年6月向全球創作者開放以來,雖因初期語音偏“機器人化”引發爭議,但經過持續優化已顯著改善。
為提升功能實用性,YouTube同步推出“Automatic Smart Filtering(自動智能過濾)”系統。該系統可自動識別純音樂視頻、無對白Vlog等不適合AI配音的內容,避免不必要的語音合成,從而優化整體使用體驗。平臺數據顯示,自動配音視頻的平均觀看時長已達到原語言視頻的75%,顯示非母語用戶對多語言內容的接受度較高。
在用戶選擇權方面,YouTube新增“Preferred Language(偏好語言)”設置,允許觀眾選擇始終觀看原始語言版本,而非默認切換至AI配音。創作者也獲得更大控制權,可自行上傳多語言音軌替代或補充AI配音,滿足多樣化創作需求。這些調整體現了YouTube“在擴展AI能力的同時保障人工干預空間”的承諾。
技術擴展方面,YouTube透露正研發自動口型同步(lip sync)功能,目前已在小范圍創作者中測試。未來Expressive Speech技術還將支持更多語言,進一步打破語言壁壘。平臺強調,AI配音不會影響視頻在推薦和搜索系統中的表現,反而有助于內容在不同語言用戶群體中的傳播。










