蘋果公司與特拉維夫大學聯合研發的語音生成技術取得突破性進展,雙方共同提出的“原則性粗粒度”(PCG)方法有效解決了AI文本轉語音(TTS)領域長期存在的速度與質量矛盾問題。該技術通過創新性的驗證機制,在保持音頻自然度的前提下,將語音生成效率提升了近四成。
傳統TTS系統普遍采用自回歸模型架構,其工作原理類似于逐字拼寫——每個語音單元的生成都嚴格依賴前序單元的精確匹配。這種機制雖能保證輸出準確性,但過度嚴苛的驗證標準導致系統頻繁拒絕聽覺效果相近的可行方案。研究團隊發現,不同聲學標記產生的實際聽感差異往往微乎其微,現有技術的“單點驗證”模式存在顯著優化空間。
PCG技術的核心創新在于構建聲學相似組體系。研究人員將具有相似聽覺特征的語音單元歸類為同一組別,系統驗證時不再要求絕對精確匹配,而是允許預測結果落在合理范圍內。這種“范圍驗證”機制通過雙模型協作架構實現:輕量級預測模型快速生成候選單元,大型裁判模型負責審核組別歸屬。試驗表明,該架構在保持4.09分自然度評分(滿分5分)的同時,將生成速度提高了40%。
極限測試數據進一步驗證了技術的魯棒性。當研究人員故意替換91.4%的語音單元為同組其他選項時,系統詞錯率僅上升0.007,說話人特征相似度下降0.027,這些變化均處于人類聽覺感知閾值之下。這種容錯能力源于PCG對語音本質特征的把握——相比單個標記的精確性,系統更關注整體聲學特征的連貫性。
該技術的工程化優勢同樣顯著。作為推理階段的優化方案,PCG可直接應用于現有模型而無需重新訓練,聲學相似組的存儲需求僅約37MB內存。這種輕量化特性使其特別適合資源受限的邊緣計算場景,為移動設備上的實時語音合成提供了可行路徑。目前研究團隊正探索將該技術擴展至多語言場景,進一步驗證其通用性。











