蘋果公司與中國人民大學(xué)聯(lián)合研發(fā)的VSSFlow人工智能模型,近日在音頻生成領(lǐng)域?qū)崿F(xiàn)重大突破。該模型通過創(chuàng)新性的技術(shù)架構(gòu),成功解決了傳統(tǒng)方案中環(huán)境音效與語音生成難以兼顧的難題,能夠在單一系統(tǒng)內(nèi)同時生成與視頻畫面高度匹配的背景音和清晰人聲。
傳統(tǒng)音頻生成技術(shù)存在顯著短板:視頻轉(zhuǎn)聲音模型(V2S)雖能捕捉環(huán)境聲卻難以生成清晰語音,文本轉(zhuǎn)語音模型(TTS)雖可輸出標(biāo)準(zhǔn)人聲卻無法處理復(fù)雜環(huán)境噪音。此前行業(yè)普遍采用分階段訓(xùn)練方案,將兩類模型串聯(lián)使用,但這種架構(gòu)不僅增加系統(tǒng)復(fù)雜度,更因任務(wù)沖突導(dǎo)致性能損耗。VSSFlow團(tuán)隊通過10層神經(jīng)網(wǎng)絡(luò)架構(gòu)與"流匹配"技術(shù)的結(jié)合,使模型具備從隨機(jī)噪聲中自主重構(gòu)目標(biāo)聲音信號的能力。
研發(fā)過程中,團(tuán)隊意外發(fā)現(xiàn)聯(lián)合訓(xùn)練帶來的協(xié)同效應(yīng)。當(dāng)模型同時接觸包含環(huán)境音的視頻、帶字幕的說話視頻及純文本語音數(shù)據(jù)時,語音訓(xùn)練數(shù)據(jù)顯著提升了環(huán)境音效的生成質(zhì)量,而環(huán)境音效數(shù)據(jù)則優(yōu)化了語音的自然度。這種數(shù)據(jù)融合訓(xùn)練方式,使模型能夠精準(zhǔn)區(qū)分不同聲音元素的生成邏輯。
在實(shí)際運(yùn)行中,VSSFlow采用雙軌處理機(jī)制:以每秒10幀的速率提取視頻中的視覺特征作為環(huán)境音效生成依據(jù),同時通過文本腳本解析控制語音輸出的內(nèi)容與節(jié)奏。這種設(shè)計使模型既能生成雨聲、腳步聲等細(xì)節(jié)豐富的環(huán)境音,又能保持對話語音的清晰度和情感表達(dá)。
第三方測試數(shù)據(jù)顯示,VSSFlow在環(huán)境音自然度、語音清晰度、音畫同步率等核心指標(biāo)上,均超越專門針對單一任務(wù)設(shè)計的競品模型。目前研發(fā)團(tuán)隊已將完整代碼開源至GitHub平臺,并正在籌備模型權(quán)重公開及在線演示系統(tǒng)的開發(fā)工作。這項技術(shù)有望為影視制作、游戲開發(fā)、虛擬現(xiàn)實(shí)等領(lǐng)域提供更高效的音頻生成解決方案。











