岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

蘋果聯合人大發布VSSFlow模型:視頻AI同步生成配音

   時間:2026-02-10 16:51:56 來源:IT之家編輯:快訊 IP:北京 發表評論無障礙通道
 

2 月 10 日消息,科技媒體 9to5Mac 昨日(2 月 9 日)發布博文,報道稱蘋果公司攜手中國人民大學(簡稱人大),推出 VSSFlow 新型 AI 模型,突破了傳統音頻生成技術的瓶頸,僅需單一系統即可從無聲視頻中同時生成逼真的環境音效與人類語音。

該模型的核心能力在于“化靜為動”,能夠直接處理無聲視頻數據,在單一系統的框架下,同步生成與畫面高度匹配的環境音效以及精準的語音對話。該成果不僅解決了過去音頻生成模型功能單一的問題,更在生成質量上達到了行業領先水平。

援引博文介紹,在 VSSFlow 問世之前,行業內的模型往往存在嚴重的偏科現象:視頻轉聲音模型(V2S)難以生成清晰的語音,而文本轉語音模型(TTS)又無法處理復雜的環境噪音。

傳統的解決方案通常是將兩者分階段訓練,這不僅增加了系統的復雜性,還常因任務沖突導致性能下降。VSSFlow 則另辟蹊徑,采用了 10 層架構設計并引入“流匹配”技術,讓模型自主學習如何從隨機噪聲中,重構出目標聲音信號。

研究團隊在訓練過程中發現了一個令人驚喜的現象:聯合訓練不僅沒有導致任務干擾,反而產生了“互助效應”。即語音數據的訓練提升了音效生成的質量,而音效數據的加入也優化了語音的表現。

團隊為了實現這一效果,向模型投喂了混合數據,包括配有環境音的視頻、配有字幕的說話視頻以及純文本轉語音數據,并利用合成樣本微調模型,讓其學會同時輸出背景音與人聲。

在實際運行中,VSSFlow 以每秒 10 幀的頻率從視頻中提取視覺線索來塑造環境音效,同時依據文本腳本精確引導語音生成。

測試數據顯示,該模型在多項關鍵指標上均優于專門針對單一任務設計的競品模型。研究團隊目前已在 GitHub 上開源了 VSSFlow 的代碼,并正在推進模型權重公開及在線推理演示的開發工作。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: jizz一区二区 | 午夜精品免费观看 | 成年人黄色片 | av第一页 | 精品人人爽 | 国产精品国产自产拍高清av | 国产一区a | 国产精品一区二区久久久 | 青青国产在线视频 | 国产视频久久久久久 | 看一级黄色片 | 久久精品视频1 | 波多野吉衣av | 韩日成人 | 日韩成人精品 | 国产色在线 | 国产成人精品视频在线观看 | 手机看日韩 | 国产成人97精品免费看片 | 欧美一级黄色片 | 羞羞网站在线 | 亚洲综合天堂 | 草草草在线 | 天天干天天插天天射 | 国产成人小视频 | 狠狠操欧美 | 欧美成人三级在线观看 | 国产探花一区 | www.日韩欧美 | 在线观看视频中文字幕 | 综合久久久久综合 | 琪琪色在线观看 | 中国美女黄色一级片 | 三级视频在线观看 | 欧美二区在线 | 在线一二区 | 日日干日日 | av中文资源在线 | 99精品视频在线播放免费 | 中文字幕6 | 成年人午夜 |