1 月 31 日消息,快手今日宣布推出新一代視頻生成模型可靈 3.0 系列,目前處于超前內測階段。該系列包含圖片 3.0、視頻 3.0 和視頻 3.0 Omni,在原有模型基礎上進行了技術升級。
其中,圖片 3.0 模型主要升級包括四項功能:
新增組圖生成能力,支持通過單張或多張輸入圖像批量生成邏輯連貫的系列畫面;
輸出分辨率提升至 2K 與 4K 級別,適配影視預演圖、場景設定等專業需求;
增強畫面細節一致性,優化紋理、光影的呈現效果以降低“AI 感”;
強化對構圖、視角等元素的控制精度,提升影視類創作場景的適用性。
據介紹,此次升級采用視覺思維鏈(vCoT)技術輔助生成前的場景解構推理,并通過 Deep-Stack 視覺信息流機制增強細粒度感知能力。模型訓練過程中引入強化學習框架,結合真實感與電影質感雙重評估標準優化輸出效果。
另外,新的視頻模型采用統一的多模態訓練框架,支持文本、圖像、視頻片段等多種輸入形式,單次視頻生成時長最高可達 15 秒,并支持 3-15 秒靈活時長設置。功能改進主要包括:
新增智能分鏡系統,可根據文本指令自動調度景別與機位;
增強主體一致性控制,允許通過多圖或視頻錨定特定視覺元素;
升級音畫同步能力,支持中、英、日、韓、西五種語言及方言的精準口型匹配,并實現多人場景下的角色定向發聲;
提升文字生成清晰度,確保招牌、字幕等文字信息可辨識。
視頻 3.0 Omni 版本額外支持創建視頻主體特征庫,可提取 3-8 秒視頻中的角色形象與音色進行還原應用。技術文檔顯示,此次升級涉及多模態指令解析架構優化、音頻采樣區間調整及特征解耦重組方案。











