阿里巴巴近日正式推出Wan2.7-Video視頻生成系列模型,該系列包含四大核心模塊:文生視頻、圖生視頻、參考生視頻及視頻編輯,標志著AI視頻創作從單一素材生成向全流程控制邁出關鍵一步。這一突破性技術將創作權限從“表演者”擴展至“導演”,通過多模態輸入與全鏈路控制,重新定義了AI視頻的生產范式。
針對傳統AI視頻工具在敘事連貫性、劇情可控性及后期編輯靈活性方面的不足,Wan2.7-Video通過四大專業模型的協同工作構建起完整創作生態。其中,文生視頻模塊支持從文本描述直接生成720P至1080P分辨率、2-15秒時長的視頻內容;圖生視頻模塊則允許用戶通過上傳圖片精準控制畫面元素;參考生視頻模塊可復刻動作、運鏡及特效,最多支持5個視頻主體同時參考;視頻編輯模塊更實現“一句話改視頻”的革命性突破,通過自然語言指令即可完成元素增刪、場景切換及風格轉換等操作。
在核心編輯能力方面,該系列模型展現出驚人的創作自由度。創作者可通過文本指令調整角色表情、行為及臺詞,系統自動匹配口型與音色;拍攝參數如機位、視角、景別等均可重新定義,同一素材可衍生出完全不同的敘事視角。技術團隊特別開發的黑白上色與老片修復功能,進一步拓展了AI在影視修復領域的應用場景。參考生視頻模塊的復刻精度達到行業領先水平,即使復雜動作也能穩定還原,多模態輸入支持同時鎖定角色外觀、音色及動作軌跡。
從劇本創作到成片輸出,Wan2.7-Video構建起智能化生產管線。用戶輸入簡短文字描述后,系統可自動生成分鏡腳本、編排劇情節奏并設計鏡頭語言,支持希區柯克變焦、360度環繞等數十種專業運鏡方案。為解決AI視頻常見的“首尾割裂”問題,技術團隊創新性地引入視頻續寫與尾幀控制聯合機制,使創作者既能保持動態連貫性,又能精準控制畫面結構。在視聽表現層面,該模型可衍生出上千種風格組合,覆蓋2D卡通、水墨、黏土動畫等多元視覺語言,音頻模塊則通過預訓練技術顯著提升音畫同步質量與音樂表現力。
據技術文檔披露,Wan2.7-Video的突破源于對創作全鏈路的深度重構。通過將生成能力與編輯能力深度融合,該模型不僅支持從零開始的完整創作,更能對現有素材進行精細化改造。在動作復刻場景中,系統可同時處理5個視頻主體的運動軌跡,其多模態理解能力能準確識別圖像、視頻及音頻中的關鍵信息。這種全模態輸入輸出體系,使得文本、圖像、視頻、音頻的混合創作成為現實,為專業影視制作與個人創意表達開辟了新的可能性空間。







