阿里云通義今日宣布,正式開源推出新一代圖像生成基座模型Z-Image,該模型以60億參數規模構建非蒸餾架構,完整保留全量權重分布,為AI藝術創作領域提供全新技術底座。通過原生支持的CFG(Classifier-Free Guidance)引導機制,模型可無縫兼容LoRA微調、ControlNet條件控制等前沿技術,滿足專業開發者對定制化訓練的需求。
在風格表現力方面,Z-Image突破傳統模型對寫實風格的過度依賴,構建了多維度的藝術表達能力。無論是追求極致光影的攝影級真實感,還是需要強烈情緒張力的動漫數字藝術,模型均能精準捕捉風格特征并完成細節重構。這種突破得益于其創新的特征解耦架構,使得不同藝術流派的視覺元素可在潛在空間實現獨立編碼與重組。
針對AI生成內容常見的同質化問題,研發團隊實施了三項核心優化:通過改進采樣空間分布算法,確保單圖生成的人物面部特征與構圖元素保持顯著差異;在多人場景中引入特征解耦機制,有效避免"AI大眾臉"現象;優化負向提示詞響應系統,使Negative Prompt能夠精準過濾畫面瑕疵,實現從構圖框架到光影質感的精細化控制。這些技術升級使模型在保持創作自由度的同時,顯著提升輸出內容的多樣性。
技術文檔顯示,Z-Image的非蒸餾架構設計具有顯著優勢。相比傳統蒸餾模型,其完整保留的權重分布為二次開發提供了更大空間,開發者可直接在原始參數空間進行微調,避免信息壓縮帶來的性能損失。這種設計特別適合需要精細控制生成結果的商業應用場景,如品牌視覺設計、游戲資產制作等領域。
目前,該模型已在開源社區全面開放,提供完整的訓練代碼與預訓練權重。開發文檔詳細說明了模型架構、訓練方法及微調指南,支持研究者基于Z-Image開展跨模態生成、風格遷移等前沿探索。隨著社區生態的逐步完善,預計將涌現出更多創新應用,推動AI藝術創作向專業化、精細化方向發展。










