阿里巴巴今日正式推出新一代圖像生成基礎模型Qwen-Image 2.0,在長指令處理、文字渲染精度及模型效率方面實現突破性進展。該模型支持最長1000個token的超長指令輸入,分辨率提升至2K級別,同時通過輕量化架構設計將模型體積壓縮至前代20B版本的十分之一以下,推理速度顯著提升。
技術測試顯示,在888個token構成的復雜排版指令下,Qwen-Image 2.0可精準還原字體樣式、顏色及布局參數。官方演示案例中,該模型成功生成包含《蘭亭集序》全文的毛筆字畫卷,文字與山水背景的融合度較前代提升40%,錯誤字符比例降至5%以下。針對多子圖生成場景,模型可一次性輸出24格連貫漫畫,人物特征保持率達92%,較同類模型提升15個百分點。
在AI盲測平臺AI Arena的基準測試中,Qwen-Image 2.0位列文生圖第三、圖生圖第二,與榜首谷歌Nano Banana Pro存在7.8%的性能差距。實測對比顯示,在超現實場景生成任務中,該模型對"倒置水晶城市"等復雜描述的還原度達83%,雖略遜于Nano Banana Pro的89%,但較字節(jié)Seedream 5.0 Preview的76%具有明顯優(yōu)勢。
研發(fā)團隊透露,新模型采用創(chuàng)新的VAE重構算法,將小尺寸文字的生成清晰度提升3倍。通過將文生圖與圖像編輯能力整合,模型在"照片題詩"等跨模態(tài)任務中展現出獨特優(yōu)勢。實測表明,在電商場景的商品圖生成任務中,Qwen-Image 2.0可使設計效率提升60%,運營成本降低45%。
該模型已通過阿里云百煉平臺開放API邀測,用戶可通過Qwen Chat官網免費體驗基礎功能。研發(fā)負責人吳晨飛表示,團隊正開發(fā)支持PPT、多圖海報等復雜信息圖生成的新版本,目標將幻覺錯誤率控制在0.5%以下。分層編輯功能的強化版本預計將于第三季度上線,屆時設計師可實現跨模型、跨圖層的精細化操作。
行業(yè)分析指出,Qwen-Image 2.0的推出標志著圖像生成技術從"視覺逼真"向"語義可控"的關鍵轉型。其輕量化設計使模型可部署于移動端設備,結合WPS等國民級應用的生態(tài)合作,有望推動AIGC技術在醫(yī)療流程圖、教育課件等垂直領域的規(guī)模化落地。











