阿里巴巴近日正式推出新一代圖像生成與編輯模型Qwen-Image-2.0,其核心能力被概括為“準(zhǔn)多齊美真”五大特點(diǎn)。在發(fā)布會(huì)上,千問視覺生成項(xiàng)目負(fù)責(zé)人吳晨飛通過線上演示展示了該模型在文字渲染、指令響應(yīng)、排版設(shè)計(jì)等方面的突破性表現(xiàn)。
演示環(huán)節(jié)中,Qwen-Image-2.0成功生成了包含《蘭亭集序》全文的圖像作品,不僅精準(zhǔn)還原了王羲之小楷的書法特征,更在人物場景構(gòu)建上保持了高度協(xié)調(diào)性。該模型支持單次輸出1K tokens的文字內(nèi)容,在漢字結(jié)構(gòu)處理和古文排版方面展現(xiàn)出顯著優(yōu)勢,解決了傳統(tǒng)圖像生成模型在復(fù)雜文本呈現(xiàn)時(shí)的失真問題。
在專業(yè)評(píng)測領(lǐng)域,Qwen-Image-2.0以1029分的成績位列AI Arena文生圖榜單第三名,超越了Seedream4.5和Flux2-Max等主流模型,僅落后于谷歌Nano Banana Pro和GPT Image1.5。這一成績印證了其作為千問大模型圖像生成底座的實(shí)力,標(biāo)志著國產(chǎn)AI在多模態(tài)領(lǐng)域的技術(shù)積累已達(dá)到國際先進(jìn)水平。
值得關(guān)注的是,就在阿里巴巴發(fā)布新模型的同日,字節(jié)跳動(dòng)宣布將其圖像生成模型Seedream升級(jí)至5.0版本。兩大科技巨頭在生成式AI領(lǐng)域的同步發(fā)力,預(yù)示著圖像生成賽道將迎來更激烈的技術(shù)競爭。業(yè)內(nèi)人士分析,隨著模型參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)的持續(xù)擴(kuò)大,未來圖像生成技術(shù)的比拼將聚焦于細(xì)節(jié)真實(shí)度、文化理解深度和場景適配能力等維度。










