阿里云宣布推出新一代圖像生成基礎(chǔ)模型 Qwen-Image-2.0,該模型在文字渲染、真實(shí)質(zhì)感、語(yǔ)義遵循和模型架構(gòu)等方面實(shí)現(xiàn)了顯著突破。作為一款生圖編輯二合一的模型,Qwen-Image-2.0 在同一模型中實(shí)現(xiàn)了文生圖和圖生圖任務(wù)的優(yōu)越性能,為開(kāi)發(fā)者提供了更強(qiáng)大的創(chuàng)作工具。
Qwen-Image-2.0 的核心創(chuàng)新之一是更專業(yè)的文字渲染能力。該模型支持 1k token 指令,能夠直接生成專業(yè)信息圖,包括 PPT、海報(bào)、漫畫(huà)等。例如,用戶可以通過(guò)簡(jiǎn)單的提示詞生成一頁(yè)包含時(shí)間軸、圖片和文字說(shuō)明的 PPT,模型不僅能準(zhǔn)確渲染文字,還能實(shí)現(xiàn)復(fù)雜的"畫(huà)中畫(huà)"效果,確保文字與圖像的完美融合。在漫畫(huà)生成任務(wù)中,模型能夠自動(dòng)將對(duì)話框中的文字規(guī)整排版并居中對(duì)齊,使生成的漫畫(huà)更加自然和專業(yè)。
在真實(shí)質(zhì)感方面,Qwen-Image-2.0 支持 2k 分辨率輸出,能夠細(xì)膩刻畫(huà)寫(xiě)實(shí)場(chǎng)景,包括人物、自然和建筑等。模型通過(guò)建模多種綠色和自然細(xì)節(jié),實(shí)現(xiàn)了生態(tài)真實(shí)性的顯著提升。例如,在生成夏日森林場(chǎng)景時(shí),模型能夠精確區(qū)分 23 種以上不同明度、飽和度、冷暖傾向與材質(zhì)表現(xiàn)的綠色,營(yíng)造出充滿生物細(xì)節(jié)的森林秘境。這種真實(shí)感的提升也體現(xiàn)在人物渲染上,模型能夠捕捉皮膚紋理、發(fā)絲細(xì)節(jié)和光影變化,生成高度逼真的人物圖像。
語(yǔ)義遵循能力的增強(qiáng)是 Qwen-Image-2.0 的另一大亮點(diǎn)。該模型實(shí)現(xiàn)了理解生成一體化和生圖編輯二合一,能夠在同一模型中完成圖像生成和編輯任務(wù)。例如,用戶可以通過(guò)自然語(yǔ)言指令在圖像上添加文字、修改元素或調(diào)整布局,模型能夠準(zhǔn)確理解指令意圖并生成符合預(yù)期的結(jié)果。這種能力在圖片題詞任務(wù)中表現(xiàn)尤為突出,模型能夠根據(jù)提示詞在圖像的指定位置添加書(shū)法文字,并保持文字與圖像風(fēng)格的協(xié)調(diào)統(tǒng)一。
Qwen-Image-2.0 還采用了更輕量的模型架構(gòu),在保持高性能的同時(shí)實(shí)現(xiàn)了更快的生成速度。阿里云百煉平臺(tái)已開(kāi)通 API 邀測(cè),開(kāi)發(fā)者可以通過(guò)該平臺(tái)體驗(yàn)新模型的強(qiáng)大功能。用戶還可以通過(guò) Qwen Chat(chat.qwen.ai)免費(fèi)體驗(yàn) Qwen-Image-2.0,探索其在專業(yè)設(shè)計(jì)、內(nèi)容創(chuàng)作和圖像編輯等領(lǐng)域的應(yīng)用潛力。
在圖像編輯任務(wù)中,Qwen-Image-2.0 展現(xiàn)了強(qiáng)大的跨模態(tài)理解能力。例如,在雙圖編輯任務(wù)中,模型能夠?qū)⒉煌瑘D像中的人物自然合成到同一場(chǎng)景中,并保持光影、透視和比例的一致性。在跨次元編輯任務(wù)中,模型能夠?qū)⒖ㄍㄐ蜗笈c真實(shí)城市照片無(wú)縫融合,生成具有創(chuàng)意的混合風(fēng)格圖像。這些能力為圖像編輯帶來(lái)了全新的可能性,使非專業(yè)用戶也能輕松實(shí)現(xiàn)復(fù)雜的編輯效果。














