時隔4個月,OpenAI的圖像生成模型真的要更新了。
今日,社交平臺X上有消息稱,OpenAI正在大模型競技場 Chatbot Arena上測試新的圖像模型GPT-Image-2,使用的代號為maskingtape-alpha、gaffertape-alpha和packingtape-alpha。但目前相關測試已經下線。
目前,GPT-Image-2 已經開始向部分 ChatGPT 用戶進行灰度開放。
網友們的激情被瞬間點燃,紛紛下場測試GPT-Image-2的實力到底幾何。
有人將其與Nano Banana Pro做對比。
有人直接用它讓奧特曼和馬斯克達成了世紀大和解。
黃色濾鏡終于消失了OpenAI的圖像生成一直有一個被廣泛吐槽的問題,"黃色濾鏡"。
這個問題從DALL·E時代就存在了。用戶生成的圖片普遍偏暖,有一層淡淡的黃色調,像是加了一個復古濾鏡。在GPT-Image-1(也就是ChatGPT當前內置的圖像生成模型)中,這個問題有所改善但沒有徹底解決。很多用戶抱怨:明明想要冷色調的科技感場景,出來的圖片卻總帶著一層溫暖的光暈。
但經過用戶實測,這個問題在GPT-Image-2上得到了解決。
文字渲染能力質變
如果說色彩問題是一個持續的小煩惱,那文字渲染就是AI圖像生成領域的一道歷史性難題。
前代的很多AI圖像模型都有一個共性問題,生成一張海報,文字部分大概率是亂碼;畫一個店鋪招牌,上面的字母像是在發高燒時寫的。
這就是擴散模型(Diffusion Model)架構本身的短板。擴散模型在生成整體視覺結構方面表現優異,但由于圖像生成過程基于概率采樣且缺乏對符號結構的顯式建模,在生成需要精確字符結構的文字時往往表現不穩定。
但到了GPT-Image-2,這個情況終于得到了改善。
這是一張用GPT-Image-2生成的一個擁有各種語言電子廣告牌的賽博朋克世界。
它還能生成網頁截圖。
生成一張解剖圖,各個部位的名詞標注清晰可見。
更讓人驚嘆的是這張手寫筆記,它不是印刷體的文字疊加在圖片上,而是看起來真的是用筆在紙上寫的,毫無違和感。
但目前,GPT-Image-2在文字渲染能力上也不是完美的。有用戶用GPT-Image-2生成了一幅李白《靜夜思》的草書作品,最后的結果草書含量不高,落款印章的印字有點不明覺厲,甚至還多了一句。
但一個AI模型能渲染出中文書法,筆畫之間還有連貫性,整體有書法的美感,這需要模型對中文字形結構有極其深入的理解。
人像真實感升級
有網友說:“判斷你用的是ChatGPT-Images-1.5還是2的最快方法:生成一張Sam Altman的自拍。如果看起來真的很像他,那就是2;如果只是像下面這張圖一樣粗略的近似,那就是1.5。”
相較于1.5,GPT-Image-2所生成的人像在皮膚質感上有了質的飛躍,眼尾的皺紋、胡須、皮膚質感、發絲光影都精準還原。
過去的幾個月里,谷歌憑借Nano Banana占據了真實感和文本渲染的制高點,但從今天流出的GPT-Image-2測試結果來看,圖像生成模型的格局可能真的要被改寫了。(AI普瑞斯)










