在電商平臺(tái)上尋找同款不同色的商品,或是根據(jù)文字描述調(diào)整圖片中的天氣效果——這種需要同時(shí)理解圖像和文字的搜索需求,正隨著人工智能技術(shù)的發(fā)展迎來(lái)新的突破。由中科院自動(dòng)化所、阿里巴巴通義實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合研發(fā)的EDIR評(píng)估基準(zhǔn),為這一領(lǐng)域提供了更精準(zhǔn)的"測(cè)量工具",讓AI模型的組合圖像檢索能力首次得到全面、客觀的評(píng)估。
傳統(tǒng)評(píng)估方法存在明顯短板:要么覆蓋范圍狹窄,僅針對(duì)服裝或特定場(chǎng)景;要么分類(lèi)粗糙,無(wú)法區(qū)分"顏色變化"與"材質(zhì)替換"等細(xì)微差異。更嚴(yán)重的是,部分模型通過(guò)"投機(jī)取巧"的方式——僅依賴(lài)文字描述而忽視圖像內(nèi)容——就能在現(xiàn)有測(cè)試中取得不錯(cuò)成績(jī)。這種評(píng)估方式如同用模糊的鏡片觀察世界,既無(wú)法準(zhǔn)確反映模型的真實(shí)能力,也難以發(fā)現(xiàn)技術(shù)改進(jìn)的關(guān)鍵方向。
研究團(tuán)隊(duì)創(chuàng)新性地采用"逆向生成"策略構(gòu)建測(cè)試樣本:先設(shè)計(jì)詳細(xì)的編輯指令,再通過(guò)圖像編輯技術(shù)生成對(duì)應(yīng)的目標(biāo)圖片。這種方法確保每個(gè)測(cè)試案例都經(jīng)過(guò)精確設(shè)計(jì),覆蓋屬性修改、物體操作、關(guān)系調(diào)整、全局環(huán)境變化及復(fù)合修改五大類(lèi)、十五小類(lèi)場(chǎng)景。從"將紅色外套改為藍(lán)色"的顏色調(diào)整,到"在客廳添加書(shū)架"的空間操作,再到"把白天照片轉(zhuǎn)為夜景"的環(huán)境變化,測(cè)試案例全面覆蓋用戶(hù)實(shí)際需求。
數(shù)據(jù)生成過(guò)程猶如精密的工業(yè)流水線。研究人員從4億張圖片中篩選出36.8萬(wàn)張清晰、適合編輯的"種子圖片",再為每張圖片設(shè)計(jì)15-18個(gè)編輯指令。這些指令經(jīng)過(guò)AI改寫(xiě)為自然語(yǔ)言查詢(xún)后,最終形成108.7萬(wàn)個(gè)高質(zhì)量測(cè)試樣本。通過(guò)雙重質(zhì)檢機(jī)制——確保圖像符合指令要求、查詢(xún)語(yǔ)句與圖像變化完全匹配——研究團(tuán)隊(duì)構(gòu)建出包含5000個(gè)查詢(xún)和17.8萬(wàn)張圖片的EDIR基準(zhǔn)庫(kù)。
實(shí)驗(yàn)結(jié)果顯示,現(xiàn)有模型在EDIR上的表現(xiàn)遠(yuǎn)低于預(yù)期。基于CLIP架構(gòu)的傳統(tǒng)模型平均準(zhǔn)確率僅18.4%,難以識(shí)別細(xì)微差異;新一代多模態(tài)語(yǔ)言模型(MLLM)雖將準(zhǔn)確率提升至36.9%,但能力分布極不均衡。例如,某領(lǐng)先模型在"添加物體"任務(wù)中達(dá)到74%的準(zhǔn)確率,卻在"刪除物體"任務(wù)中僅獲24%——這種差距如同數(shù)學(xué)家不會(huì)基礎(chǔ)運(yùn)算,暴露出技術(shù)發(fā)展的嚴(yán)重偏科現(xiàn)象。
進(jìn)一步分析發(fā)現(xiàn),模型存在四大典型缺陷:難以理解否定指令(如"不要紅色")、組合推理能力不足、對(duì)材質(zhì)紋理等細(xì)節(jié)不敏感、處理復(fù)雜約束時(shí)易遺漏條件。這些問(wèn)題在傳統(tǒng)評(píng)估中難以被發(fā)現(xiàn),因?yàn)楝F(xiàn)有測(cè)試集存在"評(píng)估偏食癥"——某些類(lèi)型查詢(xún)占比過(guò)高,而關(guān)鍵能力測(cè)試不足;以及"模態(tài)偏見(jiàn)"——部分測(cè)試中僅用文字描述就能獲得更好成績(jī),參考圖片反而成為擺設(shè)。
針對(duì)性訓(xùn)練實(shí)驗(yàn)揭示了問(wèn)題的深層原因。研究人員利用數(shù)據(jù)合成技術(shù)生成22.5萬(wàn)個(gè)訓(xùn)練樣本后,模型在顏色、材質(zhì)等類(lèi)別的準(zhǔn)確率顯著提升(最高達(dá)59.0%),表明這些問(wèn)題可通過(guò)增加訓(xùn)練數(shù)據(jù)解決;但在數(shù)量判斷、空間推理等類(lèi)別,提升幅度有限(最高僅33%),反映出當(dāng)前模型架構(gòu)存在根本局限。這種區(qū)分"數(shù)據(jù)饑餓型"與"架構(gòu)局限型"問(wèn)題的能力,為技術(shù)改進(jìn)指明了方向。
EDIR基準(zhǔn)的推出,為圖像檢索領(lǐng)域提供了更公平、更全面的評(píng)估標(biāo)準(zhǔn)。其測(cè)試案例的平衡設(shè)計(jì)——每個(gè)子類(lèi)別包含300個(gè)樣本(復(fù)合類(lèi)別800個(gè))——確保模型在各方面得到充分考驗(yàn)。人工評(píng)估顯示,該基準(zhǔn)的假陽(yáng)性率僅8.0%,假陰性率7.3%,質(zhì)量達(dá)到行業(yè)領(lǐng)先水平。這一工具不僅能幫助研究人員診斷模型缺陷,也為電商、設(shè)計(jì)、內(nèi)容創(chuàng)作等領(lǐng)域的實(shí)際應(yīng)用提供了技術(shù)參考。
盡管存在數(shù)據(jù)合成成本較高、復(fù)合查詢(xún)復(fù)雜度有限等挑戰(zhàn),EDIR已為技術(shù)發(fā)展奠定重要基礎(chǔ)。它像一面清晰的鏡子,照出當(dāng)前AI模型在組合圖像檢索中的優(yōu)勢(shì)與不足。隨著更多研究人員利用這一工具,我們有望看到真正理解復(fù)雜視覺(jué)查詢(xún)的智能系統(tǒng)——無(wú)論是尋找"藍(lán)色同款汽車(chē)",還是創(chuàng)作"無(wú)帽版人物肖像",AI都將更精準(zhǔn)地滿(mǎn)足人類(lèi)需求。
Q&A
Q1:組合圖像檢索技術(shù)有哪些實(shí)際應(yīng)用場(chǎng)景?A:該技術(shù)可廣泛應(yīng)用于電商(尋找同款不同色商品)、設(shè)計(jì)(調(diào)整場(chǎng)景風(fēng)格或元素)、內(nèi)容創(chuàng)作(修改圖片細(xì)節(jié))等領(lǐng)域。例如,用戶(hù)上傳紅色裙子圖片并輸入"找藍(lán)色同款",或提供風(fēng)景照并要求"轉(zhuǎn)為雪景",均屬于組合圖像檢索的應(yīng)用范疇。
Q2:EDIR基準(zhǔn)如何確保測(cè)試公平性?A:EDIR通過(guò)兩大機(jī)制避免"作弊":一是采用"先設(shè)計(jì)指令再生成圖片"的方法,確保查詢(xún)與圖像緊密關(guān)聯(lián);二是實(shí)驗(yàn)證明,在EDIR上僅用文字描述的表現(xiàn)明顯低于同時(shí)使用圖文的表現(xiàn),而傳統(tǒng)基準(zhǔn)(如CIRCO)存在僅用文字表現(xiàn)更好的反常現(xiàn)象。
Q3:當(dāng)前AI模型在哪些任務(wù)上表現(xiàn)最差?A:實(shí)驗(yàn)顯示,模型在"刪除物體"(準(zhǔn)確率24%)、"視角變換"(24.7%)、"數(shù)量判斷"(24%)等任務(wù)上表現(xiàn)最差。即使經(jīng)過(guò)針對(duì)性訓(xùn)練,這些類(lèi)別的提升幅度也顯著低于"顏色變化"(提升13%)、"材質(zhì)修改"(提升21.7%)等任務(wù),反映出當(dāng)前技術(shù)對(duì)空間推理、復(fù)雜約束等能力的支持不足。






