在人工智能技術(shù)持續(xù)突破的背景下,多模態(tài)大語(yǔ)言模型已從單一文本處理向圖文協(xié)同理解演進(jìn)。然而這類系統(tǒng)在執(zhí)行學(xué)術(shù)研究任務(wù)時(shí)的真實(shí)表現(xiàn),特別是能否像專業(yè)研究者般完成資料收集、證據(jù)分析和引用規(guī)范的研究報(bào)告撰寫(xiě),始終缺乏系統(tǒng)性評(píng)估。近日,由國(guó)際多所頂尖高校與科技企業(yè)聯(lián)合完成的研究,首次構(gòu)建了針對(duì)深度研究代理(DRA)的綜合性評(píng)測(cè)體系,為評(píng)估AI學(xué)術(shù)能力提供了新維度。
研究團(tuán)隊(duì)開(kāi)發(fā)的MMDeepResearch-Bench評(píng)測(cè)平臺(tái)(簡(jiǎn)稱MMDR-Bench),設(shè)計(jì)了覆蓋21個(gè)學(xué)科領(lǐng)域的140個(gè)專家級(jí)任務(wù)。這些任務(wù)分為日常信息處理和學(xué)術(shù)研究?jī)纱箢悾罢呱婕爱a(chǎn)品說(shuō)明解析、健康圖表解讀等場(chǎng)景,后者則包含科學(xué)圖表分析、技術(shù)原理圖闡釋等復(fù)雜任務(wù)。每個(gè)任務(wù)均由博士級(jí)專家設(shè)計(jì),確保需要同時(shí)處理文本與視覺(jué)信息,且所有結(jié)論均可通過(guò)引用驗(yàn)證。
在對(duì)25個(gè)主流AI系統(tǒng)的測(cè)試中,Gemini深度研究系統(tǒng)以49.41分(滿分100)領(lǐng)跑,其優(yōu)勢(shì)體現(xiàn)在證據(jù)質(zhì)量和引用對(duì)齊能力。值得注意的是,不同模型在能力維度上呈現(xiàn)顯著差異:部分系統(tǒng)文本生成流暢但引用混亂,另一些雖能精準(zhǔn)引用卻難以處理復(fù)雜圖表。研究特別指出,添加視覺(jué)處理模塊未必提升性能,某些模型在讀取表格數(shù)字、日期標(biāo)簽等細(xì)節(jié)時(shí)錯(cuò)誤率反而上升,暴露出當(dāng)前視覺(jué)理解技術(shù)的局限性。
評(píng)測(cè)發(fā)現(xiàn)多模態(tài)整合與引用嚴(yán)謹(jǐn)性存在矛盾:某些系統(tǒng)能準(zhǔn)確關(guān)聯(lián)圖文信息,但引用規(guī)范不足;專業(yè)研究代理雖擅長(zhǎng)多步驟驗(yàn)證,卻常在實(shí)體識(shí)別環(huán)節(jié)出錯(cuò)。研究還揭示,模型性能提升的關(guān)鍵不在于規(guī)模擴(kuò)張,而在于基礎(chǔ)架構(gòu)優(yōu)化與檢索交互設(shè)計(jì)。部分離線模型因檢索策略高效,甚至超越了具備網(wǎng)絡(luò)搜索能力的模型。
為驗(yàn)證評(píng)估可靠性,研究團(tuán)隊(duì)邀請(qǐng)12位領(lǐng)域?qū)<疫M(jìn)行獨(dú)立評(píng)審。結(jié)果顯示,完整評(píng)估框架與專家判斷的一致性達(dá)73.5%,相關(guān)性達(dá)96.4%,顯著優(yōu)于傳統(tǒng)提示詞評(píng)估方法。這表明該體系能較準(zhǔn)確地反映AI系統(tǒng)的真實(shí)研究能力。
Q&A環(huán)節(jié)中,研究團(tuán)隊(duì)解釋了MMDR-Bench的獨(dú)特價(jià)值:該平臺(tái)通過(guò)標(biāo)準(zhǔn)化任務(wù)設(shè)計(jì),首次實(shí)現(xiàn)了對(duì)AI學(xué)術(shù)研究能力的全流程評(píng)估。針對(duì)視覺(jué)能力反降性能的現(xiàn)象,團(tuán)隊(duì)指出當(dāng)前模型在處理微小文字、復(fù)雜排版等視覺(jué)細(xì)節(jié)時(shí)仍存在技術(shù)瓶頸。對(duì)于用戶使用建議,專家強(qiáng)調(diào)應(yīng)建立"人機(jī)協(xié)作"機(jī)制,將AI定位為信息篩選工具而非最終決策者。












