滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

多所高校聯(lián)合打造AI學(xué)術(shù)能力考場(chǎng)：深度研究代理的“能力邊界”何在？

時(shí)間：2026-01-25 17:15:33 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

在人工智能技術(shù)持續(xù)突破的背景下，多模態(tài)大語(yǔ)言模型已從單一文本處理向圖文協(xié)同理解演進(jìn)。然而這類系統(tǒng)在執(zhí)行學(xué)術(shù)研究任務(wù)時(shí)的真實(shí)表現(xiàn)，特別是能否像專業(yè)研究者般完成資料收集、證據(jù)分析和引用規(guī)范的研究報(bào)告撰寫(xiě)，始終缺乏系統(tǒng)性評(píng)估。近日，由國(guó)際多所頂尖高校與科技企業(yè)聯(lián)合完成的研究，首次構(gòu)建了針對(duì)深度研究代理（DRA）的綜合性評(píng)測(cè)體系，為評(píng)估AI學(xué)術(shù)能力提供了新維度。

研究團(tuán)隊(duì)開(kāi)發(fā)的MMDeepResearch-Bench評(píng)測(cè)平臺(tái)（簡(jiǎn)稱MMDR-Bench），設(shè)計(jì)了覆蓋21個(gè)學(xué)科領(lǐng)域的140個(gè)專家級(jí)任務(wù)。這些任務(wù)分為日常信息處理和學(xué)術(shù)研究?jī)纱箢悾罢呱婕爱a(chǎn)品說(shuō)明解析、健康圖表解讀等場(chǎng)景，后者則包含科學(xué)圖表分析、技術(shù)原理圖闡釋等復(fù)雜任務(wù)。每個(gè)任務(wù)均由博士級(jí)專家設(shè)計(jì)，確保需要同時(shí)處理文本與視覺(jué)信息，且所有結(jié)論均可通過(guò)引用驗(yàn)證。

在對(duì)25個(gè)主流AI系統(tǒng)的測(cè)試中，Gemini深度研究系統(tǒng)以49.41分（滿分100）領(lǐng)跑，其優(yōu)勢(shì)體現(xiàn)在證據(jù)質(zhì)量和引用對(duì)齊能力。值得注意的是，不同模型在能力維度上呈現(xiàn)顯著差異：部分系統(tǒng)文本生成流暢但引用混亂，另一些雖能精準(zhǔn)引用卻難以處理復(fù)雜圖表。研究特別指出，添加視覺(jué)處理模塊未必提升性能，某些模型在讀取表格數(shù)字、日期標(biāo)簽等細(xì)節(jié)時(shí)錯(cuò)誤率反而上升，暴露出當(dāng)前視覺(jué)理解技術(shù)的局限性。

評(píng)測(cè)發(fā)現(xiàn)多模態(tài)整合與引用嚴(yán)謹(jǐn)性存在矛盾：某些系統(tǒng)能準(zhǔn)確關(guān)聯(lián)圖文信息，但引用規(guī)范不足；專業(yè)研究代理雖擅長(zhǎng)多步驟驗(yàn)證，卻常在實(shí)體識(shí)別環(huán)節(jié)出錯(cuò)。研究還揭示，模型性能提升的關(guān)鍵不在于規(guī)模擴(kuò)張，而在于基礎(chǔ)架構(gòu)優(yōu)化與檢索交互設(shè)計(jì)。部分離線模型因檢索策略高效，甚至超越了具備網(wǎng)絡(luò)搜索能力的模型。

為驗(yàn)證評(píng)估可靠性，研究團(tuán)隊(duì)邀請(qǐng)12位領(lǐng)域?qū)＜疫M(jìn)行獨(dú)立評(píng)審。結(jié)果顯示，完整評(píng)估框架與專家判斷的一致性達(dá)73.5%，相關(guān)性達(dá)96.4%，顯著優(yōu)于傳統(tǒng)提示詞評(píng)估方法。這表明該體系能較準(zhǔn)確地反映AI系統(tǒng)的真實(shí)研究能力。

Q&A環(huán)節(jié)中，研究團(tuán)隊(duì)解釋了MMDR-Bench的獨(dú)特價(jià)值：該平臺(tái)通過(guò)標(biāo)準(zhǔn)化任務(wù)設(shè)計(jì)，首次實(shí)現(xiàn)了對(duì)AI學(xué)術(shù)研究能力的全流程評(píng)估。針對(duì)視覺(jué)能力反降性能的現(xiàn)象，團(tuán)隊(duì)指出當(dāng)前模型在處理微小文字、復(fù)雜排版等視覺(jué)細(xì)節(jié)時(shí)仍存在技術(shù)瓶頸。對(duì)于用戶使用建議，專家強(qiáng)調(diào)應(yīng)建立"人機(jī)協(xié)作"機(jī)制，將AI定位為信息篩選工具而非最終決策者。

02-11

千問(wèn)App持續(xù)發(fā)力：日活用戶超7352萬(wàn)，6天穩(wěn)居App Store免費(fèi)榜首

02-11

科技豪華雙驅(qū)動(dòng) 騰勢(shì)D9三年銷冠重塑全球高端MPV新格局

02-11

臺(tái)積電批準(zhǔn)發(fā)放2061億新臺(tái)幣獎(jiǎng)金業(yè)績(jī)激勵(lì)與利潤(rùn)分紅雙管齊下

02-11

智駕座艙雙進(jìn)化！阿維塔 AVATR.OS 5.0 正式推送：MoLA 大模型上車，首批直達(dá)華為 ADS 4.1

02-11

千問(wèn)App表現(xiàn)強(qiáng)勁:日活突破7352萬(wàn)，連續(xù)6天領(lǐng)跑App Store免費(fèi)榜

02-11

GLM-5架構(gòu)細(xì)節(jié)浮出水面：DeepSeek仍是繞不開(kāi)的門(mén)檻

02-11

螞蟻開(kāi)源新一代全模態(tài)大模型Ming-Flash-Omni 2.0

02-11

阿維塔AVATR.OS 5.0.0版本推送：MoLA大模型助手上線

02-11

千問(wèn)DAU達(dá)到7352萬(wàn)，逼平豆包

02-11

電商AI客服擅自承諾顧客巨額折扣：商家面臨法律糾紛

02-11

DeepSeek突然測(cè)試新模型，上下文已到百萬(wàn)級(jí)

02-11

螞蟻集團(tuán)開(kāi)源 Ming-Flash-Omni 2.0

02-11

螞蟻集團(tuán)開(kāi)源 Ming-flash-omni 2.0

02-11

Runway完成3.15億美元E輪融資，估值飆升至53億美元，推動(dòng)下一代AI世界模型

02-11

點(diǎn)擊查看更多 +

全站最新

麥格理：首予文遠(yuǎn)知行"跑贏大市"評(píng)級(jí)，目標(biāo)價(jià)46港元/17.5美元

京東方等在上海成立顯示技術(shù)公司注冊(cè)資本1億

天津海河產(chǎn)業(yè)基金等成立人工智能合伙企業(yè) 出資額1億

多家快遞回應(yīng)“停運(yùn)”傳聞，現(xiàn)存物流快遞相關(guān)企業(yè)超131萬(wàn)家

春節(jié)前機(jī)器人走穴表演忙，現(xiàn)存機(jī)器人相關(guān)企業(yè)超105萬(wàn)家

河北“藥店價(jià)格熱力圖”上線，現(xiàn)存藥品零售相關(guān)企業(yè)超113萬(wàn)家

熱門(mén)內(nèi)容

本欄最新

長(zhǎng)城魏牌V9X來(lái)襲！近5米3大身軀，2.0T插混續(xù)航超千公里，實(shí)力幾何？

央視聚焦東風(fēng)汽車：以創(chuàng)新智造引領(lǐng)，驅(qū)動(dòng)中國(guó)汽車產(chǎn)業(yè)穩(wěn)健邁向新征程

閔行新春沙龍：網(wǎng)絡(luò)創(chuàng)作者共探優(yōu)質(zhì)內(nèi)容創(chuàng)作，共繪閔行發(fā)展新畫(huà)卷

理想汽車新突破：全新L9馬赫100雙芯片有效算力遠(yuǎn)超英偉達(dá)Thor U

問(wèn)界星光之夜余承東解讀品牌命名，大模型AI將升級(jí)老車主，銷量目標(biāo)再?zèng)_刺

長(zhǎng)城補(bǔ)齊產(chǎn)品短板！魏牌V9X官圖曝光，攜新技術(shù)入局綠牌全尺寸SUV賽道

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

多所高校聯(lián)合打造AI學(xué)術(shù)能力考場(chǎng)：深度研究代理的“能力邊界”何在？