滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

ByteDance團(tuán)隊(duì)發(fā)布DeR?系統(tǒng)：精準(zhǔn)拆解AI“檢索力”與“推理力”短板

時(shí)間：2026-02-07 22:10:29 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

當(dāng)人工智能助手在互聯(lián)網(wǎng)上快速檢索信息并給出專業(yè)回答時(shí)，人們常常驚嘆于其強(qiáng)大的能力。但一個(gè)根本性問(wèn)題始終存在：這些系統(tǒng)是否真正理解了所處理的信息，還是僅僅在機(jī)械地拼接已有內(nèi)容？這種質(zhì)疑類似于教育領(lǐng)域?qū)?死記硬背"與"真正掌握"的區(qū)分。近期，一支跨國(guó)研究團(tuán)隊(duì)通過(guò)創(chuàng)新方法，對(duì)人工智能的深度思考能力展開(kāi)了系統(tǒng)性剖析。

傳統(tǒng)評(píng)估體系存在顯著缺陷，就像用同一把尺子同時(shí)測(cè)量身高和體重。現(xiàn)有方法往往將信息檢索與邏輯推理混為一談，導(dǎo)致無(wú)法準(zhǔn)確判斷人工智能出錯(cuò)的具體環(huán)節(jié)。更嚴(yán)重的是，當(dāng)系統(tǒng)表現(xiàn)不佳時(shí)，開(kāi)發(fā)者難以確定問(wèn)題出在信息獲取階段還是處理階段。這種評(píng)估方式猶如讓考生帶著教材參加考試，最終成績(jī)無(wú)法反映真實(shí)理解水平。

研究團(tuán)隊(duì)開(kāi)發(fā)的全新評(píng)估框架突破了傳統(tǒng)局限。該系統(tǒng)通過(guò)四層遞進(jìn)式測(cè)試，將信息獲取與邏輯推理能力徹底解耦。在純知識(shí)測(cè)試中，系統(tǒng)完全依賴內(nèi)置知識(shí)；概念提示測(cè)試則直接提供關(guān)鍵概念；精選文檔測(cè)試提供必要信息但排除干擾；完整文檔測(cè)試最接近真實(shí)場(chǎng)景，包含大量無(wú)關(guān)內(nèi)容。這種設(shè)計(jì)如同醫(yī)學(xué)診斷，能夠精確區(qū)分"營(yíng)養(yǎng)不良"與"消化障礙"兩種不同問(wèn)題。

構(gòu)建科學(xué)問(wèn)題庫(kù)的過(guò)程體現(xiàn)了嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)態(tài)度。研究團(tuán)隊(duì)從近三年前沿科學(xué)文獻(xiàn)中精選問(wèn)題，確保內(nèi)容對(duì)大多數(shù)人工智能系統(tǒng)都是全新挑戰(zhàn)。81位來(lái)自頂尖高校的博士生參與問(wèn)題設(shè)計(jì)，每位專家僅負(fù)責(zé)本專業(yè)領(lǐng)域，避免跨學(xué)科認(rèn)知偏差。問(wèn)題校準(zhǔn)機(jī)制尤為嚴(yán)格，要求系統(tǒng)在無(wú)輔助時(shí)完全失敗，獲得提示后部分成功，確保測(cè)試難度適中。

測(cè)試結(jié)果顛覆了傳統(tǒng)認(rèn)知。14個(gè)主流模型中，63%在獲得外部信息后表現(xiàn)下降，這種現(xiàn)象被命名為"模式切換脆弱性"。就像經(jīng)驗(yàn)豐富的司機(jī)依賴導(dǎo)航后反而迷路，某些系統(tǒng)在內(nèi)置知識(shí)與外部信息間切換時(shí)出現(xiàn)認(rèn)知混亂。更令人意外的是，即使直接告知關(guān)鍵概念，系統(tǒng)仍無(wú)法有效組織解題步驟，暴露出"結(jié)構(gòu)性概念誤用"的深層缺陷。

干擾信息的影響呈現(xiàn)復(fù)雜模式。隨著無(wú)關(guān)文檔增加，系統(tǒng)錯(cuò)誤率并非線性上升，而是出現(xiàn)特定拐點(diǎn)。研究發(fā)現(xiàn)，錯(cuò)誤主要源于推理起點(diǎn)偏差——系統(tǒng)被干擾信息誤導(dǎo)，從錯(cuò)誤方向展開(kāi)分析。這種傾向類似于人類面對(duì)海量信息時(shí)的認(rèn)知過(guò)載，反映出當(dāng)前系統(tǒng)缺乏有效的信息篩選機(jī)制。

推理過(guò)程分析揭示了更多細(xì)節(jié)。在概念應(yīng)用方面，系統(tǒng)平均只能正確使用68%的提示概念，即使直接提供解題要素仍存在理解偏差。錯(cuò)誤類型分布顯示，38%的錯(cuò)誤源于邏輯跳躍或步驟缺失，40%與關(guān)鍵信息遺漏相關(guān)。這種模式表明，系統(tǒng)在復(fù)雜信息環(huán)境中的信息提取能力亟待提升。

技術(shù)實(shí)現(xiàn)層面，系統(tǒng)采用固定文檔庫(kù)設(shè)計(jì)，每個(gè)問(wèn)題配備平均6.5個(gè)文檔的測(cè)試集。這種"凍結(jié)信息"策略確保了評(píng)估可重復(fù)性，避免了網(wǎng)絡(luò)搜索的不確定性。針對(duì)不同模型的上下文限制，研究團(tuán)隊(duì)開(kāi)發(fā)了智能截?cái)嗨惴ǎ诒３中畔⑼暾缘耐瑫r(shí)確保公平測(cè)試。自動(dòng)化評(píng)估模型能夠識(shí)別語(yǔ)義等價(jià)的不同表述，提高了結(jié)果可靠性。

這項(xiàng)研究對(duì)人工智能發(fā)展具有多重啟示。在理論層面，首次實(shí)現(xiàn)了認(rèn)知能力的解耦評(píng)估，為系統(tǒng)優(yōu)化指明方向。實(shí)踐應(yīng)用中，開(kāi)發(fā)者可以針對(duì)性改進(jìn)信息處理模塊，而非盲目擴(kuò)大數(shù)據(jù)規(guī)模。哲學(xué)層面，研究引發(fā)對(duì)"真正理解"的深入思考——能夠識(shí)別概念與能夠應(yīng)用概念存在本質(zhì)差異。對(duì)于普通用戶，這意味著需要更審慎地評(píng)估人工智能回答的可靠性，在需要?jiǎng)?chuàng)造性思維的領(lǐng)域保持人類主導(dǎo)地位。

02-07

加拿大團(tuán)隊(duì)創(chuàng)新訓(xùn)練法：讓AI視頻生成告別“片段式”健忘

02-07

比亞迪方程豹鈦7第三次OTA升級(jí)來(lái)襲，16項(xiàng)新增7項(xiàng)優(yōu)化智駕再進(jìn)階

02-07

斯坦福新招：SAFE框架為AI聊天機(jī)器人訓(xùn)練穩(wěn)定性“保駕護(hù)航”

02-07

“片上光纖”新突破：超低損耗光子芯片開(kāi)啟精密測(cè)量與算力新紀(jì)元

陳豪敬表示，這一工作攻克了集成光子學(xué)領(lǐng)域長(zhǎng)期存在的損耗瓶頸，它不是單一的應(yīng)用，而是從底層實(shí)現(xiàn)了平臺(tái)的突破。 “客觀地說(shuō)，我們雖然邁出了用光纖材料實(shí)現(xiàn)低損耗光子芯片的第一步，甚至在可見(jiàn)到近紅外波段達(dá)到了領(lǐng)先水…

02-07

英飛凌4月起上調(diào)電源開(kāi)關(guān)及IC元件價(jià)格，AI需求增長(zhǎng)或?yàn)楸澈笾饕?/a>

電源 IC 漲價(jià)不只會(huì)影響 AI 服務(wù)器，還會(huì)影響臺(tái)式機(jī)電源、主板和顯示器等日常數(shù)碼產(chǎn)品的物料成本。不過(guò)我們目前還無(wú)法得知英飛凌此次漲價(jià)到底會(huì)怎么影響消費(fèi)級(jí)電子設(shè)備價(jià)格，有些廠商可能會(huì)選擇自行消化成本上漲，…

02-07

OpenAI首款硬件Dime曝光：轉(zhuǎn)向耳機(jī)形態(tài)，成本考量下2026年或入市

IT之家 2 月 7 日消息，消息源 @智慧皮卡丘今天（2 月 7 日）在 X 平臺(tái)發(fā)布推文，透露 OpenAI 的首款硬件名為Dime（直譯為 10 美分），是一款類似蘋(píng)果 AirPods 的耳機(jī)產(chǎn)品。…

02-07

Xcode擁抱AI浪潮：接入第三方工具，開(kāi)啟iOS開(kāi)發(fā)全民化新篇章

這次在新版Xcode上，蘋(píng)果的思路也是簡(jiǎn)單粗暴：既然市面上已經(jīng)有實(shí)力強(qiáng)大的AI編程工具，那么直接開(kāi)放接口讓開(kāi)發(fā)者自己選擇就好了。但蘋(píng)果的編程教程做得再通俗易懂、語(yǔ)言語(yǔ)法再簡(jiǎn)單好學(xué)，都比不上「簡(jiǎn)單幾句話，AI…

02-07

OpenAI首款硬件Dime或?yàn)锳I耳機(jī)，因成本調(diào)整戰(zhàn)略，2026年有望面世

02-07

連云港市圖書(shū)館AI專題書(shū)展啟幕共探技術(shù)人文平衡智啟未來(lái)新篇

02-07

OpenAI首款A(yù)I硬件被曝名為Dime：耳機(jī)形態(tài)

02-07

三星預(yù)熱首款Ultra掃地機(jī)器人：越障4.5厘米

02-07

Moltbook的火爆源于人類對(duì)AI的窺探欲

02-07

波士頓動(dòng)力人形機(jī)器人進(jìn)化太神速：Atlas已學(xué)會(huì)連續(xù)空翻

02-07

理想汽車OTA 8.3推送：VLA模型進(jìn)化與路口通行記憶功能上線

02-07

點(diǎn)擊查看更多 +

全站最新

東風(fēng)奕派事故引熱議，汽車門把手安全受關(guān)注！新國(guó)標(biāo)明年起強(qiáng)制實(shí)施

2026年手機(jī)變局中，vivo以平常心深耕，用進(jìn)取心破局

王騰創(chuàng)業(yè)滿月：組建大廠精英團(tuán)隊(duì) 獲千萬(wàn)融資聚焦睡眠健康科技

雷軍豪言4年擴(kuò)英門店至150家，SU7起火風(fēng)波后，他還有安全新牌可打

千匹猛獸登場(chǎng)！小米YU7 GT亮相，欲在紐北挑戰(zhàn)德系高性能SUV霸主地位

雷軍駕駛小米SU7秀漂移神技畫(huà)面張力十足：安全第一切勿盲目跟風(fēng)

熱門內(nèi)容

本欄最新

固態(tài)電池真要“上車”了嗎？續(xù)航與安全雙提升，是未來(lái)還是泡沫？

2025款騰勢(shì)N7來(lái)襲！轎跑造型吸睛，科技內(nèi)飾豪華，續(xù)航動(dòng)力雙在線

追覓創(chuàng)始人再立“萬(wàn)億目標(biāo)” 多元化布局引關(guān)注曾遭員工質(zhì)疑

國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)鄭州試運(yùn)行萬(wàn)卡集群賦能中部算力新飛躍

立春?jiǎn)⑿鲁?一汽奔騰雙擎戰(zhàn)略領(lǐng)航攜手伙伴共赴智電新未來(lái)

中科曙光3套萬(wàn)卡超集群落地鄭州，國(guó)產(chǎn)AI算力邁入實(shí)戰(zhàn)新階段

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ByteDance團(tuán)隊(duì)發(fā)布DeR?系統(tǒng)：精準(zhǔn)拆解AI“檢索力”與“推理力”短板