滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

基準測試不等于真實能力?研究稱AI代碼“通過率”或被高估最高達7倍

時間：2026-03-12 15:01:26 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

研究機構 METR 最新發布的一項研究顯示，被廣泛用于評估 AI 編程能力的基準測試 SWE-bench Verified 可能顯著高估了 AI 代理在真實軟件開發環境中的表現。研究發現，在基準測試中被判定為“通過”的 AI 代碼解決方案中，大約一半在實際項目維護者審核時會被拒絕，這意味著自動化評測結果與真實工程質量之間存在明顯差距。

SWE-bench Verified 長期被視為 AI 輔助軟件工程的重要評估標準之一，用于測試模型是否能夠解決開源項目中的真實編程問題，并通過自動化測試驗證代碼修改是否通過項目測試套件。包括 Anthropic 和 OpenAI 在內的多家 AI 公司也經常引用這一基準成績展示模型能力進展。

在此次研究中，METR 團隊邀請了維護開源項目 scikit-learn、Sphinx 和 pytest 的四名資深開發者，對296段 AI 生成代碼進行人工評審。這些代碼來自五個模型生成的解決方案，包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。結果顯示，維護者實際采納率平均比 SWE-bench 自動評分低約24個百分點，這一差異具有統計學意義。

研究還發現，被拒絕的 AI 代碼并非主要因為風格問題，而是存在更實質性的工程缺陷。維護者將問題分為三類:代碼質量不符合項目規范、對現有代碼結構造成破壞，以及基本功能錯誤。其中相當一部分案例屬于功能性錯誤，即使自動化測試通過，代碼仍未真正修復問題。

在模型對比方面，研究發現從 Claude3.5Sonnet 升級至 Claude3.7Sonnet 雖然顯著提升了基準測試通過率，但維護者標記的功能性錯誤數量也有所增加;從 Claude3.7到 Claude4Opus，問題則更多轉向代碼質量層面，而 Claude4.5Sonnet 在代碼質量方面有所改進。相比之下，GPT-5在本次評估中的整體表現明顯落后于 Anthropic 系列模型。

研究團隊還對“任務時間跨度”進行了估算分析:按 SWE-bench 自動評估結果推算，Claude4.5Sonnet 完成達到50% 成功率的任務需要約50分鐘的人類工作量，而按維護者評分計算僅約8分鐘，意味著基準測試可能存在高達約7倍的能力高估。

不過研究人員同時強調，該研究并不意味著 AI 編程代理能力存在根本性上限。通過更好的提示策略、更多人工反饋或多輪迭代，自動評估與人工評審之間的差距仍可能縮小。實驗環境也與真實開發流程存在差異，例如 AI 代理只有一次提交機會，而人類開發者通常可以根據反饋不斷修改代碼。

總體而言，該研究指出，單純依賴基準測試分數評估 AI 編程代理的實際效用可能產生系統性偏差。隨著 AI 編碼模型快速迭代，如何構建更接近真實開發環境的評估體系，正成為 AI 軟件工程領域的重要研究方向。

更多>同類資訊

?從芯片巨頭到全棧玩家：英偉達擬投 260 億美元發力“開放權重”模型

03-12

OpenAI調整ChatGPT電商戰略：聚焦零售商應用，弱化直接結賬模式

03-12

OpenClaw破局AI眼鏡困境：分層解耦架構引領硬件新入口爭奪戰

03-12

英偉達20億美元注資Nebius 攜手打造AI云平臺共拓智能時代新藍海

周三的投資聲明也建立在Nebius此前持續部署英偉達基礎設施的基礎上，其中包括在美國建設多個吉瓦級AI工廠。 “如今借助英偉達，我們正把這種能力擴展到整個技術棧——從吉瓦級AI工廠到推理和軟件層，打造全球最…

03-12

中國信通院依托既有成果正式開啟智能助理智能體Claw系列標準編制

據中國信通院消息，中國信息通信研究院（簡稱“中國信通院”）依托中國人工智能產業發展聯盟（AIIA）軟件智能化委員會，長期深耕“AI+軟件”領域，已發布開發/測試/運維智能體、軟件智能化成熟度模型等多項國際國…

03-12

300-400MHz四葉草天線：以獨特設計解鎖中頻段通信新可能

3、頻段適配性：針對300-400MHz頻段，輻射臂的長度通常設計為該頻段中心波長的1/4至1/2，通過調整臂間距與相位關系，實現頻段內的高效輻射。 3、高穩定性：通過寬頻帶設計（覆蓋300-400MHz全…

03-12

3999元iPhone“寒酸”登場，蘋果換賽道布局AI，國產手機迎新挑戰？

但蘋果聰明就聰明在，它不跟國產手機卷硬件了，悄悄換了賽道。但如果你想窺探一下AI時代的未來，就會發現一個很現實的問題：現在的科技巨頭，早就不關心你的屏幕多亮、攝像頭多厲害，他們只關心，未來你把生活指令交給…

03-12

山西AI新勢力：數字人技術如何助力企業降本增效開啟商業新篇

說到山西 AI 公司哪家強，不得不提千里眼智能科技的技術優勢。說到太原 AI領域的創新，數字人直播絕對是個亮點。在比較山西 AI公司哪家好時，價格和技術都是關鍵因素。隨著AI技術發展，數字人正在成為…

03-12

REDMI手機語音翻譯全指南：從免稅店到居酒屋，跨文化交流無障礙實測

對著手機說"打開翻譯功能"，系統會自動彈出包含文本翻譯、語音翻譯、同聲傳譯的選項菜單。在設置中開啟"懸浮字幕"功能，翻譯結果會以大字顯示在屏幕上方雖然REDMI原生翻譯功能已足夠強大，但在處理專業術語或…

03-12

英偉達豪擲260億美元布局未來：五年深耕開源AI大模型領域

03-12

日月光高雄新廠動土：178億新臺幣投建瞄準AI與HPC先進封測需求

03-12

工信部發布“龍蝦”智能體安全指南：六要六不要筑牢安全防線

03-12

英偉達布局開源AI模型領域擬5年豪擲260億美元加速轉型與鞏固地位

03-12

零一汽車再獲12億融資新能源重卡研發加速 2026年二季度將實現常態化無人

03-12

日月光高雄新廠動土：178億新臺幣投建助力AI與HPC先進封測發展

03-12

全站最新

A股CPO概念股普跌，天孚通信、德科立跌超4%

A股銀行股普漲，渝農商行、杭州銀行漲超2%

飛速創新沖擊港股"企業網絡解決方案第一股"，卡位數字轉型與AI浪潮

熱門內容

本欄最新

山西AI新勢力：數字人技術如何助力企業降本增效開啟商業新篇

零一汽車再獲12億融資新能源重卡研發加速 2026年二季度將實現常態化無人

元基時代：以尖端視覺技術賦能企業，打造品牌數字化進階新引擎

黃仁勛體驗英偉達Alpamayo：22分鐘零接管，暢行擁堵路段顯實力

黃仁勛親身體驗英偉達脫手駕駛系統，22分鐘應對復雜路況全程無接管

2026AWE將至：華為鴻蒙智家“1+3+N”升級，開啟智慧生活新想象

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

基準測試不等于真實能力?研究稱AI代碼“通過率”或被高估最高達7倍