岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

基準測試不等于真實能力?研究稱AI代碼“通過率”或被高估最高達7倍

   時間:2026-03-12 15:01:26 來源:CHINAZ編輯:快訊 IP:北京 發表評論無障礙通道
 

研究機構 METR 最新發布的一項研究顯示,被廣泛用于評估 AI 編程能力的基準測試 SWE-bench Verified 可能顯著高估了 AI 代理在真實軟件開發環境中的表現。研究發現,在基準測試中被判定為“通過”的 AI 代碼解決方案中,大約一半在實際項目維護者審核時會被拒絕,這意味著自動化評測結果與真實工程質量之間存在明顯差距。

SWE-bench Verified 長期被視為 AI 輔助軟件工程的重要評估標準之一,用于測試模型是否能夠解決開源項目中的真實編程問題,并通過自動化測試驗證代碼修改是否通過項目測試套件。包括 Anthropic 和 OpenAI 在內的多家 AI 公司也經常引用這一基準成績展示模型能力進展。

在此次研究中,METR 團隊邀請了維護開源項目 scikit-learn、Sphinx 和 pytest 的四名資深開發者,對296段 AI 生成代碼進行人工評審。這些代碼來自五個模型生成的解決方案,包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。結果顯示,維護者實際采納率平均比 SWE-bench 自動評分低約24個百分點,這一差異具有統計學意義。

研究還發現,被拒絕的 AI 代碼并非主要因為風格問題,而是存在更實質性的工程缺陷。維護者將問題分為三類:代碼質量不符合項目規范、對現有代碼結構造成破壞,以及基本功能錯誤。其中相當一部分案例屬于功能性錯誤,即使自動化測試通過,代碼仍未真正修復問題。

在模型對比方面,研究發現從 Claude3.5Sonnet 升級至 Claude3.7Sonnet 雖然顯著提升了基準測試通過率,但維護者標記的功能性錯誤數量也有所增加;從 Claude3.7到 Claude4Opus,問題則更多轉向代碼質量層面,而 Claude4.5Sonnet 在代碼質量方面有所改進。相比之下,GPT-5在本次評估中的整體表現明顯落后于 Anthropic 系列模型。

研究團隊還對“任務時間跨度”進行了估算分析:按 SWE-bench 自動評估結果推算,Claude4.5Sonnet 完成達到50% 成功率的任務需要約50分鐘的人類工作量,而按維護者評分計算僅約8分鐘,意味著基準測試可能存在高達約7倍的能力高估。

不過研究人員同時強調,該研究并不意味著 AI 編程代理能力存在根本性上限。通過更好的提示策略、更多人工反饋或多輪迭代,自動評估與人工評審之間的差距仍可能縮小。實驗環境也與真實開發流程存在差異,例如 AI 代理只有一次提交機會,而人類開發者通常可以根據反饋不斷修改代碼。

總體而言,該研究指出,單純依賴基準測試分數評估 AI 編程代理的實際效用可能產生系統性偏差。隨著 AI 編碼模型快速迭代,如何構建更接近真實開發環境的評估體系,正成為 AI 軟件工程領域的重要研究方向。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 国内久久 | 欧洲精品视频在线观看 | 国产精品视频在线播放 | 伊人久久大香线蕉成人综合网 | 这里只有精品999 | 一级黄色a级片 | 国产精品mv | 亚洲精品久久久久久久久久久 | 久久国产精品波多野结衣av | 久久九九视频 | 99精品国产一区二区 | 99re6这里只有精品 | 国产成人亚洲精品自产在线 | 亚洲精品在线免费观看视频 | 精品久久久久久久久久久国产字幕 | 视频国产在线 | 国产精品一二三 | 665566综合网 | 伊人国产在线观看 | 九色视频偷拍少妇的秘密 | 天堂网免费视频 | 一级黄色片免费 | 久久久99国产精品免费 | 黑人巨大精品欧美一区二区 | 亚洲高清在线观看视频 | 成人午夜毛片 | 神马久久久久久久久久久 | 成人免费福利视频 | 日韩最新视频 | 一级 黄 色 片69| 国产欧美视频在线观看 | 久久久久亚洲精品 | 亚洲情侣在线 | 精品色| 久久综合视频网 | 看av在线 | 成人免费看黄 | 精品无码三级在线观看视频 | 日本一级片在线观看 | 看黄色的网站 | 亚洲第三区|