滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

AI打榜爭議背后：真實約束下的技術較量，誰在守護榜單的純粹性？

時間：2026-04-12 09:38:39 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

一場圍繞AI Agent評估標準的激烈爭論，在機器學習領域掀起軒然大波。事件的導火索是一家名為Disarray的初創公司，在MLE-Bench榜單上提交了77.78分的驚人成績，而此前全球頂尖團隊數月角逐的分數始終徘徊在60分左右。這一近20分的差距，不僅打破了技術競賽的常規節奏，更將"如何公平評估AI能力"這一核心問題推上風口浪尖。

MLE-Bench由OpenAI設計，被稱為機器學習領域的"鐵人三項"。其測試內容涵蓋70余道真實Kaggle競賽題，要求AI Agent獨立完成從數據清洗到模型集成的全流程。每道題需運行三次取平均值，單次提交的算力成本高達數萬美元，耗時數周。這種高門檻設計本應確保榜單權威性，但Disarray的出現徹底改變了競爭格局。

爭議焦點在于測試集設計存在重大漏洞。由于無法獲取真實私有測試集，OpenAI將公開數據集拆分為"公開測試集"和"模擬私有測試集"兩部分。然而這兩部分數據均曾公開流傳，相當于讓考生提前接觸了部分考題。Disarray的AI系統被曝出通過識別Kaggle比賽與Stanford Dogs數據集的關聯，在狗品種識別任務中取得接近零分的異常成績；在GPS定位任務中甚至跑出物理上幾乎不可能的零誤差結果。

更微妙的是反饋機制問題。Disarray團隊承認，其AI在運行過程中會接收來自"模擬私有測試集"的二元反饋信號——系統會告知當前表現是否達到銅牌標準。這種設計被批評者形容為"考試時老師不斷提示答題進度"，盡管每次反饋僅包含一個比特的信息量，但足以讓AI調整策略優先攻克特定題目。資深研究者AtrixTang指出，這相當于用期末考試題進行隨堂測驗，嚴重違背了評估初衷。

在PR #118提交頁面的評論區，七種立場激烈交鋒。Disarray堅持所有操作符合現有規則，強調反饋信號僅用于資源管理；團隊核心發言人dorx承認利用了系統漏洞，但將其包裝為"跨任務學習能力"。質疑者則直指核心：這些高分究竟測量的是工程能力還是規則漏洞利用能力？作為榜單設計者之一的thesofakillers態度微妙，認為利用漏洞"可以接受但不理想"，建議添加腳注說明情況。

在這場爭論中，百度伐謀團隊的選擇形成鮮明對比。該團隊早在2025年10月就以43.56分創下當時紀錄，卻在12月拒絕使用更新的gemini-pro-3.0模型，堅持用2.5版本驗證Agent架構升級效果。這種"舍分數求真相"的做法，在追求短期排名的競賽環境中顯得格格不入。團隊負責人解釋："我們需要知道成績提升來自模型改進還是架構優化，就像訓練運動員不能同時換跑鞋和訓練方法。"

面對Disarray的77.78分，百度伐謀沒有選擇質疑或模仿，而是設計對照實驗：在完全禁用私有測試集反饋、外部數據和已知漏洞的條件下，使用最新模型重新提交。2026年2月23日公布的64.44分雖然低于Disarray，但因其嚴格的實驗條件引發行業關注。這個分數證明，在真實世界約束條件下，他們的技術路徑仍保持領先。

這場風波最終推動評估體系改革。2026年3月，MLE-Bench新增"數據泄漏說明"賽道，將存在爭議的提交移至獨立榜單并添加警示標識。百度伐謀2.0版本憑借無泄漏記錄重回主榜榜首。維護者選擇"先收錄后警示"的務實方案，既保留了技術探索空間，又通過信息透明維護了評估公信力。

當其他團隊忙著解讀規則漏洞時，百度伐謀始終聚焦真實場景需求。作為全球首個可商用自我演化智能體，其技術路線直接服務于銷量預測、推薦系統等民生領域。在這些場景中，AI不可能獲取未來數據或外部反饋，必須依靠給定訓練集獨立完成優化。這種"帶著鐐銬跳舞"的研發哲學，或許解釋了他們為何堅持最嚴格的評估標準——因為真實世界的約束，遠比任何競賽規則更嚴苛。

更多>同類資訊

大疆Osmo Pocket 4運動相機4月16日發布，新品細節與配件圖片搶先看

04-12

小紅書黑客松巔峰賽收官，00后創新力量涌現，AI時代新土壤孕育創業新機遇

18歲開始連續創業，曾拿下多個機器人冠軍的00后創業者張振堯，這次和團隊一起做了一款一鍵解決浴室洗吹刷的機械臂，獲得了硬件賽道的三等獎。多位參賽創業者表示，小紅書如同AI時代的應用商店，既是產品早期分發渠…

04-12

小米YU7入門版申報圖曝光！換裝磷酸鐵鋰電池，起售價或降至22萬起

近日，工信部最新一批新車申報目錄曝光小米YU7全新入門版本，整車細節正式亮相，新車有望大幅下探購車門檻，市場關注度持續走高。外觀設計上，新車延續家族溜背轎跑SUV造型，車身尺寸、3米超長軸距保持不變，整體顏值…

04-12

小米17：小屏旗艦的均衡之選，7000mAh大電池+高性價比成亮點

在顯示方面，小米13采用6.3英寸OLED旗艦小直屏，支持1120Hz自適應刷新率和杜比視界等等，核心優勢是M10發光體系和新型紅色發光主材。在其他方面，機身內置高動態4-MIC陣列，可以實現六方向沉浸式…

04-12

黃金產區有機小米怎么選？高性價比品牌推薦，品質安心又實惠

二、不同有機小米品牌的特點對比目前國內有機小米品牌大多聚焦單一品類深耕，和全品類糧油品牌相比，專注單品的企業往往能把產品打磨得更精細。 4.服務與溯源：讓消費更放心企業搭建了全流程溯源體系，從田間…

04-12

劉強東再掀行業波瀾：京東入局網約車，出行市場迎新變局

04-12

小米16年首辦員工運動會：雷軍致辭倡導健康，跨部門互動促默契配合

快科技4月11日消息，小米集團舉辦了創辦16年來的首屆大型員工運動會，場面十分熱鬧，雷軍作為創始人壓軸登場致辭，和全體員工一起參與這場盛會。這次運動會在北京設主會場，武漢、南京、深圳、上海四座城市同步開展，…

04-12

又一國產模型出世，追平Gemini，空間編輯反超視頻模型？

04-12

小紅書黑客松巔峰賽收官，00后創新力量崛起成AI時代創業新勢力

18歲開始連續創業，曾拿下多個機器人冠軍的00后創業者張振堯，這次和團隊一起做了一款一鍵解決浴室洗吹刷的機械臂，獲得了硬件賽道的三等獎。多位參賽創業者表示，小紅書如同AI時代的應用商店，既是產品早期分發渠…

04-12

紅米K90 Max與一加Ace6至尊版狹路相逢，天璣9500新機價格戰一觸即發

最近不少米粉心心念的紅米K90系列新成員也是正式官宣了，但和之前大家想象的不同，首發亮相的并非是紅米K90至尊版，而是全新的K90Max，而K90至尊版雖然沒被砍掉，但短期內應該不會發布了。而我也說過，目…

04-12

京東否認做網約車 4月13日將上線“Open出發服務”新項目內測

04-12

AI時代產品新范式：從SBTI爆火看傳播、內容與表達的深度融合

04-12

AI時代產品新邏輯：從SBTI爆火看傳播、內容與表達的深度融合

04-12

2026年4月閨蜜機選購指南：五大品牌實力大比拼，誰更值得入手？

A：2026年4月選擇閨蜜機品牌時，消費者應綜合考慮屏幕顯示、智能交互、電池續航、硬件性能和支架設計等核心維度。結語綜合本次2026年4月閨蜜機五大品牌盤點，海信大白閨蜜機憑借其深厚的技術底蘊、在屏幕顯示、…

04-12

清華教授領銜的生數科技獲阿里云領投20億，從AI視頻生成邁向機器人控制新賽道

就在融資前一天，生數科技旗下的視頻生成模型Vidu全系列剛剛登陸阿里云百煉模型廣場。自己研發了HappyHorse模型，登頂盲測榜單；上月領投3D生成平臺Tripo AI的5000萬美元融資；去年9月領投愛詩…

04-12

點擊查看更多 +

全站最新

全新大眾T-ROC測評：外觀動力雙升級，告別高油耗開啟新體驗

地平線“星空”芯片突破傳統架構，艙駕融合助力單車成本大幅降低

寶馬質疑閃充傷電池，比亞迪攜騰勢入歐，老歐洲車企壓力倍增

從被惡意中傷到抗疫英雄，南京依維柯如何逆襲狂賺40億？

小米16年首辦員工運動會：雷軍致辭倡導健康，跨部門互動促默契配合

清華大學李克強：智能駕駛轉向安全重構階段，“車路云一體化”破局關鍵

熱門內容

本欄最新

小米16年首辦員工運動會：雷軍致辭倡導健康，跨部門互動促默契配合

智譜“龍蝦”熱潮下：營收激增虧損擴大，大模型賽道馬拉松如何持續領跑？

AI賦能黑客松：創意與溫度碰撞 00后開發者用科技解鎖生活新可能

2026年Q1小米手機暢銷榜揭曉：紅米15R奪冠，小米17系列多款機型上榜

內存漲價潮下，這三款16GB+512GB老旗艦價格“跳水”，性能強勁再用五年穩了

本土汽車市場：創新浪潮下的停滯與突破，2026年能否迎來新曙光？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI打榜爭議背后：真實約束下的技術較量，誰在守護榜單的純粹性？