一場圍繞AI Agent評估標準的激烈爭論,在機器學習領域掀起軒然大波。事件的導火索是一家名為Disarray的初創公司,在MLE-Bench榜單上提交了77.78分的驚人成績,而此前全球頂尖團隊數月角逐的分數始終徘徊在60分左右。這一近20分的差距,不僅打破了技術競賽的常規節奏,更將"如何公平評估AI能力"這一核心問題推上風口浪尖。
MLE-Bench由OpenAI設計,被稱為機器學習領域的"鐵人三項"。其測試內容涵蓋70余道真實Kaggle競賽題,要求AI Agent獨立完成從數據清洗到模型集成的全流程。每道題需運行三次取平均值,單次提交的算力成本高達數萬美元,耗時數周。這種高門檻設計本應確保榜單權威性,但Disarray的出現徹底改變了競爭格局。
爭議焦點在于測試集設計存在重大漏洞。由于無法獲取真實私有測試集,OpenAI將公開數據集拆分為"公開測試集"和"模擬私有測試集"兩部分。然而這兩部分數據均曾公開流傳,相當于讓考生提前接觸了部分考題。Disarray的AI系統被曝出通過識別Kaggle比賽與Stanford Dogs數據集的關聯,在狗品種識別任務中取得接近零分的異常成績;在GPS定位任務中甚至跑出物理上幾乎不可能的零誤差結果。
更微妙的是反饋機制問題。Disarray團隊承認,其AI在運行過程中會接收來自"模擬私有測試集"的二元反饋信號——系統會告知當前表現是否達到銅牌標準。這種設計被批評者形容為"考試時老師不斷提示答題進度",盡管每次反饋僅包含一個比特的信息量,但足以讓AI調整策略優先攻克特定題目。資深研究者AtrixTang指出,這相當于用期末考試題進行隨堂測驗,嚴重違背了評估初衷。
在PR #118提交頁面的評論區,七種立場激烈交鋒。Disarray堅持所有操作符合現有規則,強調反饋信號僅用于資源管理;團隊核心發言人dorx承認利用了系統漏洞,但將其包裝為"跨任務學習能力"。質疑者則直指核心:這些高分究竟測量的是工程能力還是規則漏洞利用能力?作為榜單設計者之一的thesofakillers態度微妙,認為利用漏洞"可以接受但不理想",建議添加腳注說明情況。
在這場爭論中,百度伐謀團隊的選擇形成鮮明對比。該團隊早在2025年10月就以43.56分創下當時紀錄,卻在12月拒絕使用更新的gemini-pro-3.0模型,堅持用2.5版本驗證Agent架構升級效果。這種"舍分數求真相"的做法,在追求短期排名的競賽環境中顯得格格不入。團隊負責人解釋:"我們需要知道成績提升來自模型改進還是架構優化,就像訓練運動員不能同時換跑鞋和訓練方法。"
面對Disarray的77.78分,百度伐謀沒有選擇質疑或模仿,而是設計對照實驗:在完全禁用私有測試集反饋、外部數據和已知漏洞的條件下,使用最新模型重新提交。2026年2月23日公布的64.44分雖然低于Disarray,但因其嚴格的實驗條件引發行業關注。這個分數證明,在真實世界約束條件下,他們的技術路徑仍保持領先。
這場風波最終推動評估體系改革。2026年3月,MLE-Bench新增"數據泄漏說明"賽道,將存在爭議的提交移至獨立榜單并添加警示標識。百度伐謀2.0版本憑借無泄漏記錄重回主榜榜首。維護者選擇"先收錄后警示"的務實方案,既保留了技術探索空間,又通過信息透明維護了評估公信力。
當其他團隊忙著解讀規則漏洞時,百度伐謀始終聚焦真實場景需求。作為全球首個可商用自我演化智能體,其技術路線直接服務于銷量預測、推薦系統等民生領域。在這些場景中,AI不可能獲取未來數據或外部反饋,必須依靠給定訓練集獨立完成優化。這種"帶著鐐銬跳舞"的研發哲學,或許解釋了他們為何堅持最嚴格的評估標準——因為真實世界的約束,遠比任何競賽規則更嚴苛。












