全球頂尖學者團隊近日在《自然》雜志發表了一項突破性研究,推出名為“人類終極挑戰”(HLE)的AI基準測試系統。這項由近千名科學家聯合設計的評估體系,旨在為人工智能發展設立全新標桿。測試涵蓋數學、物理、醫學等六大領域,每道題目均由對應學科權威專家精心設計,并經過嚴格的AI預篩選機制——只有當所有主流模型均無法正確解答時,題目才會被納入題庫。
最新測試結果顯示,當前最先進的AI模型表現遠低于預期。GPT-4o僅取得2.7%的正確率,Claude 3.5 Sonnet為4.1%,OpenAI的o1模型達到8%。即便后續升級的Gemini 2.5 Pro和GPT-5,得分也分別只有21.6%和25.3%,無一達到及格線。研究團隊特別指出,這些模型在答題時普遍表現出過度自信,超過80%的錯誤答案被賦予90%以上的置信度,這種認知偏差在醫療診斷等關鍵領域可能引發嚴重風險。
測試題目設計極具挑戰性。例如某道歷史題要求解讀古敘利亞帕爾米拉文明的碑文,需要同時掌握古閃米特語、考古學和歷史學知識;生物學題目則考察蜂鳥骨骼結構,需精確識別特定籽骨連接的肌腱數量;數學題涉及自然變換理論,滿屏的Σ、∞符號構成視覺與邏輯的雙重考驗。每道題目的誕生都經歷嚴苛篩選:先由AI初篩淘汰簡單題目,再經研究生團隊初審,最終由學科專家終審確認。
該基準的推出源于傳統測試體系的失效。以MMLU測試為例,其包含57個學科1.4萬道題目,2020年時AI平均得分僅30-40分,但到2023年GPT-4已飆升至86分,當前開源模型更普遍突破90分大關。這種“分數溢出”現象促使學界重新思考評估標準。“人類終極挑戰”的2500道題目,正是從數萬道原始題目中精挑細選而出,確保能持續區分人類專家與AI系統的能力邊界。
研究發現,推理模型的表現與思考時間呈現非線性關系。適當延長思考時間可提升正確率,但超過臨界值后反而下降,暗示當前AI存在“無效推理”現象。這為模型優化提供了新方向:相比單純增加計算量,更需要提升推理效率。測試數據還顯示,AI在數學和計算機領域表現相對突出,但歷史、語言等需要深度語境理解的領域得分慘淡,暴露出符號操作與真實世界理解之間的本質差異。
該基準測試系統已部分公開,訪問lastexam.ai網站即可查看樣題。研究團隊強調,這項工作并非制造“AI恐慌”,而是提供客觀評估工具。通過明確技術邊界,既能防止對AI能力的過度神化,也能為開發者指明改進方向。參與命題的學者指出,真正的智能需要融合專業知識、上下文理解和深度推理能力,當前系統距離這個目標仍有顯著差距。
相關論文已發表于《自然》雜志,完整測試數據集和命題方法論同步公開。這項研究不僅為AI評估樹立新標準,更引發對人類智能本質的深入思考——當機器開始挑戰專家級學術問題時,我們或許需要重新定義“智慧”的內涵。











