滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

全球頂尖學者設2500道專家級考題，主流AI最高僅得25.3%難及格

時間：2026-03-01 18:49:05 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

全球頂尖學者團隊近日在《自然》雜志發表了一項突破性研究，推出名為“人類終極挑戰”（HLE）的AI基準測試系統。這項由近千名科學家聯合設計的評估體系，旨在為人工智能發展設立全新標桿。測試涵蓋數學、物理、醫學等六大領域，每道題目均由對應學科權威專家精心設計，并經過嚴格的AI預篩選機制——只有當所有主流模型均無法正確解答時，題目才會被納入題庫。

最新測試結果顯示，當前最先進的AI模型表現遠低于預期。GPT-4o僅取得2.7%的正確率，Claude 3.5 Sonnet為4.1%，OpenAI的o1模型達到8%。即便后續升級的Gemini 2.5 Pro和GPT-5，得分也分別只有21.6%和25.3%，無一達到及格線。研究團隊特別指出，這些模型在答題時普遍表現出過度自信，超過80%的錯誤答案被賦予90%以上的置信度，這種認知偏差在醫療診斷等關鍵領域可能引發嚴重風險。

測試題目設計極具挑戰性。例如某道歷史題要求解讀古敘利亞帕爾米拉文明的碑文，需要同時掌握古閃米特語、考古學和歷史學知識；生物學題目則考察蜂鳥骨骼結構，需精確識別特定籽骨連接的肌腱數量；數學題涉及自然變換理論，滿屏的Σ、∞符號構成視覺與邏輯的雙重考驗。每道題目的誕生都經歷嚴苛篩選：先由AI初篩淘汰簡單題目，再經研究生團隊初審，最終由學科專家終審確認。

該基準的推出源于傳統測試體系的失效。以MMLU測試為例，其包含57個學科1.4萬道題目，2020年時AI平均得分僅30-40分，但到2023年GPT-4已飆升至86分，當前開源模型更普遍突破90分大關。這種“分數溢出”現象促使學界重新思考評估標準。“人類終極挑戰”的2500道題目，正是從數萬道原始題目中精挑細選而出，確保能持續區分人類專家與AI系統的能力邊界。

研究發現，推理模型的表現與思考時間呈現非線性關系。適當延長思考時間可提升正確率，但超過臨界值后反而下降，暗示當前AI存在“無效推理”現象。這為模型優化提供了新方向：相比單純增加計算量，更需要提升推理效率。測試數據還顯示，AI在數學和計算機領域表現相對突出，但歷史、語言等需要深度語境理解的領域得分慘淡，暴露出符號操作與真實世界理解之間的本質差異。

該基準測試系統已部分公開，訪問lastexam.ai網站即可查看樣題。研究團隊強調，這項工作并非制造“AI恐慌”，而是提供客觀評估工具。通過明確技術邊界，既能防止對AI能力的過度神化，也能為開發者指明改進方向。參與命題的學者指出，真正的智能需要融合專業知識、上下文理解和深度推理能力，當前系統距離這個目標仍有顯著差距。

相關論文已發表于《自然》雜志，完整測試數據集和命題方法論同步公開。這項研究不僅為AI評估樹立新標準，更引發對人類智能本質的深入思考——當機器開始挑戰專家級學術問題時，我們或許需要重新定義“智慧”的內涵。

更多>同類資訊

華為MWC2026首秀：Atlas 950攜8192張昇騰卡打造全球算力新標桿

03-01

知乎接入DeepSeek-R1：從知識集市到智慧伙伴，開啟高效思考新旅程

它的“搜索”行為，發生在一個更底層、更智能的層面：它直接在知乎這座沉淀了超過5000萬篇高質量中英文問答、專欄文章、文獻精華的“知識富礦”里，進行深度挖掘和邏輯推理。你會感覺，AI不是在機械地回復，而是在有邏…

03-01

娃哈哈精機公司進入解散程序，曾深耕智能裝備與機器人研發領域

03-01

博通3.5D XDSiP平臺發力，2nm定制芯片交付富士通助力AI計算新突破

自2024年推出我們的3.5D XDSiP平臺技術以來，博通擴大了其3.5D平臺功能，以支持我們將于2026年下半年發貨的更廣泛客戶群的XPU。通過將2nm工藝創新與面對面3D集成相結合，它釋放了下一代人工智…

03-01

英偉達攜手多家行業巨頭共筑6G人工智能原生無線平臺新未來

IT之家 3 月 1 日消息，在 2026年巴塞羅那世界移動通信大會上，英偉達今日宣布與博思艾倫咨詢公司、英國電信集團、思科、德國電信、愛立信、MITRE、諾基亞、OCUDU生態系統基金會、ODC、SK …

03-01

我國發布人形機器人與具身智能標準體系，為產業突破發展指明方向

工業和信息化部人形機器人與具身智能標委會副主任委員江磊：行業已經發展到規模化的前期，應當說2025年已經發展到萬臺級。據介紹，下一步，工業和信息化部人形機器人與具身智能標準化技術委員會（以下簡稱“標委會…

03-01

英偉達攜手多家企業共筑人工智能原生6G網絡新未來

03-01

MWC 2026巴塞羅那：華為攜Atlas 950 SuperPoD等超節點產品亮相海外

03-01

三星電子發布AI戰略藍圖：2030年全球工廠邁向AI驅動自主生產新階段

03-01

英特爾至強600系列處理器發布，86核至強698X多負載下睿頻表現全解析

03-01

英偉達攜手多家企業共筑6G未來：打造開放可信人工智能無線平臺

IT之家 3 月 1 日消息，在 2026年巴塞羅那世界移動通信大會上，英偉達今日宣布與博思艾倫咨詢公司、英國電信集團、思科、德國電信、愛立信、MITRE、諾基亞、OCUDU生態系統基金會、ODC、SK …

03-01

裝機量突破4700萬、生態超7.5萬款，鴻蒙開啟“全場景生態”新征程

更值得注意的是，它正在與昇騰計算生態形成協同。如果生態繼續擴張，應用質量穩步提升，AI能力順利融入終端場景，鴻蒙有望成為全球移動操作系統的第三極；如果增長停滯，它則可能停留在區域性成功階段。真正的考驗，是…

03-01

杭州以勒現磨咖啡機源頭工廠：借智能化管理，開啟商用設備制造新篇章

這些在終端產品上積累的物聯網、大數據與人工智能技術，無疑為其生產工廠的智能化管理提供了深厚的技術儲備和可借鑒的實施經驗。總的來看，從杭州以勒的實踐可以看出，源頭工廠的智能化管理，實質上是將新一代信息技術與制…

03-01

AI浪潮下6G網絡如何破局？從流量重塑到架構革新全解析

報告指出，當前 AI 應用對移動網絡流量影響有限，但未來多模態 AI 應用、AI 終端及行業場景將重塑流量格局：一方面，AR眼鏡、自動駕駛等場景會推高上行鏈路需求，打破當下下行主導的網絡設計，且 AI 密集…

03-01

理想汽車2月交付26421輛累計破150萬臺新車型與超充網絡助力發展

03-01

點擊查看更多 +

全站最新

馬年新春送禮新思路！訊飛AI錄音筆Pokee，助力職場新人高效開啟新年征程

2026重慶智電展：供應鏈巨頭展臺大比拼，誰將引領技術新潮流？

華為乾崑智駕車位到車位2.0使用超4000萬次，春節輔助駕駛數據也亮眼

康弘藥業(002773.SZ)：枸櫞酸莫沙必利片等8款藥品獲集采接續資格含兩款首次參與品種

3月11日上市！iCAR V27增程系統超給力，續航超1200km成家庭越野新寵

小米汽車官宣入局超跑領域攜Vision GT實車亮相MWC探索未來出行

熱門內容

本欄最新

理想汽車2月交付26421輛累計破150萬臺新車型與超充網絡助力發展

理想汽車2月交付超2.6萬輛累計交付破159萬新品二季度上市

零跑汽車2月交付28067臺零跑A10即將預售 2026年上半年批量交付

零跑汽車2月交付28067臺創新高 A10即將預售續航超500km配置豐富

2025款別克E5：17萬級合資純電新選擇，大空間強續航駕控出色

中國科研突破！新型電池低溫續航強勁，能量密度飆升或改寫新能源格局

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

全球頂尖學者設2500道專家級考題，主流AI最高僅得25.3%難及格