滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分

時間：2026-02-03 20:19:17 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

最近一項名為 “人類終極考試”（HLE）的測試結果讓我們重新審視 AI 的真實能力。根據《自然》雜志的報道，GPT-4o 在這 2500 道由全球專家出題的測試中，僅獲得了可憐的 2.7 分（滿分 100 分），而表現最好的 AI 模型也僅得 8 分。這一結果讓人質疑，AI 的強大究竟是實打實的實力，還是表面的繁榮？

傳統的 AI 測試越來越無法反映真實能力，主要原因有兩個。一是 “基準飽和”，即 AI 系統已經將常規測試題目背得滾瓜爛熟，得分的高低與真正的理解能力無關；二是 “答案作弊”，很多測試的答案可以直接在網上找到，使得 AI 看似答對問題，但實際上只是依賴于檢索和記憶，而非真正的推理能力。

為了解決這些問題，HLE 的設計者們集結了來自 50 個國家的近 1000 名專家，確保每道題目都要求深層的專業知識，難度大幅提升。HLE 的題目不僅覆蓋了數學、物理、化學等多個領域，還設定了嚴格的審核流程，確保題目難度足夠，難以被 AI 輕易破解。比如數學題需要深入邏輯推理，化學題涉及復雜的反應機制，絕不是簡單的檢索就能得到答案。

測試結果一目了然：GPT-4o 僅得 2.7 分，Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分別獲得 4.1% 和 4.6% 的準確率，表現最好的 o1 也僅得 8%。這些數據清楚地表明，即便是最新一代的 AI，在面對真正需要深厚專業知識的問題時，依然顯得無能為力。

通過 HLE 的測試，我們可以看到 AI 的真實能力與傳統基準測試中的高分形成了鮮明對比。這也促使我們重新思考，AI 是否真的如我們想象中那樣聰明，還是只是一種表象的成功。

更多>同類資訊

第三代G3愿景噴氣式飛機亮相：豪華內飾升級載客量提升空間利用更靈活

02-14

長十與夢舟同飛驗證突破關鍵技術，中國載人登月穩步邁向新里程

02-14

成都錦江主城區eVTOL首飛成功未來“空中出租車”出行不是夢

02-14

長征十號火箭一級箭體海上回收成功關鍵技術驗證助力航天新征程

02-14

哈勃望遠鏡定格：螺旋星系NGC4388穿越星系團拖曳發光氣體流

02-14

成都產投助力星際榮耀：超50億融資加速可復用火箭研發與產業布局

02-14

美國電動汽車熱潮退燒，底特律車企遭遇500億美元重創

02-14

資管巨頭資本集團押注歐洲央行2026年將加息與主流觀點相悖

02-14

歐洲銀行股年內漲幅悉數回吐分析師：銀行股已成為人工智能最新受害者

02-14

《傳說對決》x《甄嬛傳》皮膚引爭議：拽妃開叉短裙疑似擦邊？

02-14

寧德時代與鹽城攜手：綠色智造基地簽約，共筑零碳產業新未來

02-13

150年前沉船“開口說話”：古DNA揭秘清代瓷器包裝與沉沒之謎

02-13

通脹降溫！美國1月核心CPI創近5年新低，今年降息穩了？

02-13

索尼新專利曝光！100GB大作有望縮減至100MB

02-13

“天關”衛星立大功：巡天時捕捉到中等質量黑洞“吞噬”白矮星現場

（圖片來源：國家天文臺）2025年7月2日，搭載于衛星上的寬視場X射線望遠鏡WXT（昵稱“萬星瞳”）在例行巡天觀測中，發現一例突然出現的，存在劇烈光變的暫現源。基于這些觀測事實，“天關”科學團隊提出了一…

02-13

點擊查看更多 +

全站最新

魏建軍再發聲確認合作進展長城與FF攜手開拓北美市場迎新突破

比亞迪宋PLUS：以硬核實力鑄就銷量傳奇，引領中國新能源SUV新風潮

沃爾沃SPA3平臺突破傳統束縛低底盤純電轎車與旅行車或迎“新生”

智電時代穩健前行，一汽豐田以多元布局與創新驅動開啟新征程

問界M6內飾諜照引熱議！運動科技雙升級 25萬級市場或迎新爆款

新款Jeep Avenger冬季測試諜照流出 2027年發布內飾動力全面升級

熱門內容

本欄最新

通脹降溫！美國1月核心CPI創近5年新低，今年降息穩了？

公告精選︱掌閱科技：2025年度AI短劇業務收入預計不超過2025年度主營業務收入的1%；嘉麟杰：實際控制人李兆廷被采取強制措施

全固態電池產業化加速：工藝裝備創新突破，產學研共筑全鏈條協同新篇

不同集團、臥安機器人、英矽智能等將納入香港恒生綜合指數

龍虎榜 | 深科技強勢漲停，游資齊扎堆！深股通、機構搶籌光線傳媒

無需編程的全棧開發平臺：軟件開發范式升級，結構層構建新未來

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分