滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

AI辦公測試準確率未超25% 進步顯著但勝任復雜工作仍需時日

時間：2026-01-26 14:44:38 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

訓練數據公司Mercor近日發布的一份研究報告顯示，當前主流人工智能模型在應對真實辦公室任務時表現欠佳，最高準確率未能突破25%。這一結果引發了業界對AI能否快速替代人類知識工作者的討論，研究指出，短期內AI尚難以勝任復雜的知識型工作。

測試結果顯示，即便是市場領先的人工智能模型也難以達到理想水平。成績最優的Gemini 3 Flash準確率僅為24%，緊隨其后的GPT-5.2準確率為23%，其余大多數模型的準確率均未超過20%。其中，Grok 4的準確率為15.2%，GPT-OSS-120B和Kimi K2 Thinking的準確率更是低至4.7%和4.0%。

Mercor首席執行官Brendan Foody分析稱，AI在此次測試中表現不佳的主要原因是缺乏上下文處理能力。在真實辦公場景中，任務往往需要跨多個信息源進行搜索和整理，而AI在整合分散資源時容易混淆或出錯，甚至直接放棄任務。這種局限性使得當前的AI更像是一個“不可靠的實習生”，而非能夠獨立處理復雜工作的專業人員。

盡管如此，AI的進步速度仍值得關注。Foody提到，一年前同類測試的準確率僅為5%-10%，如今已提升至24%，遠超預期。不過，研究也強調，在掌握多任務處理和上下文切換能力之前，AI仍無法勝任需要高度整合和判斷的知識型工作。

以下是APEX-Agents基準測試中各模型的準確率排名（從高到低）：Gemini 3 Flash (24.0%)、GPT-5.2 (23.0%)、Claude Opus 4.5 (18.4%)、Gemini 3 Pro (18.4%)、GPT-5 (18.3%)、Grok 4 (15.2%)、GPT-OSS-120B (4.7%)、Kimi K2 Thinking (4.0%)。

更多>同類資訊

上海交大發布全國產自研Optics GPT 開啟光學領域智能化新篇章

01-26

筑牢算法治理基石推動AIGC在規范軌道上蓬勃發展

01-26

筑牢AI知識產權保護基石為數字中國創新發展注入強勁動能

01-26

上海交大Optics GPT問世：國產自研光學大模型，開啟垂直領域新篇章

01-26

編程新時代來臨？OpenAI研究員自曝：Codex全權接管代碼編寫工作

01-26

上海交大發布全自研Optics GPT大模型推動光學領域智能化新跨越

01-26

仿生多模態觸覺傳感器SuperTac問世機器人觸覺感知能力實現質的飛躍

01-26

黃仁勛2026年訪華行程忙：上海逛菜市場年會后，又現身北京吃云南菜

01-26

本地運行、自我進化、替代傳統服務：Clawdbot開啟AI助理個性化新紀元

01-26

嘉實31只ETF更名“導航”財富路，普通投資者迎來投資新體驗

01-26

千問AI訂餐電話太逼真！擬人化互動還送祝福，AI對AI成新趣談

01-26

三星擬下月量產HBM4芯片欲借英偉達訂單縮小與SK海力士差距

01-26

2025年我國人形機器人加速“進家庭入工廠”，技術創新生態建設齊頭并進

IT之家從新聞發布會獲悉，張云明表示：“我們狠抓‘硬實力’，筑牢技術根基。張云明介紹說，未來將持續推動人形機器人技術創新和迭代升級，以人形機器人為小切口帶動具身智能大產業發展。加速“壯生態”，強化國家人工…

01-26

蘋果被曝2027年推AI胸針設備：雙攝三麥設計，能否突破技術瓶頸成焦點

IT之家 1 月 22 日消息，科技媒體 The Information 今天（1 月 22 日）發布博文，報道稱蘋果正在研發一款尺寸類似AirTag 的“AI 佩戴式胸針”，計劃最早于 2027 年發布。…

01-26

ChatGPT臨時聊天模式大升級：隱私對話與個性化偏好“兼得”

01-26

點擊查看更多 +

全站最新

港股異動丨金銀價不斷新高，“礦山”概念股比優集團飆升近24%創新高

范式智能發布Phanthy Cloud 以"智能即服務"重塑企業AI底座

現貨黃金一度突破5090美元，黃金股票ETF基金、黃金股ETF工銀漲超7%，黃金股票ETF、黃金股ETF漲超6.6%

IXDC2025現場：施凱文揭秘飛書多維表格如何借AI突破代際，重塑辦公生態

熔巖橙選裝率僅8%！雷軍忍痛下架，小米汽車轉向分層滿足個性需求

熱門內容

本欄最新

云知聲“山海·知音”2.0發布：聽懂鄉音、聊出溫度，AI交互再進化

印奇履新階躍星辰董事長，攜手團隊推進“AI+終端”戰略落地

比亞迪兌現承諾！10萬級車型實現城市記憶領航，智能駕駛再進階

每87秒下線一臺車身東風商用車D600智慧工廠開啟全球最大中重型商用車智造新篇

1月收官新機來襲：旗艦芯+大電池+直屏設計，1月底重磅登場

長安汽車牽手美的集團，長安啟源Q05“車控家”開啟智慧生活新體驗

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI辦公測試準確率未超25% 進步顯著但勝任復雜工作仍需時日