岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

新測試表明AI實際辦公準確率不足25%,但進展比想象更快

   時間:2026-01-26 16:24:43 來源:IT之家編輯:快訊 IP:北京 發表評論無障礙通道
 

1 月 26 日消息,Digital Trends 24 日報道,一項由訓練數據公司 Mercor 發布的研究報告指出,當前主流人工智能模型在處理實際辦公室任務時表現不佳,最高準確率未超過 25%,研究表明 AI 在短期內難以替代人類知識工作者。

結果顯示,即使是市場上明顯處于領先地位的模型也無法達到 25% 的準確率,測試中成績領先的 Gemini 3 Flash 和 GPT-5.2,其準確率也僅為 24% 和 23%,而其他大多數受試模型的成績則不高于 20%。

為何 AI 會在“辦公測試”中失敗?Mercor 首席執行官 Brendan Foody 分析稱,AI 失敗的關鍵在于缺乏上下文處理能力。在真實辦公場景中,任務往往需要整合分散資源,比如查看日程,翻閱即時通訊記錄、閱讀 PDF 文檔和電子表格,而 AI 在跨源信息搜索與整理時容易混淆、出錯,要么干脆放棄。這導致目前的 AI 在辦公室里更像一個“不可靠的實習生”,而非成熟的專業人員。

附 APEX-Agents 準確率測試結果如下(排名從高到低):

Gemini 3 Flash (High) - 24.0%

GPT-5.2 (High) - 23.0%

Claude Opus 4.5 (High) - 18.4%

Gemini 3 Pro (High) - 18.4%

GPT-5 (High) - 18.3%

Grok 4 - 15.2%

GPT-OSS-120B (High) - 4.7%

Kimi K2 Thinking - 4.0%

盡管表現有限,但 AI 的進步引人關注。Foody 指出,一年前同類測試的準確率僅為 5%-10%,如今已提升至 24%,AI 的學習速度遠超預期。不過,研究也強調,在掌握多任務處理和上下文切換之前,AI 尚無法勝任復雜的知識工作。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 一区二区三区在线免费观看 | avove在线播放| 黄色小视频免费观看 | 天天色综合色 | 亚洲免费av一区二区 | 国产一区二区视频免费 | 天天夜夜久久 | 亚洲欧美一区二区三区四区 | 国产一区亚洲 | 久久精品视频中文字幕 | 一级中国毛片 | 成人欧美一区二区三区白人 | 成人影视在线播放 | 欧美一级淫 | 日本欧美久久久久免费播放网 | 欧美亚洲视频在线观看 | 亚洲精品美女 | 在线观看av中文字幕 | 亚洲欧美日韩一区二区三区四区 | 欧美我不卡| 先锋77xfplay色资源网站 | 成人网在线免费观看 | av无限看| 亚洲一在线 | 男人午夜网站 | 精品天堂 | 欧美日韩国产不卡 | 国产精品suv一区 | 97自拍视频 | 1024国产精品 | 国产a级淫片 | 日韩一级一区 | 超碰777 | 国内91视频 | 免费国产一区二区三区 | 久久久综合色 | 欧美一区二区在线观看视频 | 一区二区三区四区五区 | 国产成人a亚洲精品 | 九色影院 | 国产探花一区二区 |