訓練數據公司Mercor近日發布的一份研究報告顯示,當前主流人工智能模型在應對真實辦公室任務時表現欠佳,最高準確率未能突破25%。這一結果引發了業界對AI能否快速替代人類知識工作者的討論,研究指出,短期內AI尚難以勝任復雜的知識型工作。
測試結果顯示,即便是市場領先的人工智能模型也難以達到理想水平。成績最優的Gemini 3 Flash準確率僅為24%,緊隨其后的GPT-5.2準確率為23%,其余大多數模型的準確率均未超過20%。其中,Grok 4的準確率為15.2%,GPT-OSS-120B和Kimi K2 Thinking的準確率更是低至4.7%和4.0%。
Mercor首席執行官Brendan Foody分析稱,AI在此次測試中表現不佳的主要原因是缺乏上下文處理能力。在真實辦公場景中,任務往往需要跨多個信息源進行搜索和整理,而AI在整合分散資源時容易混淆或出錯,甚至直接放棄任務。這種局限性使得當前的AI更像是一個“不可靠的實習生”,而非能夠獨立處理復雜工作的專業人員。
盡管如此,AI的進步速度仍值得關注。Foody提到,一年前同類測試的準確率僅為5%-10%,如今已提升至24%,遠超預期。不過,研究也強調,在掌握多任務處理和上下文切換能力之前,AI仍無法勝任需要高度整合和判斷的知識型工作。
以下是APEX-Agents基準測試中各模型的準確率排名(從高到低):Gemini 3 Flash (24.0%)、GPT-5.2 (23.0%)、Claude Opus 4.5 (18.4%)、Gemini 3 Pro (18.4%)、GPT-5 (18.3%)、Grok 4 (15.2%)、GPT-OSS-120B (4.7%)、Kimi K2 Thinking (4.0%)。











