卡內基梅隆大學與斯坦福大學聯合開展的一項研究顯示,當前人工智能智能體的開發方向存在顯著偏差,其應用場景過度集中于編程領域,而覆蓋其他職業的比例嚴重不足。研究人員通過對比美國O*NET職業數據庫與43個主流智能體基準測試中的72342項任務,發現計算機與數學類職業僅占美國就業人口的7.6%,卻占據了智能體開發任務的絕對主導地位。
在數字化程度較高的職業領域,這種失衡尤為突出。管理類職業的數字化率達88%,但在智能體基準測試中的任務占比僅1.4%;法律行業數字化率70%,對應占比0.3%;建筑與工程領域數字化率71%,占比同樣不足1%。研究人員指出,這些領域雖然存在目標模糊、成果驗證周期長等技術挑戰,但恰恰是AI智能體能夠快速提升生產力的方向。從經濟價值維度分析,管理、法律等高薪領域的基準測試覆蓋率與其創造的資本價值嚴重不匹配,而個人服務、護理等勞動密集型低薪領域則幾乎被完全忽視。
技能維度的對比數據進一步印證了這種偏差。研究團隊將職業技能劃分為信息獲取、思維處理、人際互動和工作成果四大類,發現現實職業中這四類技能需求分布相對均衡。然而智能體基準測試中,超過95%的任務集中在"信息獲取"和"計算機操作"兩類技能,而涉及大量現實工作的"人際互動"類技能幾乎未被覆蓋。這種選擇傾向主要源于方法論便利性——任務指令編寫和結果驗證難度較低的領域更容易獲得開發資源。
在評估智能體實際能力時,研究團隊建立了量化自主性指標體系,將智能體在既定成功率下可處理的任務復雜度作為核心參數,復雜度通過分層工作流的步驟數衡量。測試結果顯示,即使在軟件開發這個覆蓋最充分的領域,當任務復雜度提升時,智能體成功率仍會出現斷崖式下降。具體來看,智能體在獨立思維處理和成果產出方面表現較好,但在信息檢索和人機協作等基礎環節表現欠佳,這在中等復雜度任務中尤為明顯。
對比實驗數據顯示,在少數可進行跨框架測試的基準中,OpenHands框架的表現優于SWE-agent,Claude模型的表現優于GPT系列,這種差距在中等復雜度任務中達到峰值。不過研究人員強調,這些結論存在局限性,不同復雜度級別的表現差異可能很大。他們呼吁智能體開發者公開更多運行軌跡數據,以便建立更系統的評估體系。
針對當前問題,研究團隊提出三項改進建議:一是優先開發覆蓋管理、法律等數字化高薪領域或跨領域綜合基準;二是提升基準測試的真實性和復雜性,人工編寫的任務設計應優于自動生成;三是建立精細化評估機制,通過提取人類工作流設置中間檢查點,精準定位智能體失效環節。研究團隊已開放相關框架和工具,幫助基準設計者識別覆蓋缺口,指導開發者明確改進方向,并協助用戶選擇適合的智能體自主等級。
第三方數據印證了這種開發偏差的現實影響。Anthropic公司對數百萬次人機交互的分析顯示,軟件開發類工具調用占公共API中智能體應用的近50%,而其他行業的應用比例均不足5%。加州大學伯克利分校2025年末的研究也發現,企業目前主要將智能體作為簡單、受控的工具使用,系統可靠性仍是制約自主操作的主要障礙。這種應用現狀與當前基準測試的覆蓋范圍形成閉環,凸顯了行業轉型的迫切性。











