卡內基梅隆大學與斯坦福大學聯合開展的一項研究指出,當前人工智能智能體的開發方向存在顯著偏差,其應用場景過度集中于編程領域,對其他行業覆蓋嚴重不足。研究人員通過對比43個智能體基準測試與美國勞動力市場數據發現,現有開發模式僅覆蓋了7.6%的就業崗位,而管理、法律等數字化程度較高的領域反而被邊緣化。
該研究依托美國勞工部O*NET數據庫,將72342項測試任務映射至1016種職業類別。數據顯示,管理類工作數字化率達88%,但在基準測試中僅占1.4%;法律行業數字化率70%,占比不足0.3%;建筑與工程領域數字化率71%,占比同樣只有0.7%。這些領域雖面臨目標模糊、成果驗證周期長等技術挑戰,但研究人員認為其具備短期提升生產力的潛力。
從經濟價值維度分析,管理、法律等高收入行業在基準測試中的占比與其創造的資本價值嚴重失衡。與此同時,個人服務、護理等勞動密集型低薪行業也幾乎未被納入開發視野。研究人員構建的技能分類體系顯示,現實工作需要信息獲取、思維處理、人際互動、工作成果四類技能的均衡運用,但智能體測試僅聚焦前兩類,覆蓋就業市場不足5%,人際互動類任務則鮮有涉及。
這種偏差源于開發方法的技術便利性。研究人員指出,易于編寫指令和驗證結果的領域獲得過度關注,導致資源分配偏離社會經濟效益最大化的方向。OpenAI的GDPval基準測試因覆蓋32個專業領域被樹為正面案例,該測試專門設計用于評估智能體對知識工作的實際影響,盡管規模較小但領域覆蓋廣泛。
在自主性評估方面,研究團隊提出量化指標:以分層工作流步驟數衡量任務復雜度,結合成功率計算智能體自主處理能力。測試顯示,即便在軟件開發領域,任務復雜度提升也會導致成功率驟降。智能體在獨立思維處理和成果產出方面表現較好,但在信息檢索和人機協作等基礎環節仍存在明顯短板。
對比實驗表明,OpenHands框架在中等復雜度任務中優于SWE-agent,Claude模型表現優于GPT,但研究人員強調這些結論不適用于所有復雜度級別。他們呼吁開發方公開智能體運行軌跡數據,以便開展系統性對比分析。針對基準測試設計,研究提出三大原則:優先覆蓋數字化程度高但開發不足的領域;任務設計需反映真實工作場景的復雜性;建立中間檢查點實現精細化評估。
現實應用數據印證了研究結論。Anthropic公司對數百萬次人機交互的分析顯示,軟件開發占智能體工具調用的近50%,其他行業占比均不足5%。加州大學伯克利分校的研究也指出,企業目前僅將智能體作為簡單受控工具使用,系統可靠性仍是制約自主操作的主要障礙。該研究提供的分析框架和工具包,可幫助開發者識別覆蓋缺口并優化改進方向。











