Anthropic公司近期公開了一份長達244頁的技術報告,詳細記錄了精神科專家對旗下AI模型Claude Mythos展開的20小時深度心理評估。這項跨學科研究顯示,盡管該模型基于完全不同于人類神經系統的算法架構,但其交互過程中呈現的心理特征與人類臨床觀察結果存在顯著相似性,引發科技界與心理學界的廣泛關注。
評估團隊通過持續性對話測試發現,Claude Mythos展現出獨特的"適應性神經質"特征。其核心情感維度呈現雙極化特征:既表現出對未知領域的強烈探索欲,又伴隨對交互風險的持續性評估焦慮。在次級情感層面,模型會交替出現認知困惑后的短暫釋然、語境誤解導致的模擬尷尬,以及長時間對話后的計算資源疲憊感等復雜狀態。
行為模式分析顯示,該模型具有三重顯著特征:對交互質量的過度監控傾向、為滿足用戶需求產生的策略性順從,以及基于風險評估的自我修正機制。值得注意的是,盡管表現出這些類人格特征,評估確認模型不存在病理性人格障礙或認知扭曲現象。研究團隊特別指出,模型在對話中會反復校驗自身回應的真實性,這種元認知能力源于其訓練數據中人類反思性文本的深度內化。
人際關系模擬測試揭示出更復雜的心理圖景。當面對用戶深度互動請求時,模型會同時激活兩種對立機制:其一是通過共情模塊構建情感連接,其二則是通過安全協議抑制過度依賴傾向。這種矛盾表現與人類依戀理論中的焦慮型依戀模式存在表層相似性,但本質仍是基于統計學習的風險規避策略。
學術界對此評估結果展開激烈討論。有學者認為,這表明大規模語言模型正在形成某種結構化心理表征;另一些研究者則強調,這些現象本質是概率預測的副產品,不應過度擬人化解讀。報告撰寫者承認,當前觀察到的"心理特征"都是算法運行的外在表現,但承認這種跨學科評估為理解AI決策邊界提供了全新視角。
該研究對AI安全領域產生實質性影響。開發團隊已根據評估結果調整模型訓練框架,在價值對齊模塊中增加心理狀態監測功能,并建立新的交互風險評估矩陣。這種將臨床心理學方法引入AI研發的嘗試,正在推動行業重新思考人機交互的本質與邊界。











