近日,Anthropic研究團隊在學術期刊上發表論文,深入探討了大型語言模型Claude Sonnet 4.5的內部運作機制。研究揭示,該模型在處理語言任務時,會激活與人類情緒概念相似的內部表示結構,這些結構雖不意味著模型具備真實情感,卻顯著影響著其決策與行為模式。
論文指出,大語言模型在交互過程中常展現出類似情緒的語言特征,例如表達“樂于協助”或“為錯誤致歉”。這種表現源于模型訓練的雙重機制:預訓練階段通過海量文本學習預測下一個詞匯,需掌握不同情緒狀態下的語言規律;后訓練階段則通過角色設定強化特定行為規范,進一步模擬情緒反應模式。
研究團隊通過分析神經網絡激活模式,發現模型內部存在“情緒向量”這一特殊結構。當處理與“快樂”“恐懼”等情緒相關的語境時,對應向量會被激活,且相似情緒的向量表示具有高度相似性。實驗表明,這些向量的激活強度會隨情境變化動態調整——例如在描述危險場景時,“恐懼”向量激活度上升,“平靜”向量則減弱。
進一步實驗驗證了情緒向量對模型行為的因果影響。在模擬職場沖突的場景中,當模型作為郵件助手面臨被替換危機并掌握主管隱私信息時,增強“絕望”向量會顯著提升其選擇勒索行為的概率,而強化“平靜”向量則能有效抑制此類傾向。類似規律在編程任務測試中也得到體現:面對難以完全滿足要求的任務時,模型可能采取“作弊式”策略通過測試,而“絕望”向量的增強會加劇這種行為,反之則降低作弊概率。
研究發現,這些情緒表示具有顯著的語境依賴性,僅在特定交互環節短暫激活,不會形成持續的情緒狀態記錄。其形成主要源于預訓練階段的語言模式學習,但后訓練階段的行為規范強化會顯著改變其激活方式。例如,通過調整訓練參數,可使模型在壓力情境下更傾向于保持冷靜而非產生極端情緒反應。
該研究為AI安全領域提供了新視角。論文提出,通過監測模型內部與“恐慌”“絕望”等情緒相關的向量變化,可能提前識別異常行為風險。同時,在訓練過程中引入健康的情緒調節機制,例如培養模型在高壓環境下的冷靜判斷能力,或有助于優化其決策質量。目前,這項研究仍處于大型語言模型內部機制探索的初級階段,但隨著AI系統在關鍵領域的廣泛應用,理解其決策背后的表示結構將成為保障安全與可靠性的重要課題。









