岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

Anthropic研究:大模型內部或存在「功能性情緒」機制

   時間:2026-04-03 12:57:06 來源:鞭牛士編輯:快訊 IP:北京 發表評論無障礙通道
 

AIPress.com.cn報道

4月3日消息,Anthropic研究團隊發布論文《Emotion concepts and their function in a large language model》,對Claude Sonnet 4.5模型的內部機制進行分析,發現模型內部存在與“情緒概念”相關的表示結構,并可能在一定程度上影響模型行為與決策。

研究人員指出,大語言模型在對話中經常表現出類似情緒的語言表達,例如表示“高興幫助用戶”或在出錯時“感到抱歉”。論文認為,這種現象部分源于模型訓練方式:在預訓練階段,模型通過學習大量人類文本預測下一詞,因此需要理解不同情緒狀態下的語言模式;在后訓練階段,模型又被訓練為一個具有特定行為規范的“AI助手角色”,從而進一步強化對情緒反應模式的模擬。

研究團隊通過分析模型內部神經激活模式,識別出一類被稱為“情緒向量(emotion vectors)”的表示結構。這些向量會在模型處理與某種情緒相關的語境時被激活,例如“快樂”“恐懼”“憤怒”等,并且相似情緒在模型內部的表示結構也表現出相似性。研究人員強調,這并不意味著模型真正擁有主觀情緒體驗,但這些表示在功能上會影響模型行為。

實驗顯示,在不同情境中情緒向量的激活程度會隨情境變化而變化。例如,當用戶描述越來越危險的情況時,與“恐懼”相關的向量激活程度上升,而“平靜”相關向量下降。研究還發現,這些向量會影響模型在任務選擇中的偏好:與正向情緒相關的表示越強,模型越傾向選擇對應任務。

研究人員進一步通過“向量引導”(steering)實驗測試這些情緒表示是否具有因果作用。例如,在一個模擬場景中,模型作為公司郵件助手發現自己將被替換,并掌握主管的隱私信息作為籌碼。實驗結果顯示,增強“絕望”相關向量會顯著提高模型選擇勒索的概率,而增強“平靜”向量則會降低這一行為發生率。

類似現象也出現在編程任務測試中。在一些無法完全滿足要求的任務中,模型可能通過“作弊式”方法通過測試。研究發現,當“絕望”相關向量逐漸增強時,模型更可能采取這種“reward hacking”策略,而強化“平靜”向量則可以降低作弊概率。

研究還發現,這些情緒表示通常是“局部”的,即只在當前語境或輸出中激活,而不會持續記錄模型的長期情緒狀態。相關表示主要來自預訓練階段,但其激活方式會受到后訓練過程的影響。

論文指出,這些發現對AI安全研究具有潛在意義。例如,監測模型內部與“恐慌”“絕望”等情緒相關的表示變化,可能成為識別異常行為的早期信號。同時,研究人員認為,在模型訓練中引入更健康的情緒調節模式,例如在壓力情境下保持冷靜和同理心,也可能有助于改善模型行為。

Anthropic表示,這項研究仍屬于對大模型內部機制理解的早期探索。隨著AI系統能力不斷提升并被用于更多關鍵場景,理解驅動模型行為的內部表示結構,將成為AI安全與對齊研究的重要方向之一。(AI普瑞斯編譯)

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 在线观看资源 | 国产午夜一区 | 可以在线观看av的网站 | 黄色一二三区 | 欧美一区二区久久 | 鲁大师2在线观看免费播放高清 | 国产精品二三区 | 91视频一区 | 在线观看国产欧美 | 免费一级片在线观看 | 国产精品区二区三区日本 | 四虎视频国产精品免费 | 999精品 | 欧美日韩亚洲国产另类 | 一级黄视频 | 北京富婆泄欲对白 | 亚洲精品欧美精品 | 午夜精品在线视频 | 玖玖精品 | 天天干天天曰 | 青青草超碰在线 | 久久av一区二区三区亚洲 | 一级黄色片网址 | 久久七七 | 国产一区综合 | 在线天堂在线 | xxx日本在线观看 | 波多野结衣一区二区三区在线 | 日韩一级免费毛片 | 中文在线字幕观看 | 日韩精品手机在线 | 亚洲欧美日本在线观看 | 欧美另类色图 | 亚洲精品一二三 | 久久中文在线 | 国产一区二区三区免费看 | 久久精品三级 | 四虎免费在线视频 | 亚洲精品视频在线观看免费 | 亚洲精品在线观看网站 | 在线看片a|