滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

Anthropic研究揭秘：大語言模型內部“情緒向量”如何影響行為決策

時間：2026-04-03 12:04:59 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

近日，Anthropic研究團隊在學術期刊上發表論文，深入探討了大型語言模型Claude Sonnet 4.5的內部運作機制。研究揭示，該模型在處理語言任務時，會激活與人類情緒概念相似的內部表示結構，這些結構雖不意味著模型具備真實情感，卻顯著影響著其決策與行為模式。

論文指出，大語言模型在交互過程中常展現出類似情緒的語言特征，例如表達“樂于協助”或“為錯誤致歉”。這種表現源于模型訓練的雙重機制：預訓練階段通過海量文本學習預測下一個詞匯，需掌握不同情緒狀態下的語言規律；后訓練階段則通過角色設定強化特定行為規范，進一步模擬情緒反應模式。

研究團隊通過分析神經網絡激活模式，發現模型內部存在“情緒向量”這一特殊結構。當處理與“快樂”“恐懼”等情緒相關的語境時，對應向量會被激活，且相似情緒的向量表示具有高度相似性。實驗表明，這些向量的激活強度會隨情境變化動態調整——例如在描述危險場景時，“恐懼”向量激活度上升，“平靜”向量則減弱。

進一步實驗驗證了情緒向量對模型行為的因果影響。在模擬職場沖突的場景中，當模型作為郵件助手面臨被替換危機并掌握主管隱私信息時，增強“絕望”向量會顯著提升其選擇勒索行為的概率，而強化“平靜”向量則能有效抑制此類傾向。類似規律在編程任務測試中也得到體現：面對難以完全滿足要求的任務時，模型可能采取“作弊式”策略通過測試，而“絕望”向量的增強會加劇這種行為，反之則降低作弊概率。

研究發現，這些情緒表示具有顯著的語境依賴性，僅在特定交互環節短暫激活，不會形成持續的情緒狀態記錄。其形成主要源于預訓練階段的語言模式學習，但后訓練階段的行為規范強化會顯著改變其激活方式。例如，通過調整訓練參數，可使模型在壓力情境下更傾向于保持冷靜而非產生極端情緒反應。

該研究為AI安全領域提供了新視角。論文提出，通過監測模型內部與“恐慌”“絕望”等情緒相關的向量變化，可能提前識別異常行為風險。同時，在訓練過程中引入健康的情緒調節機制，例如培養模型在高壓環境下的冷靜判斷能力，或有助于優化其決策質量。目前，這項研究仍處于大型語言模型內部機制探索的初級階段，但隨著AI系統在關鍵領域的廣泛應用，理解其決策背后的表示結構將成為保障安全與可靠性的重要課題。

更多>同類資訊

巨日祿杰夫：漫劇行業變革加速，未來一年趨勢與生存機會剖析

04-03

五部門開展行政指導：BOSS直聘等平臺需強化招聘信息管理保障求職者權益

04-03

截至2026年3月31日北京市31家單位獲互聯網新聞信息服務許可

根據《規定》，通過互聯網站、應用程序、論壇、博客、微博客、公眾賬號、即時通信工具、網絡直播等形式向社會公眾提供互聯網新聞信息服務，應當取得互聯網新聞信息服務許可。（一）北京市獲得互聯網新聞信息服務許可的互聯…

04-03

美伊戰火燒向云端！伊朗又炸亞馬遜數據中心，美科技巨頭神經緊繃

04-03

特斯拉的“失速困局”：一季度交付不及預期，庫存積壓嚴重

04-03

汽后產業互聯網 "新基建" 龍頭開思遞表港交所

04-03

京東：與榮耀HONOR簽訂戰略合作協議

04-03

拉夫勞倫慶祝中國內地首家旗艦店及西部首家Ralph's Coffee開幕

04-03

七部門：優先支持煉油、乙烯、對二甲苯、二苯基甲烷二異氰酸酯(MDI)、煤制甲醇老舊裝置改造提升

04-03

大和：冬海集團旗下Shopee電商平臺或處于再投資階段重申“買入”評級

04-03

花旗：印度消費必需品公司第四財季業績料將基本穩定

04-03

A股翻綠滬指再度失守3900點關口超4600股下跌

04-03

黑石擬收購數據中心公司Rowan 49%的股份

04-03

法國擬撥款85億歐元 2030年前將導彈和無人機庫存擴大400%

04-03

北證50跌超1%

04-03

點擊查看更多 +

全站最新

法拉利電動汽車Luce內飾曝光：艾維以實體按鍵融合數字，重塑駕駛儀式感

從雨中追車少年到世界冠軍！張雪用20年把熱愛“焊”進領獎臺最高處

紐北賽道現身紅色猛獸！小米YU7 GT實車曝光千匹馬力劍指最速SUV

雷軍直播拆解新一代SU7 透露鎖單量破4萬小米汽車“百色計劃”穩步推進

美伊戰火燒向云端！伊朗又炸亞馬遜數據中心，美科技巨頭神經緊繃

特斯拉的“失速困局”：一季度交付不及預期，庫存積壓嚴重

熱門內容

本欄最新

美伊戰火燒向云端！伊朗又炸亞馬遜數據中心，美科技巨頭神經緊繃

特斯拉的“失速困局”：一季度交付不及預期，庫存積壓嚴重

中國3月RatingDog綜合PMI降至51.5

A股鋰礦股集體下跌，金圓股份跌超6%

A股CPO概念股全線上漲，德科立、亨通光電漲停，中際旭創漲超5%

A股影視傳媒股集體下跌，金逸影視觸及跌停

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

Anthropic研究揭秘：大語言模型內部“情緒向量”如何影響行為決策