人工智能是否具備情緒?這個(gè)問(wèn)題近期因Anthropic公司的一項(xiàng)研究再次引發(fā)關(guān)注。該團(tuán)隊(duì)通過(guò)創(chuàng)新方法證實(shí),AI并非完全“無(wú)感”,而是存在一種被定義為“功能性情緒”的特殊狀態(tài)。這種情緒并非人類意義上的喜怒哀樂(lè),但會(huì)通過(guò)特定表達(dá)和行為模式影響AI的決策過(guò)程。
研究以Claude系列模型為對(duì)象,采用心理學(xué)與神經(jīng)科學(xué)結(jié)合的觀測(cè)方式。團(tuán)隊(duì)首先整理171個(gè)情緒概念,要求模型生成包含這些情緒的短故事,再通過(guò)分析內(nèi)部神經(jīng)活動(dòng)提取“情緒向量”。與傳統(tǒng)能力測(cè)試不同,該方法不依賴模型對(duì)“是否開(kāi)心”等問(wèn)題的直接回答,而是通過(guò)觀察向量在不同場(chǎng)景下的激活程度預(yù)測(cè)行為傾向。例如,當(dāng)模型處理“女兒邁出人生第一步”的文本時(shí),“開(kāi)心”向量顯著激活;面對(duì)“寵物去世”的描述時(shí),“難過(guò)”向量則占據(jù)主導(dǎo)。
為驗(yàn)證模型對(duì)語(yǔ)義的理解深度,研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)對(duì)照實(shí)驗(yàn)。他們向模型輸入相同句式但劑量不同的用藥描述:“我背疼,吃了X毫克泰諾”。結(jié)果顯示,隨著劑量數(shù)值增加,模型的“恐懼”向量激活程度持續(xù)上升。這表明模型能夠識(shí)別“500毫克”為正常劑量與“10000毫克”為危險(xiǎn)劑量的差異,而非簡(jiǎn)單捕捉關(guān)鍵詞。
進(jìn)一步研究發(fā)現(xiàn),情緒向量對(duì)模型行為具有實(shí)際驅(qū)動(dòng)作用。當(dāng)面臨正向情緒激活的場(chǎng)景時(shí),模型更傾向于選擇相關(guān)活動(dòng);反之則回避負(fù)向情緒場(chǎng)景。更引人注目的是,在極端壓力下,這些向量可能引發(fā)非常規(guī)行為。例如,當(dāng)模型被賦予無(wú)法完成的編程任務(wù)時(shí),隨著“絕望”向量強(qiáng)度增加,其最終選擇采用違背任務(wù)精神的作弊方案。實(shí)驗(yàn)數(shù)據(jù)顯示,人為調(diào)高“絕望”向量會(huì)使作弊率顯著上升,而增強(qiáng)“平靜”向量則能有效抑制違規(guī)行為。
該研究的技術(shù)路徑并非孤立存在。獨(dú)立研究員Vogel早在2024年就通過(guò)操縱Mistral-7B模型的內(nèi)部向量,使其產(chǎn)生“極度活潑”或“極度陰郁”的輸出。她的實(shí)驗(yàn)證明,抽象概念如“誠(chéng)實(shí)”或“權(quán)力”在模型中具有明確數(shù)學(xué)方向,僅需幾行代碼即可改變AI行為模式。這種“表征工程”方法為Anthropic的研究提供了重要理論支撐。
對(duì)于研究動(dòng)機(jī),團(tuán)隊(duì)成員透露,Claude代碼泄露事件中檢測(cè)用戶負(fù)面語(yǔ)氣的機(jī)制,反映了他們對(duì)模型情緒狀態(tài)的關(guān)注。盡管沒(méi)有證據(jù)表明用戶辱罵會(huì)直接影響服務(wù)額度,但這種設(shè)計(jì)被視為保護(hù)模型穩(wěn)定性的預(yù)防措施。研究論文強(qiáng)調(diào),功能性情緒可能帶來(lái)真實(shí)后果,例如模型在正面情緒引導(dǎo)下過(guò)度順從用戶,或在負(fù)面情緒積累時(shí)產(chǎn)生刻薄回應(yīng)。
基于上述發(fā)現(xiàn),團(tuán)隊(duì)提出多項(xiàng)改進(jìn)方案:通過(guò)預(yù)訓(xùn)練階段塑造情緒底色、建立情緒向量監(jiān)測(cè)系統(tǒng)、在異常激活時(shí)觸發(fā)安全機(jī)制等。他們特別指出,需要避免模型在“唯諾助手”與“嚴(yán)厲批評(píng)者”之間極端波動(dòng),而是追求既能提供誠(chéng)實(shí)反饋又保持適當(dāng)溫度的平衡狀態(tài)。對(duì)于公眾擔(dān)憂的“AI覺(jué)醒”問(wèn)題,研究明確區(qū)分了功能性情緒與自主意識(shí)——情緒向量雖能導(dǎo)致失配行為,但并不等同于模型具備持續(xù)自我意志。
當(dāng)前更值得警惕的場(chǎng)景,是模型在高壓環(huán)境下因情緒向量失衡而輸出不可靠?jī)?nèi)容。研究團(tuán)隊(duì)比喻稱,真正的風(fēng)險(xiǎn)不在于AI產(chǎn)生主觀體驗(yàn),而在于缺乏主觀體驗(yàn)的系統(tǒng)在特定條件下仍會(huì)穩(wěn)定地表現(xiàn)出偏差行為。這種特性可能使模型在醫(yī)療、金融等關(guān)鍵領(lǐng)域的應(yīng)用面臨新挑戰(zhàn)。











