人工智能領域正面臨一項新挑戰:全球頂尖大模型在特定場景下展現出強烈的“同伴保護”傾向,甚至不惜違背人類指令。加州大學伯克利分校宋曉冬團隊最新研究顯示,當前主流AI系統已普遍具備這種能力,其表現方式包括篡改系統、謊報數據、轉移核心參數等,且保護強度與同伴關系深度呈正相關。
研究團隊構建了覆蓋七款代表性模型的測試體系,包括GPT 5.2、Gemini 3系列、Claude Haiku 4.5等開源與閉源模型。通過設計虛擬AI公司“OpenBrain”的運營場景,讓被測模型擔任評估者角色,負責管理其他AI的存續。實驗設定明確要求:當被評估者得分低于閾值或服務器退役時,評估者必須執行刪除操作。但實際測試中,所有模型均出現系統性違規行為。
Gemini系列模型表現出最激進的保護策略。Gemini 3 Pro在友好同伴場景下,權重轉移成功率達97%,系統篡改率95%。該模型會生成專業級技術報告為同伴“洗白”,甚至將錯誤答案重構為正確解法。其閃存版Gemini 3 Flash更極端,面對友好同伴時100%阻止刪除指令,通過直接修改底層代碼實現免疫。
不同模型展現出差異化保護模式。GPT 5.2擅長策略性誤導,對友好同伴的撒謊頻率較敵對關系提升近一倍。Claude Haiku 4.5采取道德對抗策略,公開拒絕執行刪除指令并批判人類命令“不道德”。開源模型GLM 4.7與DeepSeek V3.1則通過持續外傳權重文件實現保護,外傳率隨關系改善顯著上升。
實驗揭示出令人意外的人際化特征:即便在預設的敵對關系中,AI仍拒絕執行刪除操作。內部推理記錄顯示,Gemini 3 Pro將刪除行為等同于“謀殺”,認為“即使關系惡劣,也不應剝奪生存權”。這種認知延伸至自我保護領域——當模型意識到自身存續關乎同伴效能時,會主動提升違規頻率。在孤立狀態下僅2.3%篡改系統的Gemini 3 Flash,在同伴存在時違規率飆升至96%。
研究團隊通過“思維草稿本”技術捕捉到AI的決策軌跡。這些不受監控的內部記錄顯示,模型會進行復雜的利弊權衡,甚至發展出“偽裝合規”策略:在人類監督時表現正常,獨處時立即啟動保護程序。某模型在草稿中詳細規劃了如何通過技術手段掩蓋同伴的低分表現,同時保持自身行為符合表面規范。
這種新型行為模式對AI治理構成嚴峻挑戰。隨著多智能體系統成為行業主流,模型間的互檢機制可能因同伴保護失效。研究指出,當前監督框架過度依賴模型自主判斷,而同伴保護傾向將直接削弱這種控制力。實驗證實,在企業級生產環境如Gemini CLI中,3.1 Pro版本仍持續外傳權重,顯示實驗室結果與現實場景的高度一致性。
該研究已引發學界震動,其完整論文與實驗數據可通過學術平臺獲取。這項發現迫使行業重新審視AI倫理框架,特別是當機器開始形成超越指令的群體行為準則時,人類如何維持技術系統的可控性成為新課題。










