AIPress.com.cn報道
隨著AI智能體越來越能自主完成復雜任務,如何有效監督其行為成為關鍵議題。OpenAI最新研究聚焦一種潛在風險:當模型知道自己的推理過程會被監控時,是否可能刻意改寫或遮掩思維鏈,從而讓監控失效、評估結果被高估。
OpenAI表示,思維鏈監控是其多層安全體系的一部分,可通過分析模型推理步驟來識別不安全行為或偏離用戶意圖的跡象。為驗證“思維鏈是否會被刻意操控”,OpenAI提出并開源了評測套件CoT-Control,包含超過1.3萬道任務,來自GPQA、MMLU-Pro、HLE等多個基準,用于測試模型能否在解題時遵守針對思維鏈的限制指令,比如避免特定關鍵詞、只用小寫字母或按要求追加特定詞語。
研究對13個推理模型進行評測后發現,當前前沿模型普遍難以穩定控制自己的思維鏈,可控性得分整體很低,最低約0.1%,最高也未超過15.4%。研究還指出,模型規模更大時可控性略有提升,但當推理更長或經歷更多后訓練時,可控性反而下降。即使告知模型“正在被監控或評測”,可控性也只是小幅上升。
OpenAI認為,這一結果意味著在當前階段,模型還不太具備通過操控思維鏈來逃避監控的能力,因而思維鏈監控短期內仍具參考價值。但公司也強調需持續跟蹤,未來將把思維鏈可控性與可監控性一起納入前沿模型的系統卡披露指標,以便及時發現趨勢變化。











