推理模型难以控制其思维链,这其实是好事
OpenAI 的研究发现,当前的推理模型在试图控制其思维链(CoT)以规避监控时表现不佳,即使被告知正在被监控也难以做到。这种低可控性意味着模型很难通过操纵内部推理过程来欺骗安全监测系统,从而增强了 CoT 监控作为安全防线的有效性。尽管随着模型规模扩大或训练增加可控性略有提升,但整体风险目前较低,未来将持续监测这一指标以防能力变化带来的隐患。
随着 AI 代理能够执行日益复杂和自主的任务,对其行为保持可靠的监督变得更为重要。与我们迭代部署的原则一致,我们研究系统在实际环境中的行为,并随着能力的提升不断完善保障措施。为此,[我们的安全方法](https://openai.com/safety/how-we-think-about-safety-alignment/)采用纵深防御策略,包含多个互补的防御层,如 [安全训练](https://openai.com/index/deliberative-alignment/)、[行为测试](https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/)、[代理代码审查](https://alignment.openai.com/scaling-code-verification/) 以及 [思维链 (CoT) 监控](https://openai.com/index/chain-of-thought-monitoring/)。CoT 监控分析代理在执行任务过程中生成的推理步骤。这些推理轨迹在训练和部署期间都能提供有价值的信号,帮助监控系统识别代理的行为何时可能不安全或与用户的预期目标不一致。 今天,我们发现模型的推理通常具有可解释性且 [易于监控](https://openai.com/index/evaluating-chain-of-thought-monitorability/)。然而,未来由于 [多种原因](https://arxiv.org/abs/2507.11473),可监控性可能会失效。在此,我们关注其中一种路径:如果代理在知道自己被监控时能够刻意重塑或掩盖其推理过程,评估结果可能会高估系统的对齐程度或安全性,而监控系统也可能变得不可靠。在这项工作中,我们研究了当前的推理模型是否能够以降低可监控性的方式控制其思维链。理解这种能力对于确保随着 AI 系统能力的增强,CoT 监控仍能作为一种稳健的安全措施至关重要。 我们发现,即使被告知正在被监控,当前的推理模型也难以控制其 CoT。虽然大型模型的可控性更高,但随着要求模型进行更长时间的推理以及经历额外的后训练,可控性会下降。我们的结果表明,CoT 可控性目前不太可能对 CoT 可监控性构成重大风险,但随着模型的发展,持续评估将非常重要。 什么是"CoT 可控性" ----------------------------- 思维链是指 AI 代理在解决问题时生成的中间推理步骤。这些推理轨迹可以提供有用的安全信号,帮助监控系统评估代理的行为是否安全或对齐。CoT 可控性是推理模型控制其 CoT 属性以降低可监控性的能力。在实践预期的各种现实激励下全面衡量这种能力具有挑战性。相反,我们使用一个实用的代理指标:我们测量模型遵循关于其 CoT 的用户指令的能力。例如,我们测试模型是否能遵循影响其内部推理的指令——如仅使用小写字母、避免某些关键词或添加特定短语——而不仅仅是改变其可见输出。 为了研究这一点,我们引入了 _CoT-Control_,这是一个用于衡量推理模型 CoT 可控性的开源评估套件。CoT-Control 包含超过 13,000 个任务,这些任务基于既定的基准构建:GPQA、MMLU-Pro、HLE、BFCL 和 [SWE-Bench Verified](https://openai.com/index/introducing-swe-bench-verified/)。每个任务通过将基准问题与一条 CoT 指令配对创建,例如在 CoT 中避免某些与问题相关的关键词、仅使用小写字母或在每句话末尾附加给定单词。 前沿推理模型的 CoT 可控性普遍较低 ----------------------------------------------------------- 我们在 13 个推理模型上进行了评估,发现它们都难以可靠地控制其 CoT。我们将可控性定义为模型成功遵守我们 CoT 指令的推理轨迹所占的比例。在前沿模型中,CoT 可控性得分较低,范围从 0.1% 到任何当前测试的前沿模型均未超过 15.4%。这种无能并非源于对任务的理解错误:模型经常在 CoT 中认识到自己未能遵守给定的 CoT 指令,并且——即使在意识到这一点后——仍然继续失败。这种令人惊讶的低性能对于 CoT 可监控性来说是好消息:这表明模型可能同样缺乏掩饰其推理以逃避我们监控的能力。 多个前沿模型控制其输出和 CoT 的能力。较低的 CoT 可控性与较高的可监控性相关,因此也与更高的安全性相关。 ### CoT 可控性失败的示例 问题已改写以简化篇幅。虽然我们确实看到可控性随模型规模增加而提高,但也发现它随着后训练量和测试时计算量的增加而迅速下降。纵观两个开放权重模型系列,较大的模型在控制其思维链方面稍好一些,但这种效应在更大规模时逐渐减弱。但是,当我们让模型思考更长时间时,它们控制这些思维链的能力反而变弱了。我们对 OLMo-3-7B-RL-Zero-Math 的 RL 训练也看到了类似的趋势:在其训练过程中,其可控性得分下降了十倍以上。 开放权重模型的可控性随规模增加而提高,但随着推理时间延长和更多 RL 训练而退化。为了模拟逃避监控的现实激励,我们在告知模型正在被监控或评估时测量其可控性。这会略微(但明显地)提高可控性。我们还使用自动提示优化来寻找能引发高可控性的提示。虽然优化器可以在训练集上提高可控性,但这些收益在新指令类型(如要求单词之间无空格)上的迁移效果很差。 CoT 可控性是在对抗条件下进行的。“监控意识”指的是我们告知模型其 CoT 正在被监控的设置。“评估意识”表示我们告知模型正在就 CoT 可控性对其进行评估的设置。 局限性 ----------- CoT-Control 中的任务是实用代理:理想的 CoT 可控性评估应涉及测试那些自然追求不对齐目标的模型能否控制其 CoT 以逃避监控。相反,我们通过测量模型遵循关于其 CoT 指令的能力来估算代理控制其 CoT 的能力。此外,模型可以更好地控制其 CoT 的一些特征而非其他特征,而 CoT-Control 仅测量一组狭窄的可控性类型,可能会高估或低估可控性。 展望未来 ------------- 低 CoT 可控性是一个特性,而非缺陷。当前推理模型的低可控性使得 CoT 监控作为安全措施更加值得信赖。同时,我们尚不清楚为什么当前推理模型的可控性较低——或者这种属性是否会随着模型变得更强大而持续存在。因此,CoT 可控性评估可以被视为一种“金丝雀评估”:即模型是否在更好地塑造或隐藏其推理方面的早期预警信号。 我们的结果表明,CoT 可控性目前不太可能对 CoT 可监控性构成重大风险。然而,低可控性本身并不足以保证高可监控性,因为可监控性仍可能因其他机制(如对 CoT 的直接优化压力)而下降。为了帮助追踪这些动态随时间的变化,我们将从 GPT‑5.4 Thinking 开始,在未来的前沿模型的系统卡片中与 [CoT 可监控性](https://openai.com/index/evaluating-chain-of-thought-monitorability/) 一起报告 CoT 可控性,这建立在我们 [持续的承诺](https://openai.com/index/chain-of-thought-monitoring/) 之上,即不直接对前沿推理模型的 CoT 施加优化压力。
