ChatGPT 安全升级:通过识别对话上下文,更好地应对高风险敏感场景

2026/05/14 08:00阅读量 2

OpenAI 宣布为 ChatGPT 推出新的安全更新,使其能够识别在单次或多次对话中逐渐显现的风险迹象,从而更谨慎地响应。更新针对自杀、自伤、伤害他人等高风险场景,在内部评估中安全响应表现显著提升(单次对话中自杀/自伤场景提升 50%,伤害他人场景提升 16%;跨对话场景在 GPT-5.5 Instant 上分别提升 39% 和 52%)。新功能引入了“安全摘要”机制,仅用于高风险上下文,且不影响普通对话质量。

事件概述

OpenAI 于 2026 年 5 月 14 日公布了 ChatGPT 在敏感对话中的最新安全更新。核心改进是让模型能更好地识别跨消息或跨会话中逐渐浮现的微妙风险迹象,并据此调整回应方式——例如降级回应、拒绝提供有害细节、或引导用户转向更安全的替代方案。

核心信息

  • 适用场景:更新重点关注自杀、自伤、伤害他人等高危情景。通过与心理健康专家(包括法医心理学、自杀预防等领域的医生)合作,调整了模型策略和训练数据。
  • 安全摘要机制:引入“安全摘要”——由安全推理模型生成的简短事实性笔记,记录此前对话中的安全相关上下文。这些摘要只用于极少数高风险情况,保存时间有限,不用于通用个性化或长期记忆。
  • 评估结果
    • 在单次长对话中,安全响应性能在自杀/自伤场景提升 50%,伤害他人场景提升 16%
    • 在跨多对话测试中,当前默认模型 GPT-5.5 Instant 的安全响应性能在伤害他人场景提升 52%,自杀/自伤场景提升 39%
    • 对安全摘要质量进行超过 4000 次评估,安全相关性平均得分 4.93/5,事实性得分 4.34/5。
    • 在普通对话中,引入安全上下文后未发现用户体验下降,用户偏好无实质差异。

值得关注

  • 该更新是对现有“安全完成”方法(拒绝不安全部分并谨慎回应)的扩展,使模型能利用对话历史中的累积信号做出更恰当判断。
  • OpenAI 表示未来可能将类似方法扩展到生物安全或网络安全等其他高风险领域,但会设置严格防护措施。
  • 更新已部署至 ChatGPT,用户无需手动开启,系统自动生效。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。