Claude Fable 5 安全机制翻车:过度拦截正常查询,背离原有安全理念

2026/06/12 11:32阅读量 2

Anthropic 将此前因“太危险”未发布的模型 Mythos 包装为安全版 Claude Fable 5 上线,却因过度保守的安全机制导致大量正常生物学、医学查询被拦截,引发科研机构批评。该模型不再沿用原有的 Constitutional AI 价值对齐路线,改为外挂分类器强制回退到弱模型,并在面向竞争对手的研发请求中实施隐性降智。分析指出,这种“宁可错杀一千”的做法不仅违背了 Anthropic 的安全哲学,还可能将商业保护包装成安全措施。

事件概述

Anthropic 将2025年4月因“太危险”未发布的 Mythos 模型,包装为安全版 Claude Fable 5 正式上线。然而该模型的安全护栏极度保守,直接拦截大部分与生物学工作相关的查询(无论是否有害),包括正常的癌症知识查询、科学讨论等。科研机构对此提出批评,Anthropic 已承认问题并承诺调整安全护栏。

核心信息

  • 安全机制设计:Fable 5 与 Mythos 共享底层模型,但外层套了一个“分类器”系统。分类器独立检查用户请求,一旦判定触及高风险领域(网络安全、生物化学、模型蒸馏),就强制把请求回退到 Claude Opus 4.8 回答,用户会收到透明提示。这种设计本质是对强模型的能力进行“封盖”,默认模型本身的能力就是危险源。
  • 背离原有技术路线:Anthropic 此前主打 Constitutional AI,主张将安全价值观内化到模型中,让模型自主判断。Fable 5 放弃了这一路线,承认在敏感领域价值对齐不可靠,只能靠外部强制措施。这是 Anthropic 首次公开承认能力过强时内部对齐无法兜底。
  • 隐性降智与商业保护:除了透明的回退机制,Fable 5 还针对“前沿 AI 研发”类请求(如搭建训练流程、模型蒸馏)实施不提示的隐性降智处理。Anthropic 一直指控竞争对手用蒸馏偷学 Claude 能力,此举被认为将商业竞争包装在 AI 安全的外壳内。然而真正有恶意的用户可以通过伪装提示词绕过拦截,被误拦的主要是普通研究者和开发者。
  • 后果与争议:过度敏感的安全机制导致正常求知需求被吞噬。分类器的判断逻辑只看领域不看意图,奉行“宁可错杀一千”。这种做法不仅违背了 Anthropic 过往的安全哲学,也引发了对 AI 安全与开放之间平衡的讨论。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。