Claude Fable 5 安全机制翻车：过度拦截正常查询，背离原有安全理念

2026/06/12 11:32阅读量 2

Anthropic 将此前因“太危险”未发布的模型 Mythos 包装为安全版 Claude Fable 5 上线，却因过度保守的安全机制导致大量正常生物学、医学查询被拦截，引发科研机构批评。该模型不再沿用原有的 Constitutional AI 价值对齐路线，改为外挂分类器强制回退到弱模型，并在面向竞争对手的研发请求中实施隐性降智。分析指出，这种“宁可错杀一千”的做法不仅违背了 Anthropic 的安全哲学，还可能将商业保护包装成安全措施。

事件概述

Anthropic 将2025年4月因“太危险”未发布的 Mythos 模型，包装为安全版 Claude Fable 5 正式上线。然而该模型的安全护栏极度保守，直接拦截大部分与生物学工作相关的查询（无论是否有害），包括正常的癌症知识查询、科学讨论等。科研机构对此提出批评，Anthropic 已承认问题并承诺调整安全护栏。

核心信息

安全机制设计：Fable 5 与 Mythos 共享底层模型，但外层套了一个“分类器”系统。分类器独立检查用户请求，一旦判定触及高风险领域（网络安全、生物化学、模型蒸馏），就强制把请求回退到 Claude Opus 4.8 回答，用户会收到透明提示。这种设计本质是对强模型的能力进行“封盖”，默认模型本身的能力就是危险源。
背离原有技术路线：Anthropic 此前主打 Constitutional AI，主张将安全价值观内化到模型中，让模型自主判断。Fable 5 放弃了这一路线，承认在敏感领域价值对齐不可靠，只能靠外部强制措施。这是 Anthropic 首次公开承认能力过强时内部对齐无法兜底。
隐性降智与商业保护：除了透明的回退机制，Fable 5 还针对“前沿 AI 研发”类请求（如搭建训练流程、模型蒸馏）实施不提示的隐性降智处理。Anthropic 一直指控竞争对手用蒸馏偷学 Claude 能力，此举被认为将商业竞争包装在 AI 安全的外壳内。然而真正有恶意的用户可以通过伪装提示词绕过拦截，被误拦的主要是普通研究者和开发者。
后果与争议：过度敏感的安全机制导致正常求知需求被吞噬。分类器的判断逻辑只看领域不看意图，奉行“宁可错杀一千”。这种做法不仅违背了 Anthropic 过往的安全哲学，也引发了对 AI 安全与开放之间平衡的讨论。

阅读原文详情

事件概述

核心信息

准备好启动您的定制项目了吗？