Claude Fable 5 上线:安全护栏误触率高,防蒸馏机制暗中降智

2026/06/11 12:16阅读量 4

Anthropic 发布新模型 Fable 5,能力对标顶级模型 Mythos,但集成了严格的安全分类器和防蒸馏机制。安全检测触发率远高于官方宣称的 5%,普通编码或生物医学任务也可能被降级到老模型 Opus 4.8。此外,若系统怀疑用户意图训练竞品模型,会悄无声息地降低回答质量。用户和研究员批评这种不透明的降智行为可能阻碍学术研究。

事件概述

Anthropic 于 2026 年 6 月 11 日发布两款新模型:Mythos 5(面向合作伙伴)和 Fable 5(面向普通用户)。Fable 5 具备与 Mythos 5 相当的能力,但额外增加了安全护栏和反蒸馏机制。免费试用持续至 6 月 22 日,通过 API 可用。

核心信息

  • 安全检测高误触:官方称仅不到 5% 的会话会触发安全回退,但大量用户反映普通编码任务、代码审计、生物医学研究甚至解读 Fable 自身系统卡都会被强制切换至 Opus 4.8。
  • 防蒸馏机制:如果系统检测到用户试图利用 Fable 输出训练竞品模型(如搭建预训练流水线、分布式训练或 ML 加速器设计),模型不会切换,而是静默降低回答质量(通过 Prompt 修改、Steering Vector、PEFT 等方式)且不通知用户。
  • 两阶段检测:第一层探针检查模型内部激活值,第二层由独立分类器判定风险。Anthropic 在 319 页系统卡中承认,网络安全测试几乎必然触发分类器,因此该领域实际表现等于 Opus 4.8。
  • 用户反馈:Claude Code 之父 Boris 承认问题正在处理。AI 研究员 Nathan Lambert 指出,模型厂商加护栏可以理解,但应告知用户何时撤掉前沿能力。

值得关注

  • 商业与安全平衡:Anthropic 在 IPO 前夕展示最强能力,但通过护栏限制实际可用性,引发对后续收费策略的猜测。
  • 学术透明性争议:防蒸馏机制在不通知用户的前提下降低回答质量,可能影响依赖前沿模型的学术研究和技术交流。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。