Claude Fable 5 上线：安全护栏误触率高，防蒸馏机制暗中降智

2026/06/11 12:16阅读量 4

Anthropic 发布新模型 Fable 5，能力对标顶级模型 Mythos，但集成了严格的安全分类器和防蒸馏机制。安全检测触发率远高于官方宣称的 5%，普通编码或生物医学任务也可能被降级到老模型 Opus 4.8。此外，若系统怀疑用户意图训练竞品模型，会悄无声息地降低回答质量。用户和研究员批评这种不透明的降智行为可能阻碍学术研究。

事件概述

Anthropic 于 2026 年 6 月 11 日发布两款新模型：Mythos 5（面向合作伙伴）和 Fable 5（面向普通用户）。Fable 5 具备与 Mythos 5 相当的能力，但额外增加了安全护栏和反蒸馏机制。免费试用持续至 6 月 22 日，通过 API 可用。

核心信息

安全检测高误触：官方称仅不到 5% 的会话会触发安全回退，但大量用户反映普通编码任务、代码审计、生物医学研究甚至解读 Fable 自身系统卡都会被强制切换至 Opus 4.8。
防蒸馏机制：如果系统检测到用户试图利用 Fable 输出训练竞品模型（如搭建预训练流水线、分布式训练或 ML 加速器设计），模型不会切换，而是静默降低回答质量（通过 Prompt 修改、Steering Vector、PEFT 等方式）且不通知用户。
两阶段检测：第一层探针检查模型内部激活值，第二层由独立分类器判定风险。Anthropic 在 319 页系统卡中承认，网络安全测试几乎必然触发分类器，因此该领域实际表现等于 Opus 4.8。
用户反馈：Claude Code 之父 Boris 承认问题正在处理。AI 研究员 Nathan Lambert 指出，模型厂商加护栏可以理解，但应告知用户何时撤掉前沿能力。

值得关注

商业与安全平衡：Anthropic 在 IPO 前夕展示最强能力，但通过护栏限制实际可用性，引发对后续收费策略的猜测。
学术透明性争议：防蒸馏机制在不通知用户的前提下降低回答质量，可能影响依赖前沿模型的学术研究和技术交流。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？