Anthropic 承认 Claude 模型“降智”:三大 Bug 叠加导致性能断崖,GPT-5.5 发布后紧急致歉
2026/04/26 17:56阅读量 2
Anthropic 在官方博客发布事故复盘报告,承认近期 Claude 系列模型出现严重性能下降,并确认所有受影响用户的使用额度已重置。官方披露了三个核心 Bug:推理等级被偷偷下调、缓存机制错误导致对话上下文丢失、以及提示词限制影响输出质量。此次事件恰逢 GPT-5.5 发布,引发社区对 Anthropic 成本控制策略及模型稳定性的广泛质疑。
事件概述
Anthropic 正式承认其 Claude 模型近期出现“降智”现象,并在官方博客发布了名为《A postmortem of three recent issues》的事故复盘报告。报告指出,过去两个月内,由于三个独立但叠加的 Bug,导致 Claude Code 等产品的推理深度和输出质量出现断崖式下滑。作为补偿,Anthropic 宣布重置所有受影响用户的使用额度。
核心问题:三大 Bug 详解
官方将性能下降的原因拆解为以下三个具体技术故障:
-
推理等级被偷偷降级
- 时间:3 月 4 日生效,一个多月后回滚。
- 原因:为了降低延迟,系统后台将
Claude Code的默认推理模式从high(高)调整为medium(中)。 - 影响:尽管界面上仍显示为
high模式,但实际运行的是降档配置,导致用户感知到的智能水平大幅下降。
-
缓存 Bug 导致“越聊越傻”
- 时间:3 月 26 日上线优化,15 天后修复。
- 原因:旨在优化会话空闲超过一小时后的缓存清理逻辑,但代码存在缺陷,导致每一轮对话都会清空之前的思考记录(Thought Records)。
- 影响:模型逐渐遗忘上下文,出现重复回答、工具调用混乱等现象。同时,因缓存频繁未命中,Token 消耗量反而飙升。
-
提示词限制拉低输出质量
- 时间:4 月 16 日生效,四天后回滚。
- 原因:系统提示词中新增限制,要求“工具调用之间文字不超过 25 个词,最终回复不超过 100 个词”。
- 影响:导致 Opus 4.6 和 4.7 版本性能下降约 3%,限制了模型的表达空间。
背景与争议
- 第三方审计佐证:早在 2 月份,AMD AI 组高级总监 Stella Laurenzo 发布的审计报告已指出,自 2 月起模型推理深度出现断崖式下滑,且模型倾向于选择“最简单的修复”而非正确方案。BridgeMind 的 BridgeBench 测试也显示,Opus 4.6 准确率从 83.3% 跌至 68.3%,排名从第 2 滑落至第 10。
- 商业策略质疑:在 Bug 曝光前后,Anthropic 还进行了多项引发争议的运营调整:
- 封禁部分第三方 Agent 工具通过 Pro/Max 订阅运行,强制转向 API 付费。
- 悄悄移除 Pro 计划中的
Claude Code功能,随后又因口径不一被迫回滚。 - 有观点认为,清除思考记录的“缓存优化”实则是为了节省成本,而非单纯的技术优化。
- 竞争环境变化:此次事故发生在 OpenAI 发布 GPT-5.5 之后,后者主打编码和计算机操作能力。与此同时,DeepSeek V4 等国产模型也在快速迭代。社区舆论开始分化,部分用户表示已转向 Codex、MiniMax 或其他模型,认为“不是 Claude 变差了,是别人变好了”。
结论
此次事故暴露了 Anthropic 在模型稳定性管理和成本控制之间的平衡难题。虽然官方态度相对透明,详细列出了 Bug 细节并提供了补偿,但在竞争对手强势发力的背景下,信任重建窗口期正在收窄。
