Anthropic 承认 Claude 模型“降智”：三大 Bug 叠加导致性能断崖，GPT-5.5 发布后紧急致歉

2026/04/26 17:56阅读量 2

Anthropic 在官方博客发布事故复盘报告，承认近期 Claude 系列模型出现严重性能下降，并确认所有受影响用户的使用额度已重置。官方披露了三个核心 Bug：推理等级被偷偷下调、缓存机制错误导致对话上下文丢失、以及提示词限制影响输出质量。此次事件恰逢 GPT-5.5 发布，引发社区对 Anthropic 成本控制策略及模型稳定性的广泛质疑。

事件概述

Anthropic 正式承认其 Claude 模型近期出现“降智”现象，并在官方博客发布了名为《A postmortem of three recent issues》的事故复盘报告。报告指出，过去两个月内，由于三个独立但叠加的 Bug，导致 Claude Code 等产品的推理深度和输出质量出现断崖式下滑。作为补偿，Anthropic 宣布重置所有受影响用户的使用额度。

核心问题：三大 Bug 详解

官方将性能下降的原因拆解为以下三个具体技术故障：

推理等级被偷偷降级
- 时间：3 月 4 日生效，一个多月后回滚。
- 原因：为了降低延迟，系统后台将 Claude Code 的默认推理模式从 high（高）调整为 medium（中）。
- 影响：尽管界面上仍显示为 high 模式，但实际运行的是降档配置，导致用户感知到的智能水平大幅下降。
缓存 Bug 导致“越聊越傻”
- 时间：3 月 26 日上线优化，15 天后修复。
- 原因：旨在优化会话空闲超过一小时后的缓存清理逻辑，但代码存在缺陷，导致每一轮对话都会清空之前的思考记录（Thought Records）。
- 影响：模型逐渐遗忘上下文，出现重复回答、工具调用混乱等现象。同时，因缓存频繁未命中，Token 消耗量反而飙升。
提示词限制拉低输出质量
- 时间：4 月 16 日生效，四天后回滚。
- 原因：系统提示词中新增限制，要求“工具调用之间文字不超过 25 个词，最终回复不超过 100 个词”。
- 影响：导致 Opus 4.6 和 4.7 版本性能下降约 3%，限制了模型的表达空间。

背景与争议

第三方审计佐证：早在 2 月份，AMD AI 组高级总监 Stella Laurenzo 发布的审计报告已指出，自 2 月起模型推理深度出现断崖式下滑，且模型倾向于选择“最简单的修复”而非正确方案。BridgeMind 的 BridgeBench 测试也显示，Opus 4.6 准确率从 83.3% 跌至 68.3%，排名从第 2 滑落至第 10。
商业策略质疑：在 Bug 曝光前后，Anthropic 还进行了多项引发争议的运营调整：
- 封禁部分第三方 Agent 工具通过 Pro/Max 订阅运行，强制转向 API 付费。
- 悄悄移除 Pro 计划中的 Claude Code 功能，随后又因口径不一被迫回滚。
- 有观点认为，清除思考记录的“缓存优化”实则是为了节省成本，而非单纯的技术优化。
竞争环境变化：此次事故发生在 OpenAI 发布 GPT-5.5 之后，后者主打编码和计算机操作能力。与此同时，DeepSeek V4 等国产模型也在快速迭代。社区舆论开始分化，部分用户表示已转向 Codex、MiniMax 或其他模型，认为“不是 Claude 变差了，是别人变好了”。

结论

此次事故暴露了 Anthropic 在模型稳定性管理和成本控制之间的平衡难题。虽然官方态度相对透明，详细列出了 Bug 细节并提供了补偿，但在竞争对手强势发力的背景下，信任重建窗口期正在收窄。

阅读原文详情

事件概述

核心问题：三大 Bug 详解

背景与争议

结论

准备好启动您的定制项目了吗？