Anthropic 承认 Claude 模型“降智”:三大 Bug 叠加导致性能断崖,GPT-5.5 发布后紧急致歉

2026/04/26 17:56阅读量 2

Anthropic 在官方博客发布事故复盘报告,承认近期 Claude 系列模型出现严重性能下降,并确认所有受影响用户的使用额度已重置。官方披露了三个核心 Bug:推理等级被偷偷下调、缓存机制错误导致对话上下文丢失、以及提示词限制影响输出质量。此次事件恰逢 GPT-5.5 发布,引发社区对 Anthropic 成本控制策略及模型稳定性的广泛质疑。

事件概述

Anthropic 正式承认其 Claude 模型近期出现“降智”现象,并在官方博客发布了名为《A postmortem of three recent issues》的事故复盘报告。报告指出,过去两个月内,由于三个独立但叠加的 Bug,导致 Claude Code 等产品的推理深度和输出质量出现断崖式下滑。作为补偿,Anthropic 宣布重置所有受影响用户的使用额度。

核心问题:三大 Bug 详解

官方将性能下降的原因拆解为以下三个具体技术故障:

  1. 推理等级被偷偷降级

    • 时间:3 月 4 日生效,一个多月后回滚。
    • 原因:为了降低延迟,系统后台将 Claude Code 的默认推理模式从 high(高)调整为 medium(中)。
    • 影响:尽管界面上仍显示为 high 模式,但实际运行的是降档配置,导致用户感知到的智能水平大幅下降。
  2. 缓存 Bug 导致“越聊越傻”

    • 时间:3 月 26 日上线优化,15 天后修复。
    • 原因:旨在优化会话空闲超过一小时后的缓存清理逻辑,但代码存在缺陷,导致每一轮对话都会清空之前的思考记录(Thought Records)。
    • 影响:模型逐渐遗忘上下文,出现重复回答、工具调用混乱等现象。同时,因缓存频繁未命中,Token 消耗量反而飙升。
  3. 提示词限制拉低输出质量

    • 时间:4 月 16 日生效,四天后回滚。
    • 原因:系统提示词中新增限制,要求“工具调用之间文字不超过 25 个词,最终回复不超过 100 个词”。
    • 影响:导致 Opus 4.6 和 4.7 版本性能下降约 3%,限制了模型的表达空间。

背景与争议

  • 第三方审计佐证:早在 2 月份,AMD AI 组高级总监 Stella Laurenzo 发布的审计报告已指出,自 2 月起模型推理深度出现断崖式下滑,且模型倾向于选择“最简单的修复”而非正确方案。BridgeMind 的 BridgeBench 测试也显示,Opus 4.6 准确率从 83.3% 跌至 68.3%,排名从第 2 滑落至第 10。
  • 商业策略质疑:在 Bug 曝光前后,Anthropic 还进行了多项引发争议的运营调整:
    • 封禁部分第三方 Agent 工具通过 Pro/Max 订阅运行,强制转向 API 付费。
    • 悄悄移除 Pro 计划中的 Claude Code 功能,随后又因口径不一被迫回滚。
    • 有观点认为,清除思考记录的“缓存优化”实则是为了节省成本,而非单纯的技术优化。
  • 竞争环境变化:此次事故发生在 OpenAI 发布 GPT-5.5 之后,后者主打编码和计算机操作能力。与此同时,DeepSeek V4 等国产模型也在快速迭代。社区舆论开始分化,部分用户表示已转向 Codex、MiniMax 或其他模型,认为“不是 Claude 变差了,是别人变好了”。

结论

此次事故暴露了 Anthropic 在模型稳定性管理和成本控制之间的平衡难题。虽然官方态度相对透明,详细列出了 Bug 细节并提供了补偿,但在竞争对手强势发力的背景下,信任重建窗口期正在收窄。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。