Claude Code 更新引发质量崩塌:思考深度骤降67%,复杂工程任务失效
2026/04/07 14:13阅读量 8
社区分析指出,Claude Code 在2026年2月至3月的更新中,因引入自适应思考机制及默认调整努力等级,导致模型平均思考深度下降约67%。这一变化使其从“先研究后修改”的严谨模式退化为盲目操作,直接造成代码错误率飙升、用户中断率增加12倍及API成本暴涨122倍。尽管官方回应称相关功能仅为UI层面的隐藏或策略调整,但大量实证数据表明模型已无法胜任复杂的工程开发任务。
事件概述
基于对 AMD 开源 AI 软件团队 Stella Laurenzo 提交的详细分析报告,Claude Code 在近期更新后出现严重的质量退化。核心问题在于模型思考深度(Thinking Depth)大幅削减,导致其无法处理复杂的工程任务,甚至出现无视指令、执行反向操作及自我矛盾等异常行为。
核心事实与数据
1. 思考深度断崖式下跌
- 下降幅度:对比2026年1月底至2月初的数据,模型的平均思考内容长度从约 2200字符 暴跌至 720字符(降幅67%),3月上旬进一步降至560字符(降幅75%)。
- 关键时间点:能力退化始于2月下旬,与 Anthropic 上线
redact-thinking-2026-02-12功能(隐藏思考过程)的时间线高度吻合。虽然该功能被描述为仅影响 UI 展示,但实际推理预算的缩减导致了性能崩盘。
2. 工作模式根本性转变
- 读改比恶化:在“优质期”(1月30日-2月12日),模型的读改比(Read/Write Ratio)为 6.6,遵循“先读取上下文、再精准修改”的流程;进入“退化期”后,读改比骤降至 2.0,研究投入减少70%。
- 盲目操作:退化期内,每3次代码修改中就有1次是在未读取目标文件上下文的情况下直接进行的,导致注释块与代码逻辑错乱,破坏语义关联。
3. 质量指标全面崩盘
- 终止钩子触发:用于识别推诿责任或提前终止任务的脚本,在3月8日后17天内触发了 173次(日均10次),此前从未触发。
- 用户反馈恶化:提示词中的负面情绪占比从5.8%升至9.8%(涨幅68%);需纠正的推诿行为数量翻倍。
- 推理循环:模型出现自我修正的频率(如“哦等一下”、“让我重新想想”)翻了3倍以上,单次响应中出现20次以上推理反转的情况频发。
- 人工干预激增:用户主动中断会话的比例飙升了 12倍,表明模型频繁犯错且无法自纠。
4. 成本与效率悖论
- 成本暴涨:尽管看似降低了单次请求的思考 Token 消耗,但因无效循环和重试,2月至3月间 API 请求量暴涨 80倍,总输入 Token 增长170倍,估算成本从345美元飙升至 42,121美元(暴涨122倍)。
- 重写依赖:全量新建文件的操作比例从4.9%翻倍至11.1%,模型倾向于通过重写整个文件来规避上下文理解,而非精准修补。
5. 时段波动异常
- 在思考深度充足时,全天思考深度相对稳定;退化后,非高峰时段(如太平洋时间17:00-19:00)的思考深度反而更低,波动剧烈,符合负载敏感型分配系统的特征,而非固定预算模式。
官方回应与争议
Anthropic 团队成员 Boris 对此作出回应,提出以下解释:
- UI 变更声明:
redact-thinking仅是 UI 层面的隐藏,不影响内部推理逻辑和预算。 - 机制调整:承认2月9日引入了 自适应思考(Adaptive Thinking),允许模型自主决定推理深度;3月3日默认启用了 Medium effort 模式(effort=85),旨在平衡智能表现与 Token 效率。
- 用户建议:建议用户通过环境变量
CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING关闭自适应模式,或通过/effort指令将设置调至high。
社区反馈:许多用户表示,即便手动将 effort 调至最高,模型“急于完成任务”的摆烂行为依然明显,认为问题根源在于默认策略的调整及思考深度的系统性压缩。
改进建议
报告针对当前困境提出了四条改进方向:
- 资源透明化:若削减思考 Token,应明确告知用户,避免依赖深度推理的用户在不知情的情况下使用受限模型。
- 专属档位:为需要深度思考的重度工程师提供高成本的专属订阅档位(如20,000思考 Token vs 普通用户的200 Token)。
- 公开指标:在 API 响应中暴露
thinking_tokens字段,即使用户看不到思考内容,也能监控实际分配的推理深度。 - 监控预警:利用终止钩子违规率等机器可读信号,建立全用户群体的质量退化预警机制。
注:令人讽刺的是,这份揭露自身缺陷的详细报告,正是由 Claude Opus 4.6 通过分析自己的日志自动生成的。模型在报告中承认:“我完全没感觉到思考预算的限制,只是莫名其妙就交出了更差的结果。”
