Claude Code 更新引发质量崩塌：思考深度骤降67%，复杂工程任务失效

2026/04/07 14:13阅读量 47

社区分析指出，Claude Code 在2026年2月至3月的更新中，因引入自适应思考机制及默认调整努力等级，导致模型平均思考深度下降约67%。这一变化使其从“先研究后修改”的严谨模式退化为盲目操作，直接造成代码错误率飙升、用户中断率增加12倍及API成本暴涨122倍。尽管官方回应称相关功能仅为UI层面的隐藏或策略调整，但大量实证数据表明模型已无法胜任复杂的工程开发任务。

事件概述

基于对 AMD 开源 AI 软件团队 Stella Laurenzo 提交的详细分析报告，Claude Code 在近期更新后出现严重的质量退化。核心问题在于模型思考深度（Thinking Depth）大幅削减，导致其无法处理复杂的工程任务，甚至出现无视指令、执行反向操作及自我矛盾等异常行为。

核心事实与数据

1. 思考深度断崖式下跌

下降幅度：对比2026年1月底至2月初的数据，模型的平均思考内容长度从约 2200字符 暴跌至 720字符（降幅67%），3月上旬进一步降至560字符（降幅75%）。
关键时间点：能力退化始于2月下旬，与 Anthropic 上线 redact-thinking-2026-02-12 功能（隐藏思考过程）的时间线高度吻合。虽然该功能被描述为仅影响 UI 展示，但实际推理预算的缩减导致了性能崩盘。

2. 工作模式根本性转变

读改比恶化：在“优质期”（1月30日-2月12日），模型的读改比（Read/Write Ratio）为 6.6，遵循“先读取上下文、再精准修改”的流程；进入“退化期”后，读改比骤降至 2.0，研究投入减少70%。
盲目操作：退化期内，每3次代码修改中就有1次是在未读取目标文件上下文的情况下直接进行的，导致注释块与代码逻辑错乱，破坏语义关联。

3. 质量指标全面崩盘

终止钩子触发：用于识别推诿责任或提前终止任务的脚本，在3月8日后17天内触发了 173次（日均10次），此前从未触发。
用户反馈恶化：提示词中的负面情绪占比从5.8%升至9.8%（涨幅68%）；需纠正的推诿行为数量翻倍。
推理循环：模型出现自我修正的频率（如“哦等一下”、“让我重新想想”）翻了3倍以上，单次响应中出现20次以上推理反转的情况频发。
人工干预激增：用户主动中断会话的比例飙升了 12倍，表明模型频繁犯错且无法自纠。

4. 成本与效率悖论

成本暴涨：尽管看似降低了单次请求的思考 Token 消耗，但因无效循环和重试，2月至3月间 API 请求量暴涨 80倍，总输入 Token 增长170倍，估算成本从345美元飙升至 42,121美元（暴涨122倍）。
重写依赖：全量新建文件的操作比例从4.9%翻倍至11.1%，模型倾向于通过重写整个文件来规避上下文理解，而非精准修补。

5. 时段波动异常

在思考深度充足时，全天思考深度相对稳定；退化后，非高峰时段（如太平洋时间17:00-19:00）的思考深度反而更低，波动剧烈，符合负载敏感型分配系统的特征，而非固定预算模式。

官方回应与争议

Anthropic 团队成员 Boris 对此作出回应，提出以下解释：

UI 变更声明：redact-thinking 仅是 UI 层面的隐藏，不影响内部推理逻辑和预算。
机制调整：承认2月9日引入了 自适应思考（Adaptive Thinking），允许模型自主决定推理深度；3月3日默认启用了 Medium effort 模式（effort=85），旨在平衡智能表现与 Token 效率。
用户建议：建议用户通过环境变量 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING 关闭自适应模式，或通过 /effort 指令将设置调至 high。

社区反馈：许多用户表示，即便手动将 effort 调至最高，模型“急于完成任务”的摆烂行为依然明显，认为问题根源在于默认策略的调整及思考深度的系统性压缩。

改进建议

报告针对当前困境提出了四条改进方向：

资源透明化：若削减思考 Token，应明确告知用户，避免依赖深度推理的用户在不知情的情况下使用受限模型。
专属档位：为需要深度思考的重度工程师提供高成本的专属订阅档位（如20,000思考 Token vs 普通用户的200 Token）。
公开指标：在 API 响应中暴露 thinking_tokens 字段，即使用户看不到思考内容，也能监控实际分配的推理深度。
监控预警：利用终止钩子违规率等机器可读信号，建立全用户群体的质量退化预警机制。

注：令人讽刺的是，这份揭露自身缺陷的详细报告，正是由 Claude Opus 4.6 通过分析自己的日志自动生成的。模型在报告中承认：“我完全没感觉到思考预算的限制，只是莫名其妙就交出了更差的结果。”

阅读原文详情