Claude Code 计费黑箱事件:MaaS 厂商需提升 Token 消耗透明度

2026/04/02 19:16阅读量 2

Anthropic 官方承认 Claude Code 存在两个严重缓存 Bug,导致用户 token 消耗异常膨胀,成本可能增加 10-20 倍。该事件暴露了当前 MaaS 领域在 Harness 架构下多智能体调度成本不透明、缺乏计费可观测性的行业痛点。国内厂商虽在 API 层收费透明,但在应用层 Agent 调度成本上仍普遍存在“黑箱”现象,亟需建立清晰的账单明细与自动退费机制。

事件概述

Anthropic 官方在 Reddit 用户通过逆向工程发现并曝光问题后,正式承认 Claude Code 存在严重的计费漏洞。该问题导致用户在执行复杂任务时,Token 消耗量远超预期,部分场景下成本膨胀高达 10 至 20 倍。这一事件引发了对 AI 应用层(MaaS)计费透明度及“黑箱”操作模式的广泛讨论。

核心问题分析

此次计费异常主要由以下两个技术缺陷叠加导致:

  1. Sentinel 替换机制破坏缓存一致性

    • 机制:为适配不同操作系统(Windows/macOS/Linux),系统使用独立二进制文件,并在涉及计费逻辑时用 sentinel 值替换敏感字段。
    • 后果:这种替换破坏了 Prompt Cache 的哈希一致性,导致本应命中的缓存被判定为未命中,引发重复计算 Token。
  2. Resume 参数强制刷新缓存

    • 机制:从 v2.1.69 版本起,用于恢复中断对话的 resume 参数会强制使缓存失效。
    • 后果:用户中途退出或切换设备后再次继续对话时,系统无法复用之前的上下文缓存,必须重新计算整个对话历史的 Token,对长上下文重度用户造成致命成本打击。

此外,Harness 架构本身带来的开销也是因素之一。该架构通过多智能体流水线(写代码、评审、审核等子智能体协作)处理复杂任务,其 Token 消耗通常是直接调用模型的数倍甚至十倍以上,且这部分隐性开销常被打包进单次对话账单中,用户难以感知。

行业对比与现状

  • 国际厂商:Anthropic 在用户质疑后才回应,缺乏基本的计费可观测性(Observability)。相比之下,OpenClaw(注:原文指代竞品或泛指开源/敏捷团队)表现出更快的迭代修复速度。行业惯例显示,模型能力往往成为护城河,而用户体验和计费透明度常被牺牲。
  • 国内 MaaS 厂商
    • API 层:国内厂商在 API 层面的收费相对透明,支持细粒度追溯。
    • 应用层:在涉及 Agent 调度和 Harness 调度成本时,多数厂商仍将成本打包在 Token 中,缺乏显性化展示。除百度将 Agent 成本显性化外,其他主流厂商(如 Kimi、火山等)仍存在调度成本黑箱问题。
    • 套餐局限:许多定制 Token 套餐存在限额僵化、高峰时段配额不足等问题,导致用户被迫转向按量付费,形成“本末倒置”。

关键结论与建议

当前 AI 应用仍处于“蛮荒时代”,厂商将技术债务包装为“使用量”,剥夺了用户的知情权。行业亟需解决以下问题:

  1. 账单透明化:提供类似云计算时代的明细账单,区分“实际调用成本”与“调度损耗”,明确展示 Harness 调用链。
  2. 可观测性建设:建立计费监控系统,当用户质疑账单时能提供数据证明,而非仅口头回应。
  3. 补偿机制:对于因系统 Bug 导致的计费错误,应承诺自动退费,而非仅处于“正在调查”状态。
  4. 调试模式:为用户提供可选的“调试模式”开关,以便开发者查看具体的 Token 消耗路径。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。