AI智能体“小龙虾”引发Token荒，服务商被迫调整计费策略

2026/04/20 16:50阅读量 16

近期，以智谱为代表的多家AI服务商因算力成本激增，纷纷对编程套餐实施限购、停售或退款措施。核心原因在于OpenClaw等AI智能体在处理简单指令时，因复杂的系统提示词、工具Schema加载及历史记忆反复调用，导致Token消耗量呈指数级增长。这一现象揭示了当前智能体架构中“大力出奇迹”模式带来的高昂隐性成本，迫使行业重新审视包月服务模式的可持续性。

事件概述

近期，大模型领域出现显著的“Token荒”现象。以大模型第一股智谱（Zhipu）为代表，多家AI服务商因算力紧张和体验下降，宣布为Coding Plan用户限时退款，或采取限购、停售、更改套餐配额等措施。其根本原因在于以“小龙虾”（OpenClaw）为代表的AI智能体过度消耗Token，导致服务商难以维持原有的包月服务模式。

核心成因：智能体的“高起步价”与内耗机制

与传统AI聊天工具不同，智能体在处理如“你好”这样简单的输入时，内部执行流程极其复杂，Token消耗量可达普通对话工具的十倍。具体开销来源包括：

高昂的系统提示词（System Prompt）：用户输入简短文本，但发送给底层模型的“岗位说明书”包含大量基础信息，构成第一笔固定开销。
工具与Schema成本：智能体需向模型传递可用工具名称及其JSON Schema以便调用，这部分文本直接计入上下文成本。
Skills清单开销：即使未实际调用技能，系统提示词中也会预置一份紧凑的技能清单，告知模型各技能功能，增加额外Token消耗。
历史对话的反复加载：模型处理新消息时，通常需重新加载整个对话历史。会话越长，单次交互成本越高。
旧工具输出的内存驻留：之前调用工具产生的结果（如网页内容、文件、日志）会一直保留在上下文窗口中，成为隐形的消耗大户。
记忆文件的加载代价：用户为维护智能体“记忆”而创建的MEMORY.md文件，在需要被重新加载进会话时，同样占用大量Tokens。

此外，智能体工作流往往涉及多步思考和多次模型调用。即便面对简短输入，系统也会将消息标准化，拼凑包含工具、技能、历史记录、元数据等庞大信息的系统提示词，触发完整的运行链路。

应对建议：高效使用智能体

为节约Token并提升效率，用户可调整以下使用习惯：

减少无效寒暄：直接下达明确指令，避免情感交流式的对话。
精准描述任务：一次性提供完整、清晰的任务描述，减少多轮沟通。
避免全量投喂：不要直接将大型日志、代码库或文档整体投喂给智能体。
控制输出长度：明确要求回复篇幅，减少冗余内容。
切换会话：不同任务间及时开启新会话，避免单次会话过长导致上下文膨胀。
精简配置：删除不常用或无效的工具和Skills。
模型选择：优先选择更聪明的模型，减少因模型“走弯路”产生的额外消耗；简单任务可使用免费AI助手替代。
关注成本效益：部分场景下，“便宜”的模型可能因效率低下导致总成本更高。

阅读原文详情

事件概述

核心成因：智能体的“高起步价”与内耗机制

应对建议：高效使用智能体

准备好启动您的定制项目了吗？