AI智能体“小龙虾”引发Token荒,服务商被迫调整计费策略
2026/04/20 16:50阅读量 16
近期,以智谱为代表的多家AI服务商因算力成本激增,纷纷对编程套餐实施限购、停售或退款措施。核心原因在于OpenClaw等AI智能体在处理简单指令时,因复杂的系统提示词、工具Schema加载及历史记忆反复调用,导致Token消耗量呈指数级增长。这一现象揭示了当前智能体架构中“大力出奇迹”模式带来的高昂隐性成本,迫使行业重新审视包月服务模式的可持续性。
事件概述
近期,大模型领域出现显著的“Token荒”现象。以大模型第一股智谱(Zhipu)为代表,多家AI服务商因算力紧张和体验下降,宣布为Coding Plan用户限时退款,或采取限购、停售、更改套餐配额等措施。其根本原因在于以“小龙虾”(OpenClaw)为代表的AI智能体过度消耗Token,导致服务商难以维持原有的包月服务模式。
核心成因:智能体的“高起步价”与内耗机制
与传统AI聊天工具不同,智能体在处理如“你好”这样简单的输入时,内部执行流程极其复杂,Token消耗量可达普通对话工具的十倍。具体开销来源包括:
- 高昂的系统提示词(System Prompt):用户输入简短文本,但发送给底层模型的“岗位说明书”包含大量基础信息,构成第一笔固定开销。
- 工具与Schema成本:智能体需向模型传递可用工具名称及其JSON Schema以便调用,这部分文本直接计入上下文成本。
- Skills清单开销:即使未实际调用技能,系统提示词中也会预置一份紧凑的技能清单,告知模型各技能功能,增加额外Token消耗。
- 历史对话的反复加载:模型处理新消息时,通常需重新加载整个对话历史。会话越长,单次交互成本越高。
- 旧工具输出的内存驻留:之前调用工具产生的结果(如网页内容、文件、日志)会一直保留在上下文窗口中,成为隐形的消耗大户。
- 记忆文件的加载代价:用户为维护智能体“记忆”而创建的MEMORY.md文件,在需要被重新加载进会话时,同样占用大量Tokens。
此外,智能体工作流往往涉及多步思考和多次模型调用。即便面对简短输入,系统也会将消息标准化,拼凑包含工具、技能、历史记录、元数据等庞大信息的系统提示词,触发完整的运行链路。
应对建议:高效使用智能体
为节约Token并提升效率,用户可调整以下使用习惯:
- 减少无效寒暄:直接下达明确指令,避免情感交流式的对话。
- 精准描述任务:一次性提供完整、清晰的任务描述,减少多轮沟通。
- 避免全量投喂:不要直接将大型日志、代码库或文档整体投喂给智能体。
- 控制输出长度:明确要求回复篇幅,减少冗余内容。
- 切换会话:不同任务间及时开启新会话,避免单次会话过长导致上下文膨胀。
- 精简配置:删除不常用或无效的工具和Skills。
- 模型选择:优先选择更聪明的模型,减少因模型“走弯路”产生的额外消耗;简单任务可使用免费AI助手替代。
- 关注成本效益:部分场景下,“便宜”的模型可能因效率低下导致总成本更高。
