AI agent 的 token 账单:成本结构、随机性与预测困境
2026/06/11 14:51阅读量 2
密歇根大学等机构对 AI 编码智能体的 token 消耗进行了系统性分析。研究发现:一个典型 agent 任务平均消耗约 417 万 token,输入 token 是成本绝对主力;高消耗并不对应更高准确率,反而可能伴随无效重复;不同模型 token 效率差异显著,GPT-5 系列最经济;目前人类专家及 AI 自身均难以准确预测 token 消耗,事前报价仍不可行。
事件概述
来自密歇根大学、斯坦福大学等机构的研究者借助 OpenHands coding agent 框架,分析了 8 个前沿大模型在 SWE-bench Verified 上的完整运行轨迹,首次系统回答了 agent 成本从何而来、不同模型有何差异、成本能否预测三个问题。
核心信息
1. Agent 任务成本结构远超常规任务
- 一个典型 agentic 编码任务平均消耗约 417 万 token,是单次代码推理任务(约 1200 token)的近千倍。
- 输入 token 是成本绝对主力,输入输出比高达 154:1。当前产品级 agent 多采用全上下文累积策略,多轮交互使输入 token 像雪球一样越滚越大。
2. 高 token 消耗不代表更好表现
- Token 消耗具有高度随机性:同一任务同一模型运行四次,最高消耗可达最低的 2 倍;最贵任务比最便宜任务多消耗约 700 万 token。
- 同一任务中,准确率在中等消耗时达到峰值,高消耗运行反而准确率下降。高消耗运行与重复查看、修改同一文件的无效循环显著相关。
3. Token 效率是大模型的内在固有特性
- 相同任务与框架下,不同模型 token 消耗差异显著:Kimi-K2、Claude Sonnet-4.5 平均比 GPT-5 多消耗约 150 万 token,且 Kimi-K2 成本更高但准确率更低。
- 即使剔除任务难度干扰,模型间的消耗排序保持稳定。遇到无解任务时,Kimi-K2 不会及时收手,比 GPT-5 系列多消耗近 200 万 token。
4. Token 消耗预测精度仍处于较低水平
- 人类专家估计的任务难度与 AI 实际 token 消耗相关性弱(Kendall τ=0.32),存在简单任务超耗、困难任务低耗的错位。
- 让 AI 自我预测的效果有限:预测与实际消耗的相关性最高仅 0.39(Claude Sonnet-4.5 对输出 token 的预测),多数模型在 0.2-0.3 之间;所有模型都系统性低估实际消耗,对输入 token 的低估尤为严重。
- 预测本身也有成本,早期模型(Sonnet-3.7、Sonnet-4)的预测开销曾超过任务本身两倍,但较新模型已改善,多数预测开销低于执行任务的一半。
值得关注
- 当前 agent 商业模式面临挑战:token 消耗高度多变且难以预测,使得“事前定价”短期内难以实现,按量计费仍是最现实的选择。
- 研究者提出的“行为自我意识”概念:让 agent 预测自己的开销不仅是成本估算任务,更涉及智能体是否清楚认识自身行为模式(包括何时该收手)。目前最先进的模型仍缺乏这种自知之明。
论文地址:https://arxiv.org/pdf/2604.22750
项目网站:https://longjubai.github.io/agent_token_consumption/
