AI agent 的 token 账单：成本结构、随机性与预测困境

2026/06/11 14:51阅读量 2

密歇根大学等机构对 AI 编码智能体的 token 消耗进行了系统性分析。研究发现：一个典型 agent 任务平均消耗约 417 万 token，输入 token 是成本绝对主力；高消耗并不对应更高准确率，反而可能伴随无效重复；不同模型 token 效率差异显著，GPT-5 系列最经济；目前人类专家及 AI 自身均难以准确预测 token 消耗，事前报价仍不可行。

事件概述

来自密歇根大学、斯坦福大学等机构的研究者借助 OpenHands coding agent 框架，分析了 8 个前沿大模型在 SWE-bench Verified 上的完整运行轨迹，首次系统回答了 agent 成本从何而来、不同模型有何差异、成本能否预测三个问题。

核心信息

1. Agent 任务成本结构远超常规任务

一个典型 agentic 编码任务平均消耗约 417 万 token，是单次代码推理任务（约 1200 token）的近千倍。
输入 token 是成本绝对主力，输入输出比高达 154:1。当前产品级 agent 多采用全上下文累积策略，多轮交互使输入 token 像雪球一样越滚越大。

2. 高 token 消耗不代表更好表现

Token 消耗具有高度随机性：同一任务同一模型运行四次，最高消耗可达最低的 2 倍；最贵任务比最便宜任务多消耗约 700 万 token。
同一任务中，准确率在中等消耗时达到峰值，高消耗运行反而准确率下降。高消耗运行与重复查看、修改同一文件的无效循环显著相关。

3. Token 效率是大模型的内在固有特性

相同任务与框架下，不同模型 token 消耗差异显著：Kimi-K2、Claude Sonnet-4.5 平均比 GPT-5 多消耗约 150 万 token，且 Kimi-K2 成本更高但准确率更低。
即使剔除任务难度干扰，模型间的消耗排序保持稳定。遇到无解任务时，Kimi-K2 不会及时收手，比 GPT-5 系列多消耗近 200 万 token。

4. Token 消耗预测精度仍处于较低水平

人类专家估计的任务难度与 AI 实际 token 消耗相关性弱（Kendall τ=0.32），存在简单任务超耗、困难任务低耗的错位。
让 AI 自我预测的效果有限：预测与实际消耗的相关性最高仅 0.39（Claude Sonnet-4.5 对输出 token 的预测），多数模型在 0.2-0.3 之间；所有模型都系统性低估实际消耗，对输入 token 的低估尤为严重。
预测本身也有成本，早期模型（Sonnet-3.7、Sonnet-4）的预测开销曾超过任务本身两倍，但较新模型已改善，多数预测开销低于执行任务的一半。

值得关注

当前 agent 商业模式面临挑战：token 消耗高度多变且难以预测，使得“事前定价”短期内难以实现，按量计费仍是最现实的选择。
研究者提出的“行为自我意识”概念：让 agent 预测自己的开销不仅是成本估算任务，更涉及智能体是否清楚认识自身行为模式（包括何时该收手）。目前最先进的模型仍缺乏这种自知之明。

论文地址：https://arxiv.org/pdf/2604.22750
项目网站：https://longjubai.github.io/agent_token_consumption/

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？