斯坦福等高校新研究:AI Agent编码任务的Token消耗是普通对话1000倍,成本不可预测

2026/05/03 08:33阅读量 4

斯坦福、MIT、密歇根大学等机构联合发表论文,系统分析了AI Agent在代码修复任务中的Token消耗模式。研究发现,Agent的Token消耗量是普通代码问答的约1000倍,主要成本花在“读取”而非“写入”;同一任务多次运行的成本差异可达2倍,跨模型最高相差30倍;高成本运行中约50%的操作是重复劳动。模型自身无法准确预测Token用量,人类对任务难度的感知也与实际成本弱相关,行业亟需建立预算感知机制。

事件概述

2026年4月,斯坦福、MIT、密歇根大学等机构联合发布预印本论文《How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks》,首次系统性揭示了AI Agent在自主代码修复任务中的Token消耗黑箱。以下为五大核心发现。

核心发现

发现一:Agent写代码的Token消耗是普通对话的1000倍

论文对比显示,Agentic编码任务的Token消耗量是普通代码问答和代码推理任务的约1000倍,差了三个数量级。成本主要不是花在“写代码”(输出Token),而是花在“读代码”(输入Token):Agent需要不断将项目上下文、历史操作、报错信息等喂给模型,每轮对话上下文呈指数级增长,而模型按Token计费——输入Token的指数级增长是驱动成本的主因。

发现二:同一任务多次运行成本差异显著,花得多不一定做得好

研究者让同一Agent在相同任务上跑4次:最贵任务比最便宜任务多烧约700万个Token(Figure 2a);同一模型同一任务多次运行,最贵一次约为最便宜一次的2倍(Figure 2b);跨模型对比同一任务,最高与最低消耗相差高达30倍。更重要的是,成本与准确率呈“倒U型”曲线——中等成本时准确率最高,高成本时准确率反而下降。高成本运行中约50%的文件查看和修改操作是重复劳动,Agent在“迷路”中浪费了大量Token。

发现三:模型间Token效率天差地别,且是“固有性格”

论文在SWE-bench Verified(500个真实GitHub Issue)上测试了8个前沿模型。Token效率高的模型(如GPT-5)每个任务可节省数十美元。研究者将所有模型都成功解决的230个任务和都失败的100个任务分别对比,发现模型的相对Token效率排名几乎不变——说明Token效率是模型的固有属性,与任务难度关系不大。此外,模型普遍缺乏“止损意识”:在困难任务上反而消耗更多Token,不会尽早放弃。

发现四:人类对难度的感知与Agent成本弱相关

论文请人类专家对500个任务的难度评分,并与Agent实际Token消耗对比,发现两者仅呈弱相关。人类看重的逻辑复杂度和算法难度,与Agent眼中的“项目大小、需读取文件数量、探索路径长度”完全不是一回事。导致开发者几乎无法凭直觉预估Agent运行成本。

发现五:模型自身也无法准确预测Token消耗

研究者让Agent在真正开始修复前“inspect”代码库并预估Token消耗,结果所有模型预测均失败。最佳成绩是Claude Sonnet-4.5对输出Token的预测相关性仅为0.39(满分1.0),多数模型在0.05-0.34之间,Gemini-3-Pro仅0.04(基本等于瞎猜)。所有模型系统性地低估了实际消耗,且不提供示例时偏差更严重。更讽刺的是,Claude Sonnet-3.7和Sonnet-4的预测成本竟比任务本身高出2倍以上。论文结论:前沿模型无法准确预测自身的Token用量。

值得关注

论文提出的行业影响包括:

  1. 制定价模式面临挑战:Agent任务Token消耗不可预测,纯粹的订阅制定价可能不可持续,按量计费仍是现实选项,但用量本身难以预估。
  2. 选模型需新增“能效”指标:传统上选模型看能力和速度,论文指出Token效率应成为同等重要的第三维度。一个能力略逊但效率高3倍的模型在规模化场景下可能更具经济价值。
  3. Agent需要“油表”和“刹车”:论文提出“Budget-aware tool-use policies”(预算感知工具使用策略),在Token消耗接近预算时强制停止无效探索,而目前主流Agent框架普遍缺乏此类机制。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。