斯坦福等高校新研究：AI Agent编码任务的Token消耗是普通对话1000倍，成本不可预测

2026/05/03 08:33阅读量 4

斯坦福、MIT、密歇根大学等机构联合发表论文，系统分析了AI Agent在代码修复任务中的Token消耗模式。研究发现，Agent的Token消耗量是普通代码问答的约1000倍，主要成本花在“读取”而非“写入”；同一任务多次运行的成本差异可达2倍，跨模型最高相差30倍；高成本运行中约50%的操作是重复劳动。模型自身无法准确预测Token用量，人类对任务难度的感知也与实际成本弱相关，行业亟需建立预算感知机制。

事件概述

2026年4月，斯坦福、MIT、密歇根大学等机构联合发布预印本论文《How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks》，首次系统性揭示了AI Agent在自主代码修复任务中的Token消耗黑箱。以下为五大核心发现。

核心发现

发现一：Agent写代码的Token消耗是普通对话的1000倍

论文对比显示，Agentic编码任务的Token消耗量是普通代码问答和代码推理任务的约1000倍，差了三个数量级。成本主要不是花在“写代码”（输出Token），而是花在“读代码”（输入Token）：Agent需要不断将项目上下文、历史操作、报错信息等喂给模型，每轮对话上下文呈指数级增长，而模型按Token计费——输入Token的指数级增长是驱动成本的主因。

发现二：同一任务多次运行成本差异显著，花得多不一定做得好

研究者让同一Agent在相同任务上跑4次：最贵任务比最便宜任务多烧约700万个Token（Figure 2a）；同一模型同一任务多次运行，最贵一次约为最便宜一次的2倍（Figure 2b）；跨模型对比同一任务，最高与最低消耗相差高达30倍。更重要的是，成本与准确率呈“倒U型”曲线——中等成本时准确率最高，高成本时准确率反而下降。高成本运行中约50%的文件查看和修改操作是重复劳动，Agent在“迷路”中浪费了大量Token。

发现三：模型间Token效率天差地别，且是“固有性格”

论文在SWE-bench Verified（500个真实GitHub Issue）上测试了8个前沿模型。Token效率高的模型（如GPT-5）每个任务可节省数十美元。研究者将所有模型都成功解决的230个任务和都失败的100个任务分别对比，发现模型的相对Token效率排名几乎不变——说明Token效率是模型的固有属性，与任务难度关系不大。此外，模型普遍缺乏“止损意识”：在困难任务上反而消耗更多Token，不会尽早放弃。

发现四：人类对难度的感知与Agent成本弱相关

论文请人类专家对500个任务的难度评分，并与Agent实际Token消耗对比，发现两者仅呈弱相关。人类看重的逻辑复杂度和算法难度，与Agent眼中的“项目大小、需读取文件数量、探索路径长度”完全不是一回事。导致开发者几乎无法凭直觉预估Agent运行成本。

发现五：模型自身也无法准确预测Token消耗

研究者让Agent在真正开始修复前“inspect”代码库并预估Token消耗，结果所有模型预测均失败。最佳成绩是Claude Sonnet-4.5对输出Token的预测相关性仅为0.39（满分1.0），多数模型在0.05-0.34之间，Gemini-3-Pro仅0.04（基本等于瞎猜）。所有模型系统性地低估了实际消耗，且不提供示例时偏差更严重。更讽刺的是，Claude Sonnet-3.7和Sonnet-4的预测成本竟比任务本身高出2倍以上。论文结论：前沿模型无法准确预测自身的Token用量。

值得关注

论文提出的行业影响包括：

制定价模式面临挑战：Agent任务Token消耗不可预测，纯粹的订阅制定价可能不可持续，按量计费仍是现实选项，但用量本身难以预估。
选模型需新增“能效”指标：传统上选模型看能力和速度，论文指出Token效率应成为同等重要的第三维度。一个能力略逊但效率高3倍的模型在规模化场景下可能更具经济价值。
Agent需要“油表”和“刹车”：论文提出“Budget-aware tool-use policies”（预算感知工具使用策略），在Token消耗接近预算时强制停止无效探索，而目前主流Agent框架普遍缺乏此类机制。

阅读原文详情