英伟达重新思考AI TCO：每Token成本才是唯一重要指标

2026/05/07 12:36阅读量 3

英伟达提出，在AI推理成为核心工作负载的背景下，评估AI基础设施时应从每Token成本出发，而非传统的每美元FLOPS或算力成本。该公司以Blackwell平台为例，宣称其每瓦Token产出量是上一代Hopper的50倍以上，每百万Token成本降低至1/35，并强调全栈优化是实现最低每Token成本的关键。

事件概述

英伟达发文称，随着生成式AI与代理式AI的普及，数据中心已从数据处理中心演变为“AI Token工厂”。AI推理成为核心工作负载，其产出是以Token形式制造的智能。因此，衡量AI基础设施的经济效益指标必须从传统的算力成本（每GPU小时成本）或每美元FLOPS转向“每Token成本”（通常以每百万Token成本表示）。

核心信息

传统指标的问题：算力成本和每美元FLOPS仅衡量投入，不能反映实际产出。当业务围绕Token产出运行时，只优化投入会导致根本性错配。
每Token成本的计算公式：每百万Token成本 = (每GPU小时成本) / (每秒生成的Token数 × 3600)。关键在分母——最大化实际交付的Token产出，而非只关注分子成本。
影响Token产出的深度因素：包括对MoE模型的推理效率、每兆瓦Token产出、纵向扩展互连对all-to-all通信的支持、FP4精度支持、投机解码、KV缓存卸载、代理式AI的低延迟高吞吐需求，以及从训练到推理的完整生命周期支持。
性能数据对比：以DeepSeek-R1模型为例，英伟达Blackwell平台相比上一代Hopper，算力成本约为2倍，每美元FLOPS优势仅约2倍，但实际每瓦Token产出量是Hopper的50倍以上，每百万Token成本降低至1/35左右（数据来自SemiAnalysis InferenceX v2基准测试）。

值得关注

英伟达强调，同行业比较AI基础设施时应从输入指标转向实际产出指标。Blackwell通过计算、网络、内存、存储、软件及合作伙伴技术的协同设计实现了最低Token成本。同时，基于NVIDIA平台的开源推理软件（如vLLM、SGLang、TensorRT-LLM、Dynamo）持续优化，意味着已部署的NVIDIA基础设施仍能进一步提升Token产出、降低每Token成本。CoreWeave、Nebius、Nscale、Together AI等云合作伙伴已部署NVIDIA Blackwell基础设施并优化技术栈，提供当前最低的Token成本。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？