英伟达重新思考AI TCO:每Token成本才是唯一重要指标

2026/05/07 12:36阅读量 3

英伟达提出,在AI推理成为核心工作负载的背景下,评估AI基础设施时应从每Token成本出发,而非传统的每美元FLOPS或算力成本。该公司以Blackwell平台为例,宣称其每瓦Token产出量是上一代Hopper的50倍以上,每百万Token成本降低至1/35,并强调全栈优化是实现最低每Token成本的关键。

事件概述

英伟达发文称,随着生成式AI与代理式AI的普及,数据中心已从数据处理中心演变为“AI Token工厂”。AI推理成为核心工作负载,其产出是以Token形式制造的智能。因此,衡量AI基础设施的经济效益指标必须从传统的算力成本(每GPU小时成本)或每美元FLOPS转向“每Token成本”(通常以每百万Token成本表示)。

核心信息

  • 传统指标的问题:算力成本和每美元FLOPS仅衡量投入,不能反映实际产出。当业务围绕Token产出运行时,只优化投入会导致根本性错配。
  • 每Token成本的计算公式:每百万Token成本 = (每GPU小时成本) / (每秒生成的Token数 × 3600)。关键在分母——最大化实际交付的Token产出,而非只关注分子成本。
  • 影响Token产出的深度因素:包括对MoE模型的推理效率、每兆瓦Token产出、纵向扩展互连对all-to-all通信的支持、FP4精度支持、投机解码、KV缓存卸载、代理式AI的低延迟高吞吐需求,以及从训练到推理的完整生命周期支持。
  • 性能数据对比:以DeepSeek-R1模型为例,英伟达Blackwell平台相比上一代Hopper,算力成本约为2倍,每美元FLOPS优势仅约2倍,但实际每瓦Token产出量是Hopper的50倍以上,每百万Token成本降低至1/35左右(数据来自SemiAnalysis InferenceX v2基准测试)。

值得关注

英伟达强调,同行业比较AI基础设施时应从输入指标转向实际产出指标。Blackwell通过计算、网络、内存、存储、软件及合作伙伴技术的协同设计实现了最低Token成本。同时,基于NVIDIA平台的开源推理软件(如vLLM、SGLang、TensorRT-LLM、Dynamo)持续优化,意味着已部署的NVIDIA基础设施仍能进一步提升Token产出、降低每Token成本。CoreWeave、Nebius、Nscale、Together AI等云合作伙伴已部署NVIDIA Blackwell基础设施并优化技术栈,提供当前最低的Token成本。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。