NVIDIA 推理软件栈在 Blackwell 平台将 Token 成本降低 5 倍

2026/06/30 23:00阅读量 3

NVIDIA 发布其推理软件栈在 Blackwell 平台上的最新进展:通过全栈优化,DeepSeek V4 模型的 token 成本在短短一个月内降低至原来的五分之一。Baseten、Cognition、Deep Infra 等头部推理提供商已从该软件栈获得显著收益,包括吞吐量提升、规模化强化学习调度以及即日部署前沿开源模型。

事件概述

NVIDIA 于 6 月 30 日发布技术文章,详解其推理软件栈如何通过系统级优化,在 Blackwell 平台上实现 token 成本的大幅下降。文章指出,随着企业从 AI 试验转向生产级 AI 工厂,基础设施决策的关键指标已从芯片峰值规格转向“每 token 成本”(Cost per Token)。NVIDIA 的全栈推理软件(包括 TensorRT-LLM、Dynamo 推理框架等)与 CUDA 原生开源生态协同,持续提升硬件效率。

核心数据与案例

  • 性能提升:在 Blackwell 平台上,通过序列式推理分离(Disaggregated Serving)、大规模专家并行(Large Expert Parallelism)、NVFP4 精度及多 token 预测(MTP)等技术的叠加,GPU 吞吐量最高可提升 20 倍。
  • 成本降低:DeepSeek V4 模型在 vLLM 和 SGLang 框架上,仅一个月时间 token 成本即降至约五分之一(5 倍降幅)。
  • Baseten 使用 TensorRT-LLM 在 Blackwell GPU 上部署 DeepSeek V4 Pro,结合自有运行时优化,每秒生成 token 数额外增加 50%。
  • Cognition 采用 NVIDIA Dynamo 推理框架管理推理 GPU,无需自建基础设施即可规模化提升强化学习工作负载。
  • Deep Infra 借助 NVIDIA 推理软件栈,从首日起即在 Blackwell 上高性能服务前沿开源模型(包括 DeepSeek V4)。
  • Together AI 在 Blackwell 上通过 TensorRT-LLM 帮助 Cursor 加速模型优化到生产端点的路径,实现实时编码体验。

软件为何关键

传统负载(网页、搜索、SaaS)请求路径相对固定,但 Agentic AI 工作流涉及分布式、有状态的多回合交互,可跨 GPU、CPU、DPU 调度数千子任务。软件栈决定这些复杂性是否转化为浪费或更低成本。NVIDIA 软件栈通过三层(生产运维、应用加速、基础设施访问)协同工作,将单点优化转化为系统级收益。

开源生态的放大效应

许多主流开源框架(如 PyTorch、vLLM、SGLang)原生基于 CUDA,因此最新研究和优化(如 DFlash 推测解码、FastVideo)可立即在 NVIDIA GPU 上以最佳性能运行。当 DeepSeek V4 发布时,vLLM 和 SGLang 当天即提供 Blackwell 的部署方案,社区优化进一步加速性能迭代,形成开源飞轮。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。