NVIDIA 推理软件栈在 Blackwell 平台将 Token 成本降低 5 倍

2026/06/30 23:00阅读量 3

NVIDIA 发布其推理软件栈在 Blackwell 平台上的最新进展：通过全栈优化，DeepSeek V4 模型的 token 成本在短短一个月内降低至原来的五分之一。Baseten、Cognition、Deep Infra 等头部推理提供商已从该软件栈获得显著收益，包括吞吐量提升、规模化强化学习调度以及即日部署前沿开源模型。

事件概述

NVIDIA 于 6 月 30 日发布技术文章，详解其推理软件栈如何通过系统级优化，在 Blackwell 平台上实现 token 成本的大幅下降。文章指出，随着企业从 AI 试验转向生产级 AI 工厂，基础设施决策的关键指标已从芯片峰值规格转向“每 token 成本”（Cost per Token）。NVIDIA 的全栈推理软件（包括 TensorRT-LLM、Dynamo 推理框架等）与 CUDA 原生开源生态协同，持续提升硬件效率。

核心数据与案例

性能提升：在 Blackwell 平台上，通过序列式推理分离（Disaggregated Serving）、大规模专家并行（Large Expert Parallelism）、NVFP4 精度及多 token 预测（MTP）等技术的叠加，GPU 吞吐量最高可提升 20 倍。
成本降低：DeepSeek V4 模型在 vLLM 和 SGLang 框架上，仅一个月时间 token 成本即降至约五分之一（5 倍降幅）。
Baseten 使用 TensorRT-LLM 在 Blackwell GPU 上部署 DeepSeek V4 Pro，结合自有运行时优化，每秒生成 token 数额外增加 50%。
Cognition 采用 NVIDIA Dynamo 推理框架管理推理 GPU，无需自建基础设施即可规模化提升强化学习工作负载。
Deep Infra 借助 NVIDIA 推理软件栈，从首日起即在 Blackwell 上高性能服务前沿开源模型（包括 DeepSeek V4）。
Together AI 在 Blackwell 上通过 TensorRT-LLM 帮助 Cursor 加速模型优化到生产端点的路径，实现实时编码体验。

软件为何关键

传统负载（网页、搜索、SaaS）请求路径相对固定，但 Agentic AI 工作流涉及分布式、有状态的多回合交互，可跨 GPU、CPU、DPU 调度数千子任务。软件栈决定这些复杂性是否转化为浪费或更低成本。NVIDIA 软件栈通过三层（生产运维、应用加速、基础设施访问）协同工作，将单点优化转化为系统级收益。

开源生态的放大效应

许多主流开源框架（如 PyTorch、vLLM、SGLang）原生基于 CUDA，因此最新研究和优化（如 DFlash 推测解码、FastVideo）可立即在 NVIDIA GPU 上以最佳性能运行。当 DeepSeek V4 发布时，vLLM 和 SGLang 当天即提供 Blackwell 的部署方案，社区优化进一步加速性能迭代，形成开源飞轮。

阅读原文详情

事件概述

核心数据与案例

软件为何关键

开源生态的放大效应

准备好启动您的定制项目了吗？