NVIDIA Blackwell 在 MLPerf Training 6.0 中全面领先：训练速度、规模与可靠性三冠

2026/06/16 23:00阅读量 2

NVIDIA Blackwell 平台在 MLPerf Training 6.0 中夺得所有七项基准测试的最快训练时间，是唯一提交全部基准的平台。最大规模提交达 8192 GPU（GB200 NVL72），新增 DeepSeek-V3 671B 和 GPT-OSS-20B MoE 工作负载。GB300 NVL72 相比 GB200 提升最高 1.6 倍。CoreWeave 与 Microsoft Azure 等合作伙伴也取得关键成绩。

事件概述

NVIDIA Blackwell 平台在最新 MLPerf Training 6.0 行业基准测试中全面领先，在所有七个基准测试中取得最快训练时间，并实现了最大规模的分布式训练（8192 GPU）。这是唯一提交全部七个基准的平台。

核心信息

新增工作负载：MLPerf Training 6.0 新增两个混合专家（MoE）预训练任务—— DeepSeek-V3 671B 和 GPT-OSS-20B，反映 MoE 架构的重要性。
性能提升：GB300 NVL72 相比 GB200 NVL72，在相同规模下训练速度提升最高达 1.6 倍，主要得益于 Blackwell Ultra 的更高计算密度（NVFP4）、更大内存容量及更高功耗上限。
规模与合作伙伴成果：
- CoreWeave 使用 GB300 NVL72 系统（8,192 GPU，Spectrum-X Ethernet）在 2.02 分钟内完成 DeepSeek-V3 671B 训练，为该项最快。
- Microsoft Azure 使用 GB200 NVL72 系统（8,192 GPU）在 7.07 分钟内完成 Llama 3.1 405B 训练，达到参考质量目标。
可靠性设计：NVIDIA 平台通过自愈能力、30 多项制造测试、NVRx 扩展（自动检测慢节点、从检查点恢复）等方式减少训练中断并加快恢复。

值得关注

NVIDIA 的 NVFP4 低精度训练方法也在本次展示中用于预训练 5500 亿参数的 Nemotron 3 Ultra 模型，表明其在低精度训练上的持续创新。生态合作伙伴如 Cohere（北向 agentic AI 平台训练快 3 倍）、Midjourney（在 Blackwell 集群训练 v8 图像模型并扩展至 Blackwell Ultra）、Thinking Machines Lab（在 Google Cloud 上获得 2 倍加速）等均利用 Blackwell 平台取得显著成效。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？