NVIDIA Blackwell 在 MLPerf Training 6.0 中全面领先:训练速度、规模与可靠性三冠
2026/06/16 23:00阅读量 2
NVIDIA Blackwell 平台在 MLPerf Training 6.0 中夺得所有七项基准测试的最快训练时间,是唯一提交全部基准的平台。最大规模提交达 8192 GPU(GB200 NVL72),新增 DeepSeek-V3 671B 和 GPT-OSS-20B MoE 工作负载。GB300 NVL72 相比 GB200 提升最高 1.6 倍。CoreWeave 与 Microsoft Azure 等合作伙伴也取得关键成绩。
事件概述
NVIDIA Blackwell 平台在最新 MLPerf Training 6.0 行业基准测试中全面领先,在所有七个基准测试中取得最快训练时间,并实现了最大规模的分布式训练(8192 GPU)。这是唯一提交全部七个基准的平台。
核心信息
- 新增工作负载:MLPerf Training 6.0 新增两个混合专家(MoE)预训练任务—— DeepSeek-V3 671B 和 GPT-OSS-20B,反映 MoE 架构的重要性。
- 性能提升:GB300 NVL72 相比 GB200 NVL72,在相同规模下训练速度提升最高达 1.6 倍,主要得益于 Blackwell Ultra 的更高计算密度(NVFP4)、更大内存容量及更高功耗上限。
- 规模与合作伙伴成果:
- CoreWeave 使用 GB300 NVL72 系统(8,192 GPU,Spectrum-X Ethernet)在 2.02 分钟内完成 DeepSeek-V3 671B 训练,为该项最快。
- Microsoft Azure 使用 GB200 NVL72 系统(8,192 GPU)在 7.07 分钟内完成 Llama 3.1 405B 训练,达到参考质量目标。
- 可靠性设计:NVIDIA 平台通过自愈能力、30 多项制造测试、NVRx 扩展(自动检测慢节点、从检查点恢复)等方式减少训练中断并加快恢复。
值得关注
NVIDIA 的 NVFP4 低精度训练方法也在本次展示中用于预训练 5500 亿参数的 Nemotron 3 Ultra 模型,表明其在低精度训练上的持续创新。生态合作伙伴如 Cohere(北向 agentic AI 平台训练快 3 倍)、Midjourney(在 Blackwell 集群训练 v8 图像模型并扩展至 Blackwell Ultra)、Thinking Machines Lab(在 Google Cloud 上获得 2 倍加速)等均利用 Blackwell 平台取得显著成效。
