英伟达开源NeMo AutoModel:一行import,MoE微调提速3.7倍

2026/06/26 11:23阅读量 4

英伟达开源NeMo AutoModel,基于HuggingFace Transformers v5,仅需增加一行import代码即可将MoE大模型微调吞吐量提升3.4-3.7倍,显存占用降低29%-32%。该工具集成专家并行、DeepEP和TransformerEngine三大核心技术,兼容Transformers v5 API,无需修改大量代码即可实现无痛升级。

事件概述

英伟达正式开源 NeMo AutoModel,专为大规模构建和微调生成式AI模型设计。该工具以 Hugging Face Transformers v5 为基础,在完全兼容其API的前提下,仅需增加一行 import 语句,即可显著提升MoE模型的微调效率。

核心信息

  • 性能提升:在单节点8×H100 80GB GPU上,以 Qwen3-30B-A3B 为例,每GPU每秒吞吐量(TPS/GPU)从3075提升至11340,提升约 3.69 倍;峰值显存从68.2GiB降至48.1GiB(降幅29%)。对于 Nemotron 3 Nano 30B-A3B,吞吐提升3.4倍,显存下降32%。
  • 核心技术
    • 专家并行(Expert Parallelism):将专家权重分布到多块GPU,单卡仅保留1/8参数,大幅降低内存压力。
    • DeepEP:将token分发与专家计算融合为优化GPU内核,实现计算与通信重叠,减少通信开销。
    • TransformerEngine:提供融合注意力、线性层、RMSNorm等加速内核,不仅加速MoE层,也加速普通Transformer层。
  • 大规模验证:在16个H100节点(128 GPU)上对 Nemotron 3 Ultra 550B A55B 进行全参数微调,TPS/GPU为815,峰值内存58.2GiB。注意:原版 Transformers v5 在此规模下会直接撑爆内存。

使用方式

代码、配置和基准测试脚本已开源于 GitHub:

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。