英伟达开源NeMo AutoModel：一行import，MoE微调提速3.7倍

2026/06/26 11:23阅读量 4

英伟达开源NeMo AutoModel，基于HuggingFace Transformers v5，仅需增加一行import代码即可将MoE大模型微调吞吐量提升3.4-3.7倍，显存占用降低29%-32%。该工具集成专家并行、DeepEP和TransformerEngine三大核心技术，兼容Transformers v5 API，无需修改大量代码即可实现无痛升级。

事件概述

英伟达正式开源 NeMo AutoModel，专为大规模构建和微调生成式AI模型设计。该工具以 Hugging Face Transformers v5 为基础，在完全兼容其API的前提下，仅需增加一行 import 语句，即可显著提升MoE模型的微调效率。

核心信息

性能提升：在单节点8×H100 80GB GPU上，以 Qwen3-30B-A3B 为例，每GPU每秒吞吐量（TPS/GPU）从3075提升至11340，提升约 3.69 倍；峰值显存从68.2GiB降至48.1GiB（降幅29%）。对于 Nemotron 3 Nano 30B-A3B，吞吐提升3.4倍，显存下降32%。
核心技术：
- 专家并行（Expert Parallelism）：将专家权重分布到多块GPU，单卡仅保留1/8参数，大幅降低内存压力。
- DeepEP：将token分发与专家计算融合为优化GPU内核，实现计算与通信重叠，减少通信开销。
- TransformerEngine：提供融合注意力、线性层、RMSNorm等加速内核，不仅加速MoE层，也加速普通Transformer层。
大规模验证：在16个H100节点（128 GPU）上对 Nemotron 3 Ultra 550B A55B 进行全参数微调，TPS/GPU为815，峰值内存58.2GiB。注意：原版 Transformers v5 在此规模下会直接撑爆内存。

使用方式

代码、配置和基准测试脚本已开源于 GitHub：

阅读原文详情

事件概述

核心信息

使用方式

准备好启动您的定制项目了吗？