英伟达发布最强开源Agent模型Nemotron 3 Super，宣布五年投入260亿美元

2026/03/12 12:58阅读量 25

英伟达正式开源120B参数MoE模型Nemotron 3 Super，该模型在PinchBench测试中以85.6%的得分位居开源榜首，并原生支持100万token上下文。为构建开源AI生态，英伟达计划未来五年投入260亿美元，旨在通过软件实战反哺硬件架构演进。新模型采用混合Mamba-Transformer架构及Latent MoE技术，在Blackwell架构上实现了比H100快四倍的推理速度。

事件概述

英伟达（NVIDIA）正式发布并开源了专注于智能体（Agent）推理的120B参数混合专家（MoE）模型——Nemotron 3 Super。该模型在多项基准测试中表现优异，标志着英伟达在开源大模型领域的全面发力。与此同时，最新财务文件披露，英伟达计划在未来五年内投入260亿美元（约1789亿人民币），用于构建开源AI模型体系。

核心性能与数据

基准测试成绩：
- OpenClaw (PinchBench)：得分85.6%，位列同类开源模型第一；超越GPT-OSS（33分）。
- SWE-Bench：搭配OpenHands框架准确率达60.47%，显著高于对标模型GPT-OSS的41.9%。
- Terminal Bench：困难子集得分25.78%，略超GPT-OSS的24.00%。
- MMLU-Pro：得分83.73，优于GPT-OSS的81.00。
- TauBench V2：在航空、零售和电信三大领域平均成绩为61.15%。
效率与吞吐：
- 吞吐量提升至上一代Nemotron Super的5倍以上。
- 代码与工具调用等结构化任务推理提速最高达3倍。
- 在8k输入/64k输出设置下，推理吞吐量是GPT-OSS-120B的2.2倍。
硬件加速：
- 基于Blackwell架构优化，在B200芯片上的推理速度比H100快4倍。
- 采用原生NVFP4格式进行预训练，降低内存需求的同时维持高准确率。

技术架构创新

混合架构设计：采用混合Mamba-Transformer架构，利用具备线性时间复杂度的Mamba-2层处理长序列，并在关键深度插入Transformer全局注意力层，兼顾百万级上下文下的效率与精度。
Latent MoE技术：引入潜空间路由机制，在决策前将Token投影至低秩潜空间降维。这使得模型能在同等成本下调用4倍数量的专家网络，实现更精细的专业分工。
多Token预测：原生应用多Token预测技术，通过共享权重在一次前向传递中并行预测多个Token，内置投机解码能力，显著缩短复杂任务生成耗时。

Agent能力训练策略

两阶段SFT：第一阶段通过标记级平均损失建立基础，第二阶段切换为样本级平均损失，解决长输入场景下的性能降级问题。
合成任务蒸馏：构建包含2万个初始查询的种子集，经模型裁判过滤后沉淀出1.5万个核心合成任务，并将高性能模型的终端交互知识蒸馏为原生技能。
强化学习（RL）：在NeMo Gym平台的21种真实环境配置中进行高强度训练，考核维度涵盖工具调用准确性、代码可执行性及计划完整性。
PivotRL技术：针对软件工程等高风险任务，重点强化专家轨迹中不确定性高的决策点，提升多步工作流的行为稳定性，遏制推理漂移。

战略意义

英伟达此次开源不仅提供全参数权重、训练评估配方及部署手册，更意在通过“软件定义硬件”的路径：利用开源模型在自家超级计算机数据中心进行极限压力测试，收集实战数据以反哺未来的计算、存储和网络架构路线图，从而巩固开发者对英伟达技术底座的依赖。

阅读原文详情

事件概述

核心性能与数据

技术架构创新

Agent能力训练策略

战略意义

准备好启动您的定制项目了吗？