英伟达发布最强开源Agent模型Nemotron 3 Super,宣布五年投入260亿美元

英伟达正式开源120B参数MoE模型Nemotron 3 Super,该模型在PinchBench测试中以85.6%的得分位居开源榜首,并原生支持100万token上下文。为构建开源AI生态,英伟达计划未来五年投入260亿美元,旨在通过软件实战反哺硬件架构演进。新模型采用混合Mamba-Transformer架构及Latent MoE技术,在Blackwell架构上实现了比H100快四倍的推理速度。

事件概述

英伟达(NVIDIA)正式发布并开源了专注于智能体(Agent)推理的120B参数混合专家(MoE)模型——Nemotron 3 Super。该模型在多项基准测试中表现优异,标志着英伟达在开源大模型领域的全面发力。与此同时,最新财务文件披露,英伟达计划在未来五年内投入260亿美元(约1789亿人民币),用于构建开源AI模型体系。

核心性能与数据

  • 基准测试成绩
    • OpenClaw (PinchBench):得分85.6%,位列同类开源模型第一;超越GPT-OSS(33分)。
    • SWE-Bench:搭配OpenHands框架准确率达60.47%,显著高于对标模型GPT-OSS的41.9%。
    • Terminal Bench:困难子集得分25.78%,略超GPT-OSS的24.00%。
    • MMLU-Pro:得分83.73,优于GPT-OSS的81.00。
    • TauBench V2:在航空、零售和电信三大领域平均成绩为61.15%
  • 效率与吞吐
    • 吞吐量提升至上一代Nemotron Super的5倍以上
    • 代码与工具调用等结构化任务推理提速最高达3倍
    • 在8k输入/64k输出设置下,推理吞吐量是GPT-OSS-120B的2.2倍
  • 硬件加速
    • 基于Blackwell架构优化,在B200芯片上的推理速度比H100快4倍
    • 采用原生NVFP4格式进行预训练,降低内存需求的同时维持高准确率。

技术架构创新

  • 混合架构设计:采用混合Mamba-Transformer架构,利用具备线性时间复杂度的Mamba-2层处理长序列,并在关键深度插入Transformer全局注意力层,兼顾百万级上下文下的效率与精度。
  • Latent MoE技术:引入潜空间路由机制,在决策前将Token投影至低秩潜空间降维。这使得模型能在同等成本下调用4倍数量的专家网络,实现更精细的专业分工。
  • 多Token预测:原生应用多Token预测技术,通过共享权重在一次前向传递中并行预测多个Token,内置投机解码能力,显著缩短复杂任务生成耗时。

Agent能力训练策略

  • 两阶段SFT:第一阶段通过标记级平均损失建立基础,第二阶段切换为样本级平均损失,解决长输入场景下的性能降级问题。
  • 合成任务蒸馏:构建包含2万个初始查询的种子集,经模型裁判过滤后沉淀出1.5万个核心合成任务,并将高性能模型的终端交互知识蒸馏为原生技能。
  • 强化学习(RL):在NeMo Gym平台的21种真实环境配置中进行高强度训练,考核维度涵盖工具调用准确性、代码可执行性及计划完整性。
  • PivotRL技术:针对软件工程等高风险任务,重点强化专家轨迹中不确定性高的决策点,提升多步工作流的行为稳定性,遏制推理漂移。

战略意义

英伟达此次开源不仅提供全参数权重、训练评估配方及部署手册,更意在通过“软件定义硬件”的路径:利用开源模型在自家超级计算机数据中心进行极限压力测试,收集实战数据以反哺未来的计算、存储和网络架构路线图,从而巩固开发者对英伟达技术底座的依赖。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。