英伟达发布最强开源Agent模型Nemotron 3 Super,宣布五年投入260亿美元
英伟达正式开源120B参数MoE模型Nemotron 3 Super,该模型在PinchBench测试中以85.6%的得分位居开源榜首,并原生支持100万token上下文。为构建开源AI生态,英伟达计划未来五年投入260亿美元,旨在通过软件实战反哺硬件架构演进。新模型采用混合Mamba-Transformer架构及Latent MoE技术,在Blackwell架构上实现了比H100快四倍的推理速度。
事件概述
英伟达(NVIDIA)正式发布并开源了专注于智能体(Agent)推理的120B参数混合专家(MoE)模型——Nemotron 3 Super。该模型在多项基准测试中表现优异,标志着英伟达在开源大模型领域的全面发力。与此同时,最新财务文件披露,英伟达计划在未来五年内投入260亿美元(约1789亿人民币),用于构建开源AI模型体系。
核心性能与数据
- 基准测试成绩:
- OpenClaw (PinchBench):得分85.6%,位列同类开源模型第一;超越GPT-OSS(33分)。
- SWE-Bench:搭配OpenHands框架准确率达60.47%,显著高于对标模型GPT-OSS的41.9%。
- Terminal Bench:困难子集得分25.78%,略超GPT-OSS的24.00%。
- MMLU-Pro:得分83.73,优于GPT-OSS的81.00。
- TauBench V2:在航空、零售和电信三大领域平均成绩为61.15%。
- 效率与吞吐:
- 吞吐量提升至上一代Nemotron Super的5倍以上。
- 代码与工具调用等结构化任务推理提速最高达3倍。
- 在8k输入/64k输出设置下,推理吞吐量是GPT-OSS-120B的2.2倍。
- 硬件加速:
- 基于Blackwell架构优化,在B200芯片上的推理速度比H100快4倍。
- 采用原生NVFP4格式进行预训练,降低内存需求的同时维持高准确率。
技术架构创新
- 混合架构设计:采用混合Mamba-Transformer架构,利用具备线性时间复杂度的Mamba-2层处理长序列,并在关键深度插入Transformer全局注意力层,兼顾百万级上下文下的效率与精度。
- Latent MoE技术:引入潜空间路由机制,在决策前将Token投影至低秩潜空间降维。这使得模型能在同等成本下调用4倍数量的专家网络,实现更精细的专业分工。
- 多Token预测:原生应用多Token预测技术,通过共享权重在一次前向传递中并行预测多个Token,内置投机解码能力,显著缩短复杂任务生成耗时。
Agent能力训练策略
- 两阶段SFT:第一阶段通过标记级平均损失建立基础,第二阶段切换为样本级平均损失,解决长输入场景下的性能降级问题。
- 合成任务蒸馏:构建包含2万个初始查询的种子集,经模型裁判过滤后沉淀出1.5万个核心合成任务,并将高性能模型的终端交互知识蒸馏为原生技能。
- 强化学习(RL):在NeMo Gym平台的21种真实环境配置中进行高强度训练,考核维度涵盖工具调用准确性、代码可执行性及计划完整性。
- PivotRL技术:针对软件工程等高风险任务,重点强化专家轨迹中不确定性高的决策点,提升多步工作流的行为稳定性,遏制推理漂移。
战略意义
英伟达此次开源不仅提供全参数权重、训练评估配方及部署手册,更意在通过“软件定义硬件”的路径:利用开源模型在自家超级计算机数据中心进行极限压力测试,收集实战数据以反哺未来的计算、存储和网络架构路线图,从而巩固开发者对英伟达技术底座的依赖。
