NVIDIA Nemotron 3 Super 发布:专为代理 AI 打造,吞吐量提升 5 倍

NVIDIA 推出开源的 1200 亿参数混合专家模型 Nemotron 3 Super,旨在解决多智能体工作流中的上下文爆炸与推理成本问题。该模型在 NVIDIA Blackwell 平台上运行,通过混合架构实现高达 5 倍的吞吐量提升和 2 倍的准确率改进,并支持 100 万 token 的上下文窗口。目前,Perplexity、Amdocs 等数十家企业已宣布集成该模型,开发者可通过 Hugging Face 及多家云服务商获取。

事件概述

NVIDIA 于 2026 年 3 月 11 日正式发布 Nemotron 3 Super,这是一款针对 Agentic AI(代理人工智能) 优化的开源混合专家(MoE)模型。该模型拥有 1200 亿总参数,其中推理时仅激活 120 亿参数,旨在解决多智能体系统中因长上下文导致的“上下文爆炸”和高昂推理成本(即“思考税”)两大瓶颈。

核心性能与技术架构

  • 吞吐量与效率:相比前代 Nemotron Super 模型,Nemotron 3 Super 实现了高达 5 倍的吞吐量提升2 倍的准确率。在 NVIDIA Blackwell 平台上采用 NVFP4 精度运行时,其推理速度比 Hopper 平台的 FP8 快 4 倍,且无精度损失。
  • 混合架构创新
    • Mamba + Transformer:结合 Mamba 层的高内存/计算效率与 Transformer 层的先进推理能力,Mamba 层带来 4 倍效率提升。
    • Latent MoE:一种新技术,以单个 Token 的成本激活四位专家,显著提升准确率。
    • 多 Token 预测:同时预测多个未来词,使推理速度提升 3 倍。
  • 上下文能力:提供 100 万 token 的上下文窗口,允许智能体在内存中保留完整的工作流状态,有效防止目标漂移(goal drift)。
  • 基准表现:在 Artificial Analysis 上以效率和开放性领先;驱动 NVIDIA AI-Q 研究智能体在 DeepResearch Bench 和 DeepResearch Bench II 榜单上排名第一。

数据开放与训练细节

  • 开源许可:模型权重以宽松许可证开源,支持在工作站、数据中心或云端部署。
  • 训练数据与方法:基于前沿推理模型生成的合成数据进行训练。NVIDIA 公开了完整方法论,包括超过 10 万亿 token 的预训练和微调数据集、15 个强化学习环境以及评估配方。
  • 定制能力:研究人员可利用 NVIDIA NeMo 平台对模型进行微调或构建自定义模型。

应用场景与合作伙伴生态

  • 典型应用
    • 软件开发:一次性加载整个代码库进行端到端生成和调试,无需文档分段。
    • 金融分析:直接加载数千页报告,消除长对话中的重复推理需求。
    • 安全领域:凭借高精度工具调用能力,确保在复杂函数库导航中的执行可靠性。
  • 行业合作
    • AI 原生公司:Perplexity 已将其用于搜索及计算机辅助功能;CodeRabbit、Factory、Greptile 等开发代理厂商正在集成该模型。
    • 生命科学:Edison Scientific、Lila Sciences 利用其进行深度文献检索和分子理解。
    • 企业软件:Amdocs、Palantir、Cadence、Dassault Systèmes、Siemens 等正部署该模型以自动化电信、网络安全、芯片设计及制造流程。
  • 部署渠道
    • 直接访问:build.nvidia.com, Perplexity, OpenRouter, Hugging Face。
    • 硬件优化:Dell Enterprise Hub (适配 Dell AI Factory), HPE Agents Hub。
    • 云服务与平台:Google Cloud Vertex AI, Oracle Cloud Infrastructure, Amazon Bedrock (即将上线), Microsoft Azure;Coreweave, Crusoe, Nebius, Together AI 等云合作伙伴;Baseten, CloudFlare, Fireworks AI 等推理服务提供商;以及 Distyl, Dataiku, Deloitte 等数据平台。
  • 交付形式:模型封装为 NVIDIA NIM 微服务,支持从本地系统到云端的灵活部署。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。