NVIDIA Nemotron 3 Super 发布：专为代理 AI 打造，吞吐量提升 5 倍

2026/03/12 00:00阅读量 20

NVIDIA 推出开源的 1200 亿参数混合专家模型 Nemotron 3 Super，旨在解决多智能体工作流中的上下文爆炸与推理成本问题。该模型在 NVIDIA Blackwell 平台上运行，通过混合架构实现高达 5 倍的吞吐量提升和 2 倍的准确率改进，并支持 100 万 token 的上下文窗口。目前，Perplexity、Amdocs 等数十家企业已宣布集成该模型，开发者可通过 Hugging Face 及多家云服务商获取。

事件概述

NVIDIA 于 2026 年 3 月 11 日正式发布 Nemotron 3 Super，这是一款针对 Agentic AI（代理人工智能） 优化的开源混合专家（MoE）模型。该模型拥有 1200 亿总参数，其中推理时仅激活 120 亿参数，旨在解决多智能体系统中因长上下文导致的“上下文爆炸”和高昂推理成本（即“思考税”）两大瓶颈。

核心性能与技术架构

吞吐量与效率：相比前代 Nemotron Super 模型，Nemotron 3 Super 实现了高达 5 倍的吞吐量提升 和 2 倍的准确率。在 NVIDIA Blackwell 平台上采用 NVFP4 精度运行时，其推理速度比 Hopper 平台的 FP8 快 4 倍，且无精度损失。
混合架构创新：
- Mamba + Transformer：结合 Mamba 层的高内存/计算效率与 Transformer 层的先进推理能力，Mamba 层带来 4 倍效率提升。
- Latent MoE：一种新技术，以单个 Token 的成本激活四位专家，显著提升准确率。
- 多 Token 预测：同时预测多个未来词，使推理速度提升 3 倍。
上下文能力：提供 100 万 token 的上下文窗口，允许智能体在内存中保留完整的工作流状态，有效防止目标漂移（goal drift）。
基准表现：在 Artificial Analysis 上以效率和开放性领先；驱动 NVIDIA AI-Q 研究智能体在 DeepResearch Bench 和 DeepResearch Bench II 榜单上排名第一。

数据开放与训练细节

开源许可：模型权重以宽松许可证开源，支持在工作站、数据中心或云端部署。
训练数据与方法：基于前沿推理模型生成的合成数据进行训练。NVIDIA 公开了完整方法论，包括超过 10 万亿 token 的预训练和微调数据集、15 个强化学习环境以及评估配方。
定制能力：研究人员可利用 NVIDIA NeMo 平台对模型进行微调或构建自定义模型。

应用场景与合作伙伴生态

典型应用：
- 软件开发：一次性加载整个代码库进行端到端生成和调试，无需文档分段。
- 金融分析：直接加载数千页报告，消除长对话中的重复推理需求。
- 安全领域：凭借高精度工具调用能力，确保在复杂函数库导航中的执行可靠性。
行业合作：
- AI 原生公司：Perplexity 已将其用于搜索及计算机辅助功能；CodeRabbit、Factory、Greptile 等开发代理厂商正在集成该模型。
- 生命科学：Edison Scientific、Lila Sciences 利用其进行深度文献检索和分子理解。
- 企业软件：Amdocs、Palantir、Cadence、Dassault Systèmes、Siemens 等正部署该模型以自动化电信、网络安全、芯片设计及制造流程。
部署渠道：
- 直接访问：build.nvidia.com, Perplexity, OpenRouter, Hugging Face。
- 硬件优化：Dell Enterprise Hub (适配 Dell AI Factory), HPE Agents Hub。
- 云服务与平台：Google Cloud Vertex AI, Oracle Cloud Infrastructure, Amazon Bedrock (即将上线), Microsoft Azure；Coreweave, Crusoe, Nebius, Together AI 等云合作伙伴；Baseten, CloudFlare, Fireworks AI 等推理服务提供商；以及 Distyl, Dataiku, Deloitte 等数据平台。
交付形式：模型封装为 NVIDIA NIM 微服务，支持从本地系统到云端的灵活部署。

阅读原文详情

事件概述

核心性能与技术架构

数据开放与训练细节

应用场景与合作伙伴生态

准备好启动您的定制项目了吗？