NVIDIA发布Nemotron 3 Nano Omni:统一多模态推理,AI智能体效率提升9倍

2026/04/29 00:00阅读量 38

NVIDIA于2026年4月28日推出开源多模态模型Nemotron 3 Nano Omni,该模型将视觉、音频和语言处理能力整合至单一架构中。其采用30B-A3B混合专家(MoE)设计,在保持高准确性的同时,实现了比同类开源全模态模型高出9倍的吞吐量。该模型旨在解决传统智能体系统因使用独立模型处理不同模态数据而导致的延迟高、上下文碎片化及成本增加问题。

事件概述

NVIDIA正式发布了Nemotron 3 Nano Omni,这是一款面向企业级和开发者的高效开源全模态推理模型。该模型通过统一视觉、音频和语言处理能力,旨在为AI智能体(AI Agents)提供更快速、更准确的响应机制,特别适用于计算机操作、文档智能及音视频推理等复杂工作流。

核心技术与性能

  • 架构设计:采用30B-A3B混合专家(Mixture-of-Experts, MoE)架构,结合Conv3D和EVS技术,支持高达256K的上下文窗口。
  • 输入输出能力
    • 输入:文本、图像、音频、视频、文档、图表及图形界面。
    • 输出:文本。
  • 性能突破:在保持与同类模型相同交互水平的前提下,吞吐量提升高达9倍。该模型在复杂文档智能、视频理解及音频理解的六大榜单中均位列第一。
  • 效率优势:消除了对独立感知模型的需求,显著降低了推理延迟和运营成本,同时避免了跨模态数据传输时的上下文丢失。

应用场景与案例

Nemotron 3 Nano Omni可作为智能体系统中的“眼睛和耳朵”,与其他模型(如Nemotron 3 Super或Ultra)协同工作:

  1. 计算机操作(Computer Use)
    • 赋能智能体实时解析图形用户界面(GUI),理解屏幕状态变化。
    • 案例:H Company利用该模型构建的智能体,原生支持1920×1080分辨率的高保真视觉推理,在OSWorld基准测试中展现出在复杂图形界面导航上的显著飞跃,能够高效处理全高清屏幕录制。
  2. 文档智能(Document Intelligence)
    • 能够连贯地解析PDF、电子表格、图表及混合媒体输入,实现视觉结构与文本内容的联合推理,适用于企业分析与合规流程。
  3. 音视频理解(Audio-Video Understanding)
    • 在客服、研究及监控场景中,将语音、画面及文档记录整合为单一推理流,而非生成割裂的摘要,确保上下文的一致性。

开放性与部署生态

  • 开源策略:模型权重、数据集及训练技术均已开源,提供完全透明的定制与部署控制权。开发者可利用NVIDIA NeMo工具链进行领域适配、评估与优化。
  • 部署灵活性:支持从本地环境(如NVIDIA DGX Spark、DGX Station)到数据中心及云环境的无缝部署,满足监管、主权及数据本地化要求。
  • 获取渠道:自2026年4月28日起,可通过Hugging Face、OpenRouter、build.nvidia.com以及25+家合作伙伴平台获取。该模型已作为NVIDIA NIM微服务提供。

行业采纳情况

目前已有Aible、Applied Scientific Intelligence (ASI)、Eka Care、Foxconn、H Company、Palantir及Pyler等公司开始采用该模型;Dell Technologies、DocuSign、Infosys、K-Dense、Lila、Oracle及Zefr等机构正在评估中。Nemotron系列模型在过去一年内的下载量已超过5000万次。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。