NVIDIA XR AI 公测版发布:为AR眼镜构建多模态AI代理框架
2026/06/17 06:30阅读量 4
NVIDIA 发布 XR AI 公测版,为AR眼镜和XR设备提供开发框架,支持多模态AI代理感知、推理和行动。该平台整合视频、音频、传感器数据输入,连接企业知识检索和加速计算,已在制造业、科研、医疗、设计等领域落地应用。
事件概述
NVIDIA 宣布 XR AI 开发者库进入公开测试阶段,该框架旨在帮助开发者构建能够感知物理世界、使用工具、访问企业知识并与人类协作的多模态 AI 代理,专门针对 AR 眼镜和 XR 设备优化。
核心能力
NVIDIA XR AI 提供四大核心能力:
- 多模态感知:从 AR/XR 设备采集视频、音频、深度、姿态和传感器数据。
- 工具与服务集成:连接 NVIDIA Metropolis(视觉 AI 和视频理解)、NVIDIA NeMo Retriever(企业知识检索与 RAG)。
- AI 模型生态:支持 NVIDIA Nemotron 推理模型、NVIDIA Cosmos Reason 及其他基础模型。
- 代理编排与加速运行时:通过 NVIDIA NeMo Agent Toolkit 实现工具调用、推理工作流和多代理协调,并依托 DGX Spark、DGX Station、RTX PRO 等平台在云端、数据中心和边缘端运行推理。
重点应用案例
- Siemens(研究阶段):工厂工程师佩戴轻量 AR 眼镜,通过 AI 代理查询可编程逻辑控制器问题,获得实时指导,连接工业系统、数字孪生和自动化工作流。
- Rana (AutoBio):将 LabOS 系统构建在 NVIDIA XR AI 上,为干细胞治疗和基因编辑实验提供实时、免手持的流程指导,已应用于斯坦福大学医学院和普林斯顿大学的实验室。
- VITURE:将 XR AI 集成到可穿戴界面,支持工人免手持获取上下文信息并指导下一步操作。
- 匹兹堡大学医学中心 Surreality 实验室:借助 XR AI 和 DGX Station 支持手术团队,系统能理解外科医生视野中不应被遮挡的区域,在不增加视觉干扰的前提下提供信息。
- Innoactive(汽车设计):通过 DGX Spark 捕捉沉浸式工作流中的相关信息,支持设计决策,将空间工作从一次性会话转化为可重复的企业流程。
- Atlantic Studios:利用 XR AI 让观众通过语音提示探索泰坦尼克号沉船沉浸式扫描模型,实现交互式空间叙事。
值得关注
NVIDIA XR AI 标志着 AI 代理从对话式交互向物理世界感知与操作的跨越。该框架通过统一的库和加速计算基础,降低了在实验室、工厂、医院和沉浸式环境中开发具身 AI 代理的门槛,为数字化工人的新形态提供支撑。
