开源模型驱动边缘智能:NVIDIA Jetson 赋能物理世界 AI 落地

随着开源生成式 AI 模型从数据中心向物理设备迁移,NVIDIA Jetson 系列平台已成为在边缘端运行 Nemotron、Cosmos、GR00T 及 Qwen、Gemma 等主流开源模型的核心载体。该方案通过片上系统(SoM)架构解决了低延迟、低功耗及内存供应问题,支持从 Cat 306 CR 挖掘机到双臂协作机器人等多种场景的实时推理与自主决策。Jetson Thor 和 Orin 系列已实现对多模态大模型的高效部署,显著降低了 API 成本并保障了数据隐私,推动了工业自动化与具身智能的规模化应用。

事件概述

开源生成式 AI 模型正加速从云端数据中心向物理世界的机器设备迁移。NVIDIA Jetson 家族(涵盖 Orin 至 Thor 系列)已成为运行 NVIDIA Nemotron、Cosmos、Isaac GR00T 以及社区开源模型(如 Qwen、Gemma、Mistral AI、GPT-OSS、PI 等)的关键边缘计算平台。这一趋势标志着 AI 应用从依赖弹性云算力转向优化本地实时推理。

核心事实与技术优势

1. 边缘部署的必要性与挑战

  • 性能需求:物理系统对低延迟(毫秒级)、有限功耗及行为一致性有严格要求,云端部署存在延迟高、算力成本随查询量增加及网络依赖等问题。
  • 供应链优化:Jetson 采用片上系统(SoM)设计,将计算与存储集成,缓解了行业内存短缺带来的成本压力,简化了硬件设计与验证流程。
  • 适用性转变:开发者关注点已从“哪个模型性能最好”转向“在哪里运行最合适”,答案逐渐指向设备端,入门级模型甚至可在 Jetson Orin Nano 8GB 上运行。

2. 典型应用场景与案例

  • 工业重型机械:Caterpillar(卡特彼勒)的 Cat 306 CR 迷你挖掘机演示中,搭载 Jetson Thor 平台的 Cat AI Assistant 实现了本地化语音交互。系统利用 NVIDIA Nemotron 语音模型进行快速对话,并通过 vLLM 服务本地化的 Qwen3 4B 模型解析指令并生成响应,无需连接云端。
  • 机器人研发与竞赛
    • Franka Robotics:其 FR3 Duo 双臂系统在 Jetson 平台上端到端运行 NVIDIA GR00T N1.6 模型,实现从感知到运动的本地策略执行,无需任务脚本。
    • SONIC 项目:NVIDIA GEAR Lab 训练的人形控制器在 Jetson Orin 上以约 12 毫秒/次的速度运行运动规划器,策略循环频率达 50 Hz。
    • UIUC SIGRobotics:团队基于 Jetson Thor 和 GR00T N1.5 模型开发的抹茶制作双臂机器人,在 NVIDIA 具身智能黑客松中获第一名。
    • NYU 机器人中心:YOR 机器人利用 Jetson Thor 上的 NVIDIA Blackwell 算力处理复杂动作,在新物体抓取和场景变化鲁棒性方面表现优异。
  • 个人助理与开发工具
    • OpenClaw:支持在 Jetson 上构建私有、全天候运行的 AI 助手,零 API 成本且保障数据隐私,可处理晨间简报、代码审查及智能家居控制。
    • 独立研究:Hugging Face 研究人员在 Jetson AGX Orin 上构建了代理 AI 系统;Collabnix 社区展示了在 Jetson Thor 上运行 OpenClaw 管理邮件和日历的案例。

3. 关键模型与性能基准

Jetson 平台支持多种主流开源模型框架(TRT, Llama.cpp, Ollama, vLLM, SGLang 等),具体表现如下:

  • Gemma 3:基于 Google Gemini 研究,原生支持多模态(视觉与语音),覆盖 140+ 语言。在 Jetson Thor 上支持 128K 上下文窗口,适用于长指令记忆。
  • gpt-oss-20B:OpenAI 模型,在 Jetson Thor 和 Orin 上提供接近最先进的推理能力,适合低成本本地部署。
  • Mistral 3:包含 3B 至 14B 参数的小而精模型。在 Jetson Thor 上使用 vLLM 容器,单并发可达 52 tokens/s,八并发可扩展至 273 tokens/s。
  • NVIDIA Cosmos:开源推理视觉语言模型(8B 和 2B 版本),赋予机器人类人的空间 - 时间感知与推理能力。
  • NVIDIA Isaac GR00T N1.6:通用机器人技能 VLA 模型,在 Jetson Thor 上实现全管道本地执行,提供实时感知与响应行动。
  • NVIDIA Nemotron:专注于高效、精准的代理 AI 系统,涵盖推理、编码、视觉理解等。Nemotron 3 Nano 9B 在 Jetson Orin Nano Super 上配合 llama.cpp 可实现 9 tokens/s 的性能。
  • PI 0.5:Physical Intelligence 推出的 VLA 模型,在 Jetson Thor 上可输出 120 action tokens/s,支持低延迟的物理 AI 部署。
  • Qwen 3.5:阿里巴巴开源模型系列,Jetson Thor 针对 Qwen 3.5-35B-A3B 等模型进行了优化,推理速度达 35 tokens/s,支持实时交互。

值得关注

  • 生态标准化:Jetson 已成为边缘运行开源模型的通用标准,Jetson AI Lab 提供了详细的模型基准测试与教程。
  • 未来展望:随着模型效率提升与硬件迭代,更多物理 AI 系统将直接在设备端完成复杂任务,减少对云端的依赖,推动具身智能在家庭、工业等领域的规模化落地。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。