开源模型驱动边缘智能：NVIDIA Jetson 赋能物理世界 AI 落地

2026/03/11 00:43阅读量 34

随着开源生成式 AI 模型从数据中心向物理设备迁移，NVIDIA Jetson 系列平台已成为在边缘端运行 Nemotron、Cosmos、GR00T 及 Qwen、Gemma 等主流开源模型的核心载体。该方案通过片上系统（SoM）架构解决了低延迟、低功耗及内存供应问题，支持从 Cat 306 CR 挖掘机到双臂协作机器人等多种场景的实时推理与自主决策。Jetson Thor 和 Orin 系列已实现对多模态大模型的高效部署，显著降低了 API 成本并保障了数据隐私，推动了工业自动化与具身智能的规模化应用。

事件概述

开源生成式 AI 模型正加速从云端数据中心向物理世界的机器设备迁移。NVIDIA Jetson 家族（涵盖 Orin 至 Thor 系列）已成为运行 NVIDIA Nemotron、Cosmos、Isaac GR00T 以及社区开源模型（如 Qwen、Gemma、Mistral AI、GPT-OSS、PI 等）的关键边缘计算平台。这一趋势标志着 AI 应用从依赖弹性云算力转向优化本地实时推理。

核心事实与技术优势

1. 边缘部署的必要性与挑战

性能需求：物理系统对低延迟（毫秒级）、有限功耗及行为一致性有严格要求，云端部署存在延迟高、算力成本随查询量增加及网络依赖等问题。
供应链优化：Jetson 采用片上系统（SoM）设计，将计算与存储集成，缓解了行业内存短缺带来的成本压力，简化了硬件设计与验证流程。
适用性转变：开发者关注点已从“哪个模型性能最好”转向“在哪里运行最合适”，答案逐渐指向设备端，入门级模型甚至可在 Jetson Orin Nano 8GB 上运行。

2. 典型应用场景与案例

工业重型机械：Caterpillar（卡特彼勒）的 Cat 306 CR 迷你挖掘机演示中，搭载 Jetson Thor 平台的 Cat AI Assistant 实现了本地化语音交互。系统利用 NVIDIA Nemotron 语音模型进行快速对话，并通过 vLLM 服务本地化的 Qwen3 4B 模型解析指令并生成响应，无需连接云端。
机器人研发与竞赛：
- Franka Robotics：其 FR3 Duo 双臂系统在 Jetson 平台上端到端运行 NVIDIA GR00T N1.6 模型，实现从感知到运动的本地策略执行，无需任务脚本。
- SONIC 项目：NVIDIA GEAR Lab 训练的人形控制器在 Jetson Orin 上以约 12 毫秒/次的速度运行运动规划器，策略循环频率达 50 Hz。
- UIUC SIGRobotics：团队基于 Jetson Thor 和 GR00T N1.5 模型开发的抹茶制作双臂机器人，在 NVIDIA 具身智能黑客松中获第一名。
- NYU 机器人中心：YOR 机器人利用 Jetson Thor 上的 NVIDIA Blackwell 算力处理复杂动作，在新物体抓取和场景变化鲁棒性方面表现优异。
个人助理与开发工具：
- OpenClaw：支持在 Jetson 上构建私有、全天候运行的 AI 助手，零 API 成本且保障数据隐私，可处理晨间简报、代码审查及智能家居控制。
- 独立研究：Hugging Face 研究人员在 Jetson AGX Orin 上构建了代理 AI 系统；Collabnix 社区展示了在 Jetson Thor 上运行 OpenClaw 管理邮件和日历的案例。

3. 关键模型与性能基准

Jetson 平台支持多种主流开源模型框架（TRT, Llama.cpp, Ollama, vLLM, SGLang 等），具体表现如下：

Gemma 3：基于 Google Gemini 研究，原生支持多模态（视觉与语音），覆盖 140+ 语言。在 Jetson Thor 上支持 128K 上下文窗口，适用于长指令记忆。
gpt-oss-20B：OpenAI 模型，在 Jetson Thor 和 Orin 上提供接近最先进的推理能力，适合低成本本地部署。
Mistral 3：包含 3B 至 14B 参数的小而精模型。在 Jetson Thor 上使用 vLLM 容器，单并发可达 52 tokens/s，八并发可扩展至 273 tokens/s。
NVIDIA Cosmos：开源推理视觉语言模型（8B 和 2B 版本），赋予机器人类人的空间 - 时间感知与推理能力。
NVIDIA Isaac GR00T N1.6：通用机器人技能 VLA 模型，在 Jetson Thor 上实现全管道本地执行，提供实时感知与响应行动。
NVIDIA Nemotron：专注于高效、精准的代理 AI 系统，涵盖推理、编码、视觉理解等。Nemotron 3 Nano 9B 在 Jetson Orin Nano Super 上配合 llama.cpp 可实现 9 tokens/s 的性能。
PI 0.5：Physical Intelligence 推出的 VLA 模型，在 Jetson Thor 上可输出 120 action tokens/s，支持低延迟的物理 AI 部署。
Qwen 3.5：阿里巴巴开源模型系列，Jetson Thor 针对 Qwen 3.5-35B-A3B 等模型进行了优化，推理速度达 35 tokens/s，支持实时交互。

值得关注

生态标准化：Jetson 已成为边缘运行开源模型的通用标准，Jetson AI Lab 提供了详细的模型基准测试与教程。
未来展望：随着模型效率提升与硬件迭代，更多物理 AI 系统将直接在设备端完成复杂任务，减少对云端的依赖，推动具身智能在家庭、工业等领域的规模化落地。

阅读原文详情