Hermes:开源自进化AI Agent,适配NVIDIA RTX与DGX Spark硬件加速

2026/05/13 21:00阅读量 2

Nous Research 开发的 Hermes Agent 在三个月内 GitHub 星数突破 14 万,成为 OpenRouter 上最常用 agent。其核心特色包括自进化技能、封闭子代理和可靠性设计。该 agent 专为本地运行优化,可配合 NVIDIA RTX GPU 和 DGX Spark 实现持续加速。同时,阿里 Qwen 3.6 系列模型(27B/35B)以更小参数量达到前代 120B/400B 模型的推理精度,进一步提升了本地 agent 的性能。

事件概述

开源 agent 框架 Hermes Agent 由 Nous Research 开发,专为本地持续运行设计,强调可靠性与自进化能力。三个月内 GitHub 星数超 14 万,并于近期成为 OpenRouter 平台使用量最大的 agent。它无感于提供商和模型,默认适配 NVIDIA RTX PC、RTX PRO 工作站及 DGX Spark 等本地硬件。

核心能力

Hermes 具备四项突出特性:

  • 自进化技能:每次完成复杂任务或收到反馈后,agent 会将经验保存为技能,持续自我改进。
  • 封闭子代理:子代理作为短期、隔离的工作单元,专注于单一子任务,拥有独立上下文和工具集,减少干扰并允许使用更小的上下文窗口,更适合本地模型。
  • 可靠性设计:Nous Research 对每项技能、工具和插件进行精心编排和压力测试,确保即使在 30B 参数级别的本地模型上也能稳定运行,无需频繁调试。
  • 相同模型更优结果:开发者横向对比发现,同一模型在 Hermes 框架下表现更佳,因为 Hermes 是主动编排层而非薄封装,能够实现持久化设备端 agent。

模型与硬件结合

Qwen 3.6 系列(阿里发布)是 Hermes 理想的底层 LLM。其中 35B 模型仅需约 20GB 内存,性能超越前代 120B 模型(需 70GB+ 内存);27B 密集模型以 1/16 的参数量达到 Qwen 3.5 397B 的精度。这些模型在高端 RTX GPU 上运行可获得高吞吐与低延迟,NVIDIA Tensor Core 进一步加速推理。

DGX Spark 作为紧凑型专用机器,拥有 128GB 统一内存和 1 petaflop AI 算力,可全天候运行 120B 混合专家模型,而 Qwen 3.6 35B 模型使其能同时执行更多并发工作负载。

值得关注

  • Hermes 已原生支持 LM Studio 和 Ollama,通过它们即可在本地搭配 Qwen 3.6 运行。
  • NVIDIA 同步推出 NemoClaw 开源栈,优化 OpenClaw 在 NVIDIA 设备上的安全性及本地模型支持,并已支持 WSL2(Windows Subsystem for Linux)。
  • 同月,Mistral Medium 3.5 也发布了与 llama.cpp 和 Ollama 的兼容更新,可在 RTX PRO 和 DGX Spark 上运行。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。