Hermes：开源自进化AI Agent，适配NVIDIA RTX与DGX Spark硬件加速

2026/05/13 21:00阅读量 2

Nous Research 开发的 Hermes Agent 在三个月内 GitHub 星数突破 14 万，成为 OpenRouter 上最常用 agent。其核心特色包括自进化技能、封闭子代理和可靠性设计。该 agent 专为本地运行优化，可配合 NVIDIA RTX GPU 和 DGX Spark 实现持续加速。同时，阿里 Qwen 3.6 系列模型（27B/35B）以更小参数量达到前代 120B/400B 模型的推理精度，进一步提升了本地 agent 的性能。

事件概述

开源 agent 框架 Hermes Agent 由 Nous Research 开发，专为本地持续运行设计，强调可靠性与自进化能力。三个月内 GitHub 星数超 14 万，并于近期成为 OpenRouter 平台使用量最大的 agent。它无感于提供商和模型，默认适配 NVIDIA RTX PC、RTX PRO 工作站及 DGX Spark 等本地硬件。

核心能力

Hermes 具备四项突出特性：

自进化技能：每次完成复杂任务或收到反馈后，agent 会将经验保存为技能，持续自我改进。
封闭子代理：子代理作为短期、隔离的工作单元，专注于单一子任务，拥有独立上下文和工具集，减少干扰并允许使用更小的上下文窗口，更适合本地模型。
可靠性设计：Nous Research 对每项技能、工具和插件进行精心编排和压力测试，确保即使在 30B 参数级别的本地模型上也能稳定运行，无需频繁调试。
相同模型更优结果：开发者横向对比发现，同一模型在 Hermes 框架下表现更佳，因为 Hermes 是主动编排层而非薄封装，能够实现持久化设备端 agent。

模型与硬件结合

Qwen 3.6 系列（阿里发布）是 Hermes 理想的底层 LLM。其中 35B 模型仅需约 20GB 内存，性能超越前代 120B 模型（需 70GB+ 内存）；27B 密集模型以 1/16 的参数量达到 Qwen 3.5 397B 的精度。这些模型在高端 RTX GPU 上运行可获得高吞吐与低延迟，NVIDIA Tensor Core 进一步加速推理。

DGX Spark 作为紧凑型专用机器，拥有 128GB 统一内存和 1 petaflop AI 算力，可全天候运行 120B 混合专家模型，而 Qwen 3.6 35B 模型使其能同时执行更多并发工作负载。

值得关注

Hermes 已原生支持 LM Studio 和 Ollama，通过它们即可在本地搭配 Qwen 3.6 运行。
NVIDIA 同步推出 NemoClaw 开源栈，优化 OpenClaw 在 NVIDIA 设备上的安全性及本地模型支持，并已支持 WSL2（Windows Subsystem for Linux）。
同月，Mistral Medium 3.5 也发布了与 llama.cpp 和 Ollama 的兼容更新，可在 RTX PRO 和 DGX Spark 上运行。

阅读原文详情

事件概述

核心能力

模型与硬件结合

值得关注

准备好启动您的定制项目了吗？