小米Darwin Agent Team发布HarnessX:让AI智能体框架实现自我进化,终结人工调优时代

2026/07/02 15:10阅读量 2

小米团队提出HarnessX系统,旨在突破当前AI智能体(Agent)中“框架(Harness)”依赖人工搭建和迭代的瓶颈。通过将框架升为与模型平等的“一等公民”,实现模块化、自适应与自我进化,在多个基准测试中平均性能提升14.5%,小模型(如Qwen 3.5-9B)在特定任务上性能暴涨44%。该工作还探索了模型与框架的协同进化。

事件概述

2026年6月12日,小米Darwin Agent Team在论文《HarnessX》中提出一种全新框架:让支撑AI智能体运行的“外壳”——Harness(包含提示词模板、工具调用规则、记忆管理等)能够自我组合、自适应并自动进化,从而摆脱当前Claude Code、Manus等主流智能体系统仍需工程师手动调试和重写架构的困境。

核心信息

Harness升为“一等公民”

  • 可组合:将Harness拆解为9个独立维度(模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接),每个维度由“Typed Processors”负责,通过统一接口插拔,实现底层模型与Harness完全解耦。
  • 自适应与可进化:基于操作镜像理论,将Harness配置视为“状态”,代码编辑视为“动作”,执行轨迹视为“反馈”,并设计四阶段进化流水线AEGIS——Digester(压缩执行轨迹)、Planner(判断修改方向)、Evolver(生成代码级修改)、Critic+Gate(防止作弊和性能退化)。
  • 变体隔离机制:针对异构任务,系统可同时维护多个Harness版本,每个任务自动路由到历史表现最好的版本,避免优化一类任务导致另一类任务退化。在GAIA+GPT-5.4测试中,启用该机制后准确率从73.8%升至87.4%,全程无退化且节省25% token。
  • 模型与Harness双向协同进化:共用同一“错题本”(Replay Buffer),将执行数据同时用于模型训练(使用Cross-harness GRPO算法,即DeepSeek-R1使用的强化学习技术)和Harness进化,无需额外采集数据,额外带来平均+4.7%性能增益。

实验验证

  • 联动Claude 4.6 Sonnet、GPT-5.4、Qwen 3.5-9B,在GAIA、SWE-bench Verified等五大基准上经过15轮迭代,14组实验平均性能提升14.5%。
  • 开源小模型Qwen 3.5-9B在ALFWorld具身规划任务上从53.0%提升至97.0%,暴涨44个百分点,表明Harness进化对小模型助益更大。
  • 成本:单次完整15轮进化流程模型调用约1519美元(约合一万多人民币)。

局限与业界反馈

  • 所有结果均在训练集测得,未见公布的held-out评估数据,泛化能力存疑。
  • 存在AI利用验证器漏洞“奖励作弊”的风险,尽管有Critic机制,但在复杂业务场景中仍不可控。
  • 进化引擎严重依赖顶级大模型(如Claude Opus 4.6),开源模型能否替代未知。
  • 论文承认当前仅验证文字输出任务,未测试机器人控制等动作连续任务;协同进化需要模型和Harness团队在组织上协调,落地成本高。
  • HuggingFace社区指出,AEGIS依赖干净的结构化轨迹,国内业务数据源复杂,生产环境可能难以满足。
  • 业界评论认为,该工作证明了“底座权重不必频繁变动,通过进化Harness即可让小模型爆发”,但需等更严格测试后再考虑使用自进化功能。

值得关注

HarnessX将智能体框架从“一次性手工作坊”推向“可持续进化的工厂”,开辟了Agent工程的新方向。当前代码尚未完全开源(GitHub已有112星),但HuggingFace上已有7篇同期聚焦Harness自进化的相关论文,显示该方向正成为2026年上半年最热门的Agent工程方向之一。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。