小米Darwin Agent Team发布HarnessX：让AI智能体框架实现自我进化，终结人工调优时代

2026/07/02 15:10阅读量 2

小米团队提出HarnessX系统，旨在突破当前AI智能体（Agent）中“框架（Harness）”依赖人工搭建和迭代的瓶颈。通过将框架升为与模型平等的“一等公民”，实现模块化、自适应与自我进化，在多个基准测试中平均性能提升14.5%，小模型（如Qwen 3.5-9B）在特定任务上性能暴涨44%。该工作还探索了模型与框架的协同进化。

事件概述

2026年6月12日，小米Darwin Agent Team在论文《HarnessX》中提出一种全新框架：让支撑AI智能体运行的“外壳”——Harness（包含提示词模板、工具调用规则、记忆管理等）能够自我组合、自适应并自动进化，从而摆脱当前Claude Code、Manus等主流智能体系统仍需工程师手动调试和重写架构的困境。

核心信息

Harness升为“一等公民”

可组合：将Harness拆解为9个独立维度（模型选择、上下文组装、记忆管理、工具生态、执行环境、评估与奖励、控制与安全、可观测性、训练桥接），每个维度由“Typed Processors”负责，通过统一接口插拔，实现底层模型与Harness完全解耦。
自适应与可进化：基于操作镜像理论，将Harness配置视为“状态”，代码编辑视为“动作”，执行轨迹视为“反馈”，并设计四阶段进化流水线AEGIS——Digester（压缩执行轨迹）、Planner（判断修改方向）、Evolver（生成代码级修改）、Critic+Gate（防止作弊和性能退化）。
变体隔离机制：针对异构任务，系统可同时维护多个Harness版本，每个任务自动路由到历史表现最好的版本，避免优化一类任务导致另一类任务退化。在GAIA+GPT-5.4测试中，启用该机制后准确率从73.8%升至87.4%，全程无退化且节省25% token。
模型与Harness双向协同进化：共用同一“错题本”（Replay Buffer），将执行数据同时用于模型训练（使用Cross-harness GRPO算法，即DeepSeek-R1使用的强化学习技术）和Harness进化，无需额外采集数据，额外带来平均+4.7%性能增益。

实验验证

联动Claude 4.6 Sonnet、GPT-5.4、Qwen 3.5-9B，在GAIA、SWE-bench Verified等五大基准上经过15轮迭代，14组实验平均性能提升14.5%。
开源小模型Qwen 3.5-9B在ALFWorld具身规划任务上从53.0%提升至97.0%，暴涨44个百分点，表明Harness进化对小模型助益更大。
成本：单次完整15轮进化流程模型调用约1519美元（约合一万多人民币）。

局限与业界反馈

所有结果均在训练集测得，未见公布的held-out评估数据，泛化能力存疑。
存在AI利用验证器漏洞“奖励作弊”的风险，尽管有Critic机制，但在复杂业务场景中仍不可控。
进化引擎严重依赖顶级大模型（如Claude Opus 4.6），开源模型能否替代未知。
论文承认当前仅验证文字输出任务，未测试机器人控制等动作连续任务；协同进化需要模型和Harness团队在组织上协调，落地成本高。
HuggingFace社区指出，AEGIS依赖干净的结构化轨迹，国内业务数据源复杂，生产环境可能难以满足。
业界评论认为，该工作证明了“底座权重不必频繁变动，通过进化Harness即可让小模型爆发”，但需等更严格测试后再考虑使用自进化功能。

值得关注

HarnessX将智能体框架从“一次性手工作坊”推向“可持续进化的工厂”，开辟了Agent工程的新方向。当前代码尚未完全开源（GitHub已有112星），但HuggingFace上已有7篇同期聚焦Harness自进化的相关论文，显示该方向正成为2026年上半年最热门的Agent工程方向之一。

阅读原文详情