港中文提出 SLIM:让大模型智能体动态管理外部技能,不再盲目堆积
2026/06/01 15:34阅读量 2
香港中文大学提出动态技能生命周期管理方法 SLIM,在训练过程中自动评估技能贡献,保留有用技能、退休无效技能、扩展缺失技能。实验表明,SLIM 在 ALFWorld 和 SearchQA 任务上平均超出最佳对比方法 7.1 个百分点,有效解决了技能盲目堆积或全数删除带来的性能损失问题。
事件概述
大模型智能体在复杂任务中(如网页搜索、工具调用、具身机器人)需要外部技能辅助,但传统做法要么持续累积技能导致检索干扰,要么试图全部内化技能导致长尾能力丢失。香港中文大学团队提出 Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning (SLIM),将外部技能视为有生命周期的动态系统,在训练过程中基于贡献判断对技能进行保留、退休和扩展。
核心方法
SLIM 采用 leave-one-skill-out 验证来估计每个技能的边际外部贡献:
- Retain(保留):技能显著提升任务表现时继续保留。
- Retire(退休):技能贡献长期很低时删除,减少噪声和上下文负担。
- Expand(扩展):当前技能库无法覆盖的失败区域,从失败案例中总结新技能补充。
技能分为通用技能和任务专属技能,每次任务只检索当前 active skill set 中的相关技能,降低无关干扰。训练循环交替进行 policy 更新(GRPO)和技能审计。
实验结果
基础模型采用 Qwen3-4B,在 ALFWorld(模拟家庭动作任务)和 SearchQA(搜索问答)上验证:
- 整体表现:SLIM 平均超过最佳对比方法 7.1 个百分点。
- ALFWorld 成功率 87.5(基线 SkillRL 为 75.0),SearchQA 得分 41.0(基线 Skill0 为 39.3)。
- 消融实验:去掉退休机制或扩展机制后性能明显下降;随机管理技能效果更差;固定技能数量也不如 SLIM。
- 最终技能数:SLIM 保留 21 个技能,既非越多越好也非全删除。
案例分析表明,技能使用频率高不一定贡献大,低频技能可能对特定任务关键;新增技能后期也可能变得冗余。
意义与启示
SLIM 挑战了“技能持续累积”和“零技能推理”两种极端做法,提出外部技能集合应与 policy 一起进行动态优化。常见能力适合内化到模型参数,低频但重要的流程适合外部保留。该方法使智能体不只是学会做任务,还学会判断何时需要外部帮助,更适合长流程、工具依赖型任务。
