GitHub Copilot CLI 引入跨模型“橡皮鸭”审查机制,提升复杂任务解决率
2026/04/07 05:53阅读量 3
GitHub Copilot CLI 新增实验性功能 Rubber Duck,通过调用不同 AI 家族的第二大模型对主代理的规划与代码进行独立审查。测试数据显示,Claude Sonnet 4.6 配合 GPT-5.4 作为审查者,解决了 74.7% 的性能差距,在复杂多文件任务上的表现接近单用 Claude Opus 4.6。该功能旨在通过跨视角审查发现架构缺陷、逻辑漏洞及跨文件冲突等隐蔽错误。
事件概述
GitHub Copilot CLI 正式推出名为 Rubber Duck 的实验性功能。该功能利用来自不同 AI 家族的第二大模型,充当独立审查员,对主代理(Orchestrator)生成的计划和工作成果进行交叉验证,以提供“第二意见”。
核心机制
- 跨模型协作:当用户选择 Claude 系列模型作为主代理时,Rubber Duck 将使用 GPT-5.4 模型进行审查;未来还将探索其他模型组合。
- 审查时机:在关键节点介入,评估代理的计划与实施结果,而非仅在最后阶段检查。
- 审查目标:识别主代理可能遗漏的细节、值得质疑的假设以及边缘情况,输出简短且高价值的关注点列表。
性能评估数据
基于 SWE-Bench Pro(涵盖开源仓库中大型、困难的实际编码问题)基准测试,结果显示:
- 整体表现:Claude Sonnet 4.6 + Rubber Duck (GPT-5.4) 的组合,解决了 Sonnet 与 Opus 4.6 之间 74.7% 的性能差距,效果逼近单独运行 Opus 4.6。
- 复杂任务优势:针对跨度 3 个以上文件且需 70+ 步骤的难题,Sonnet + Rubber Duck 比基线高出 3.8%,在最难的问题上高出 4.8%。
典型发现案例
Rubber Duck 在以下场景中成功识别了主代理忽略的错误:
- 架构捕获:发现异步调度器设计会导致任务立即退出且无作业运行,甚至包含无限循环。
- 单行 Bug 大影响:识别出循环中静默覆盖字典键的问题,导致 Solr 搜索查询丢失三个分类类别。
- 跨文件冲突:检测到 NodeBB 邮件确认流程中的跨文件逻辑冲突。
使用方法
开发者可在 GitHub Copilot CLI 中输入 /experimental 命令来启用 Rubber Duck 及其他实验性功能。
