GitHub Copilot CLI 引入跨模型“橡皮鸭”审查机制，提升复杂任务解决率

2026/04/07 05:53阅读量 43

GitHub Copilot CLI 新增实验性功能 Rubber Duck，通过调用不同 AI 家族的第二大模型对主代理的规划与代码进行独立审查。测试数据显示，Claude Sonnet 4.6 配合 GPT-5.4 作为审查者，解决了 74.7% 的性能差距，在复杂多文件任务上的表现接近单用 Claude Opus 4.6。该功能旨在通过跨视角审查发现架构缺陷、逻辑漏洞及跨文件冲突等隐蔽错误。

事件概述

GitHub Copilot CLI 正式推出名为 Rubber Duck 的实验性功能。该功能利用来自不同 AI 家族的第二大模型，充当独立审查员，对主代理（Orchestrator）生成的计划和工作成果进行交叉验证，以提供“第二意见”。

核心机制

跨模型协作：当用户选择 Claude 系列模型作为主代理时，Rubber Duck 将使用 GPT-5.4 模型进行审查；未来还将探索其他模型组合。
审查时机：在关键节点介入，评估代理的计划与实施结果，而非仅在最后阶段检查。
审查目标：识别主代理可能遗漏的细节、值得质疑的假设以及边缘情况，输出简短且高价值的关注点列表。

性能评估数据

基于 SWE-Bench Pro（涵盖开源仓库中大型、困难的实际编码问题）基准测试，结果显示：

整体表现：Claude Sonnet 4.6 + Rubber Duck (GPT-5.4) 的组合，解决了 Sonnet 与 Opus 4.6 之间 74.7% 的性能差距，效果逼近单独运行 Opus 4.6。
复杂任务优势：针对跨度 3 个以上文件且需 70+ 步骤的难题，Sonnet + Rubber Duck 比基线高出 3.8%，在最难的问题上高出 4.8%。

典型发现案例

Rubber Duck 在以下场景中成功识别了主代理忽略的错误：

架构捕获：发现异步调度器设计会导致任务立即退出且无作业运行，甚至包含无限循环。
单行 Bug 大影响：识别出循环中静默覆盖字典键的问题，导致 Solr 搜索查询丢失三个分类类别。
跨文件冲突：检测到 NodeBB 邮件确认流程中的跨文件逻辑冲突。

使用方法

开发者可在 GitHub Copilot CLI 中输入 /experimental 命令来启用 Rubber Duck 及其他实验性功能。

阅读原文详情

事件概述

核心机制

性能评估数据

典型发现案例

使用方法

准备好启动您的定制项目了吗？