GitHub调整Copilot隐私政策:4月24日起默认采集用户交互数据用于AI训练
GitHub宣布自2026年4月24日起,将默认收集并允许使用个人用户的Copilot交互数据(包括代码片段、提示词及上下文)来训练其AI模型。该政策主要覆盖Copilot Free、Pro及Pro+订阅的个人用户,企业版用户及教育计划参与者享有豁免权。若用户不希望数据被用于模型训练,需手动在设置中关闭相关选项。
事件概述
微软旗下的代码托管平台GitHub宣布调整Copilot隐私政策。自2026年4月24日起,系统将默认收集部分客户的交互数据,并将其纳入AI模型的训练范畴。这一举措旨在通过引入真实世界的开发者交互数据,提升模型在多语言环境下的代码采纳率及安全性。
核心信息
- 实施时间:2026年4月24日生效。
- 受影响群体:
- 包含:使用Copilot Free、Pro以及Pro+订阅级别的个人用户。
- 豁免:Copilot Business和Copilot Enterprise企业用户(受现有合同条款保护)、通过教育计划获取使用权的学生和教师。
- 数据收集机制:采取“默认同意,允许退出”(Opt-out)模式。用户若不希望数据被使用,必须主动进入账号的Copilot功能设置页面,手动禁用“允许GitHub使用我的数据进行AI模型训练”选项。
- 数据采集范围:
- 用户接受或修改的模型输出结果;
- 包含所显示代码片段的模型输入提示;
- 光标位置周围的代码上下文;
- 用户编写的注释和文档;
- 文件名及仓库物理结构;
- 与Copilot功能的互动记录(如对话);
私有仓库数据边界界定
官方明确了对“私有仓库”的数据处理逻辑:
- 静态存储代码:GitHub不会扫描或使用私有仓库中处于“静态存储”(at rest)状态的代码底座。
- 实时交互数据:一旦用户在私有仓库中激活并使用Copilot,其在实时交互过程中产生的代码片段和相关上下文将被视为交互数据,纳入采集与训练范围。
行业背景与目的
GitHub首席产品官Mario Rodriguez指出,整合真实交互数据能显著提升AI模型性能。此前,通过整合微软内部员工的交互数据,模型表现已得到有效增长。此举反映了生成式AI赛道对高质量对齐数据和真实开发者交互数据的刚性需求,Anthropic、JetBrains及母公司微软均采取了类似策略。
