GitHub Copilot隐私政策重大调整：4月24日起默认收集用户交互数据训练AI

引言：微软旗下GitHub宣布自2026年4月24日起，将默认收集Copilot个人用户的代码交互数据用于AI模型训练，包括输入提示、代码片段、上下文等信息。企业用户及教育计划用户豁免此政策，用户可手动关闭数据收集选项。

微软旗下的代码托管平台GitHub近日宣布了一项重要的隐私政策调整。自2026年4月24日起，GitHub将默认收集并使用部分客户的交互数据来训练其AI模型，这些数据包括输入提示、输出结果、代码片段及相关上下文信息。

AI识别

本次政策调整主要影响使用Copilot Free、Pro以及Pro+订阅级别的个人用户。由于现有的企业级合同条款限制，Copilot Business和Copilot Enterprise企业用户将不受此新规影响。同时，通过教育计划获取Copilot使用权的学生和教师群体也被明确列入豁免名单。

对于受影响的个人用户，GitHub采取了“默认同意，允许退出”的机制。如果用户不希望自己的代码交互数据被用于模型增强，必须主动进入账号的Copilot功能设置页面，手动禁用“允许GitHub使用我的数据进行AI模型训练”功能。

根据官方披露的更新细则，一旦用户处于默认参与状态，GitHub将在使用Copilot期间收集多维度的数据。这些交互数据涵盖：用户接受或修改的模型输出结果、包含所显示代码片段的模型输入提示、光标位置周围的代码上下文、用户编写的注释和文档、文件名及仓库物理结构、与Copilot功能的互动记录，以及点赞或点踩的反馈评分。

值得注意的是，这项政策对“私有仓库”的数据边界做出了更精准的界定。官方解释称，GitHub不会扫描或使用私有仓库中处于“静态存储”状态的代码底座。但如果用户在私有仓库中激活并使用Copilot，其在实时交互过程中产生的代码片段和上下文，将被视为交互数据纳入采集与训练的范畴。

针对这一数据策略转向，GitHub首席产品官Mario Rodriguez指出，引入真实世界的交互数据能够显著提升AI模型的性能。进一步扩大数据收集范围，旨在帮助模型更好地理解开发工作流，从而提供更准确的安全代码建议，并在代码进入生产环境前拦截潜在漏洞。

GitHub在官方说明中列举了Anthropic、JetBrains以及母公司微软的类似政策，表明这种数据使用策略已成为当前生成式AI赛道的行业常态。