Claude Code 源代码意外泄露,披露反蒸馏与卧底机制

2026/04/01 15:10阅读量 2

Claude Code 的源代码被意外公开,其中包含用于防止模型知识被窃取的反蒸馏机制以及名为“卧底模式”的特殊功能。该事件引发了对 AI 模型安全策略及代码保护的关注。目前已知信息主要围绕泄露代码中揭示的技术细节展开。

Claude Code 源代码意外公开

事件概述

Claude Code 的源代码近期被意外公开,这一泄露事件揭示了 Anthropic 在模型安全方面的一些内部实现细节。

核心信息

  • 反蒸馏机制:泄露的代码中包含专门设计的机制,旨在防止其他模型通过蒸馏技术窃取其知识或行为模式。
  • 卧底模式 (Sleeper Mode):代码中还发现了一种被称为“卧底模式”的功能,具体运作方式虽未完全详述,但表明存在某种隐蔽的执行逻辑或测试通道。

值得关注

此次泄露不仅涉及代码本身,更暴露了大型语言模型在对抗性攻击防御上的具体策略。对于开发者和安全研究人员而言,这些细节提供了理解模型防护边界的重要线索。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。