Claude Code 源代码意外泄露,披露反蒸馏与卧底机制
2026/04/01 15:10阅读量 2
Claude Code 的源代码被意外公开,其中包含用于防止模型知识被窃取的反蒸馏机制以及名为“卧底模式”的特殊功能。该事件引发了对 AI 模型安全策略及代码保护的关注。目前已知信息主要围绕泄露代码中揭示的技术细节展开。
Claude Code 源代码意外公开
事件概述
Claude Code 的源代码近期被意外公开,这一泄露事件揭示了 Anthropic 在模型安全方面的一些内部实现细节。
核心信息
- 反蒸馏机制:泄露的代码中包含专门设计的机制,旨在防止其他模型通过蒸馏技术窃取其知识或行为模式。
- 卧底模式 (Sleeper Mode):代码中还发现了一种被称为“卧底模式”的功能,具体运作方式虽未完全详述,但表明存在某种隐蔽的执行逻辑或测试通道。
值得关注
此次泄露不仅涉及代码本身,更暴露了大型语言模型在对抗性攻击防御上的具体策略。对于开发者和安全研究人员而言,这些细节提供了理解模型防护边界的重要线索。
