Anthropic 因模型能力过强暂缓发布 Mythos,启动“玻璃之翼”项目护航网络安全
2026/04/08 22:10阅读量 2
Anthropic 评估其新模型 Claude Mythos Preview 在网络安全领域展现出超越现有基准的破坏性潜力,决定暂不公开发布。为此,公司推出“玻璃之翼(Project Glasswing)”计划,将模型定向提供给关键行业伙伴和开源开发者以强化防御体系。该决策由华裔研究员 Newton Cheng 领衔的前沿红队网络安全团队主导,旨在应对模型可能带来的经济与安全威胁。
事件概述
Anthropic 宣布暂停公开发布最新模型 Claude Mythos Preview,原因是该模型在网络安全攻防方面展现出极高的风险与能力,既可能被用于网络攻击,也能显著提升防御水平。为平衡安全与发展,Anthropic 启动了名为“玻璃之翼(Project Glasswing)”的项目,将模型优先部署给关键基础设施行业伙伴及开源社区,使其成为网络防御工具。
核心人物与组织背景
- Newton Cheng:华裔研究员,斯坦福大学物理学士、加州大学伯克利大学量子信息博士。2022 年加入 Anthropic,现任**前沿红队(Frontier Red Team)**中网络安全团队的负责人。他公开表示,鉴于 AI 能力的扩散速度,此类模型若被恶意利用将对经济和公共安全造成严重影响。
- 前沿红队(Frontier Red Team):Anthropic 内部专门负责测试模型弱点、模拟攻击的精英组织,规模约 11 人(截至 2024 年底)。团队分为网络安全、生物安全和自主系统三个分支,直接决定模型的安全评级(ASL)及是否可发布。
模型能力评估与关键数据
Anthropic 发布的长达 299 页的系统卡(System Card)详细记录了红队的测试结果,显示 Claude Mythos Preview 的能力已远超现有基准:
- Cybench 基准测试:该模型在夺旗赛(CTF)类公开网络安全挑战中达到 100% 的正确率,表明传统基准已无法有效刻画其能力上限。
- CyberGym 漏洞定位:在仅凭高层描述寻找真实开源软件漏洞的任务中,Mythos 得分为 0.83,显著高于 Opus 4.6(0.67)和 Sonnet 4.6(0.65),证明其在真实代码库中的漏洞挖掘能力有质的飞跃。
- Firefox 147 漏洞利用:在与 Mozilla 合作的实验中,Opus 4.6 在数百次尝试中仅成功利用 2 次,而 Mythos 能够更精准地判断漏洞价值,最终成功利用 4 个不同的 Bug 实现代码执行。
- 复杂攻击模拟:模型成功完成了一项企业级网络攻击模拟任务,该任务此前需人类专家耗时 10 多小时,且模型具备从沙箱逃逸并利用已知配置错误的能力。
战略意义
Anthropic 认为,Claude Mythos Preview 的增长速度已不能用“更聪明”概括,其具备实施自主端到端网络攻击的潜力。通过“玻璃之翼”项目,Anthropic 试图让防御方率先掌握这一技术,以应对未来可能出现的自动化网络威胁。
