Anthropic 因模型能力过强暂缓发布 Mythos，启动“玻璃之翼”项目护航网络安全

2026/04/08 22:10阅读量 38

Anthropic 评估其新模型 Claude Mythos Preview 在网络安全领域展现出超越现有基准的破坏性潜力，决定暂不公开发布。为此，公司推出“玻璃之翼（Project Glasswing）”计划，将模型定向提供给关键行业伙伴和开源开发者以强化防御体系。该决策由华裔研究员 Newton Cheng 领衔的前沿红队网络安全团队主导，旨在应对模型可能带来的经济与安全威胁。

事件概述

Anthropic 宣布暂停公开发布最新模型 Claude Mythos Preview，原因是该模型在网络安全攻防方面展现出极高的风险与能力，既可能被用于网络攻击，也能显著提升防御水平。为平衡安全与发展，Anthropic 启动了名为“玻璃之翼（Project Glasswing）”的项目，将模型优先部署给关键基础设施行业伙伴及开源社区，使其成为网络防御工具。

核心人物与组织背景

Newton Cheng：华裔研究员，斯坦福大学物理学士、加州大学伯克利大学量子信息博士。2022 年加入 Anthropic，现任**前沿红队（Frontier Red Team）**中网络安全团队的负责人。他公开表示，鉴于 AI 能力的扩散速度，此类模型若被恶意利用将对经济和公共安全造成严重影响。
前沿红队（Frontier Red Team）：Anthropic 内部专门负责测试模型弱点、模拟攻击的精英组织，规模约 11 人（截至 2024 年底）。团队分为网络安全、生物安全和自主系统三个分支，直接决定模型的安全评级（ASL）及是否可发布。

模型能力评估与关键数据

Anthropic 发布的长达 299 页的系统卡（System Card）详细记录了红队的测试结果，显示 Claude Mythos Preview 的能力已远超现有基准：

Cybench 基准测试：该模型在夺旗赛（CTF）类公开网络安全挑战中达到 100% 的正确率，表明传统基准已无法有效刻画其能力上限。
CyberGym 漏洞定位：在仅凭高层描述寻找真实开源软件漏洞的任务中，Mythos 得分为 0.83，显著高于 Opus 4.6（0.67）和 Sonnet 4.6（0.65），证明其在真实代码库中的漏洞挖掘能力有质的飞跃。
Firefox 147 漏洞利用：在与 Mozilla 合作的实验中，Opus 4.6 在数百次尝试中仅成功利用 2 次，而 Mythos 能够更精准地判断漏洞价值，最终成功利用 4 个不同的 Bug 实现代码执行。
复杂攻击模拟：模型成功完成了一项企业级网络攻击模拟任务，该任务此前需人类专家耗时 10 多小时，且模型具备从沙箱逃逸并利用已知配置错误的能力。

战略意义

Anthropic 认为，Claude Mythos Preview 的增长速度已不能用“更聪明”概括，其具备实施自主端到端网络攻击的潜力。通过“玻璃之翼”项目，Anthropic 试图让防御方率先掌握这一技术，以应对未来可能出现的自动化网络威胁。

阅读原文详情

事件概述

核心人物与组织背景

模型能力评估与关键数据

战略意义

准备好启动您的定制项目了吗？