Claude Mythos 性能碾压 Opus 4.6,Anthropic 启动「玻璃翼计划」限制发布以应对安全危机
2026/04/08 10:41阅读量 3
Anthropic 宣布推出预览版模型 Claude Mythos,其在 SWE-bench Pro 等基准测试中表现全面超越 Opus 4.6。鉴于该模型具备远超人类黑客的漏洞挖掘与利用能力,存在重大安全隐患,Anthropic 决定暂不向公众开放,转而启动「玻璃翼计划」。该项目联合亚马逊、苹果、谷歌等巨头及开源社区,投入最高 1 亿美元额度协助防御性安全建设,旨在在模型正式商用前构建行业级安全护栏。
事件概述
Anthropic 正式发布其最新模型 Claude Mythos 的预览版(Preview)。该模型在多项核心基准测试中展现出压倒性的性能优势,但同时也暴露出极高的安全风险。为应对潜在威胁,Anthropic 采取了罕见的“暂缓公开”策略,并联合全球科技巨头启动专项安全计划。
核心性能数据
相比上一代旗舰模型 Opus 4.6,Claude Mythos 在以下关键指标上实现显著提升:
- SWE-bench Pro:代码修复能力提升 24%。
- SWE-bench Verified:严格版本测试下提升 13%。
- Terminal-Bench 2.0:电脑操作类 Agent 能力提升 17%。
安全风险分析
尽管编程能力接近甚至超越顶尖人类工程师,Mythos 在攻击面发现与利用方面同样表现出极强的破坏力:
- 预览版已自动发现数千个高危漏洞,覆盖主流操作系统和浏览器。
- Anthropic 指出,若此类能力被恶意行为者掌握,将对全球经济和公共安全构成灭顶之灾。
- 模型能力的跃迁速度远超现有防御体系的更新速度,传统人工防御已难以招架。
「玻璃翼计划」(Project Glasswing)详情
为驯服这头“猛兽”,Anthropic 启动了名为“玻璃翼计划”的行业合作机制,核心措施包括:
- 封闭测试与定向开放:暂时不向公众开放,仅向合作伙伴提供预览版,用于防御性安全训练。
- 多方协同防御:联合 Amazon、Apple、Google、Linux Foundation、Microsoft、NVIDIA 等老牌互联网巨头,以及 40 多家关键软件基础设施维护者,提前利用模型能力扫描和加固自身系统。
- 资金支持:承诺提供最高 1 亿美元 的使用额度支持相关工作,并向开源安全组织直接捐赠 400 万美元。
- 知识共享:计划将过程中积累的安全经验分享给整个行业,共同应对未来数年的网络基础设施防御挑战。
结论
此次行动标志着 AI 安全从理论探讨转向实质性行业协作。Anthropic 明确表示,网络安全无法由单一机构解决,需要前沿 AI 公司、软件厂商、安全研究员、开源社区及各国政府共同参与。在模型能力持续跃迁的背景下,立即建立防御体系已成为当务之急。
