Anthropic 发布超强模型 Mythos,因安全风险限制仅 12 家机构访问
2026/04/08 17:25阅读量 2
Anthropic 发布了性能全面超越现有模型的 AI 系统 Claude Mythos,其在漏洞挖掘和编程能力上展现出远超人类专家的水平。鉴于该模型具备发现数千个重大软件漏洞的潜在破坏力,Anthropic 决定暂停公众开放,转而启动“玻璃墙计划”。该计划仅限亚马逊、微软等 12 家核心科技与网络安全公司使用,并提供 1 亿美元额度用于防御性安全研究。
事件概述
4 月 8 日,Anthropic 正式发布其新一代 AI 模型 Claude Mythos(预览版)。尽管该模型在多项基准测试中表现压倒性领先,但因其攻击性漏洞挖掘能力远超人类水平,可能威胁全球数字基础设施安全,Anthropic 未将其向公众开放,而是实施了严格的访问限制。
核心性能数据
Mythos 在多个专业领域的表现显著优于前代最强模型 Opus 4.6:
- 漏洞测试:在 CyberGym 漏洞复现测试中得分 83.1%,远超 Opus 4.6 的 66.6%。
- 编程能力:在 SWE-bench 系列(包括 Pro、Multimodal、Verified 等)及 Terminal-Bench 2.0 测试中均取得显著领先分数。
- 科学问答:在研究生级 GPQA Diamond 测试中达到 94.6%,Humanity's Last Exam 测试中领先 Opus 4.6 超 10 个百分点。
- 操作系统操作:在 BrowseComp 和 OSWorld-Verified 测试中分别获得 86.9% 和 79.6% 的高分。
安全风险与治理策略
Anthropic CEO 达里奥·阿莫迪(Dario Amodei)指出,网络安全是前沿 AI 模型带来的首个明确且现实的危险。Mythos 已实际发现了数千个重大漏洞,其中包括 OpenBSD 中存在 27 年的错误以及 FFmpeg 中隐藏 16 年的漏洞。
为应对这一风险,Anthropic 启动了 “玻璃墙计划”(Project Glasswing):
- 访问限制:仅限 12 家 核心机构访问 Mythos 预览版,合作伙伴包括亚马逊、微软、苹果、谷歌、英伟达、CrowdStrike 和 Palo Alto Networks 等。
- 覆盖领域:涵盖云计算、浏览器、芯片、金融基础设施及操作系统等关键数字领域。
- 资金支持:提供最高 1 亿美元 的模型使用额度,专门用于防御性网络安全研究和系统漏洞修补。
行业影响
此举标志着高风险 AI 治理的新范式:在模型能力尚未完全可控时,优先利用其强大的攻防能力完善全球信息安全体系,而非急于商业化推广。这为未来平衡 AI 创新与安全提供了可复制的蓝图。
