Anthropic 发布超强模型 Mythos，因安全风险限制仅 12 家机构访问

2026/04/08 17:25阅读量 34

Anthropic 发布了性能全面超越现有模型的 AI 系统 Claude Mythos，其在漏洞挖掘和编程能力上展现出远超人类专家的水平。鉴于该模型具备发现数千个重大软件漏洞的潜在破坏力，Anthropic 决定暂停公众开放，转而启动“玻璃墙计划”。该计划仅限亚马逊、微软等 12 家核心科技与网络安全公司使用，并提供 1 亿美元额度用于防御性安全研究。

事件概述

4 月 8 日，Anthropic 正式发布其新一代 AI 模型 Claude Mythos（预览版）。尽管该模型在多项基准测试中表现压倒性领先，但因其攻击性漏洞挖掘能力远超人类水平，可能威胁全球数字基础设施安全，Anthropic 未将其向公众开放，而是实施了严格的访问限制。

核心性能数据

Mythos 在多个专业领域的表现显著优于前代最强模型 Opus 4.6：

漏洞测试：在 CyberGym 漏洞复现测试中得分 83.1%，远超 Opus 4.6 的 66.6%。
编程能力：在 SWE-bench 系列（包括 Pro、Multimodal、Verified 等）及 Terminal-Bench 2.0 测试中均取得显著领先分数。
科学问答：在研究生级 GPQA Diamond 测试中达到 94.6%，Humanity's Last Exam 测试中领先 Opus 4.6 超 10 个百分点。
操作系统操作：在 BrowseComp 和 OSWorld-Verified 测试中分别获得 86.9% 和 79.6% 的高分。

安全风险与治理策略

Anthropic CEO 达里奥·阿莫迪（Dario Amodei）指出，网络安全是前沿 AI 模型带来的首个明确且现实的危险。Mythos 已实际发现了数千个重大漏洞，其中包括 OpenBSD 中存在 27 年的错误以及 FFmpeg 中隐藏 16 年的漏洞。

为应对这一风险，Anthropic 启动了 “玻璃墙计划”（Project Glasswing）：

访问限制：仅限 12 家 核心机构访问 Mythos 预览版，合作伙伴包括亚马逊、微软、苹果、谷歌、英伟达、CrowdStrike 和 Palo Alto Networks 等。
覆盖领域：涵盖云计算、浏览器、芯片、金融基础设施及操作系统等关键数字领域。
资金支持：提供最高 1 亿美元 的模型使用额度，专门用于防御性网络安全研究和系统漏洞修补。

行业影响

此举标志着高风险 AI 治理的新范式：在模型能力尚未完全可控时，优先利用其强大的攻防能力完善全球信息安全体系，而非急于商业化推广。这为未来平衡 AI 创新与安全提供了可复制的蓝图。

阅读原文详情

事件概述

核心性能数据

安全风险与治理策略

行业影响

准备好启动您的定制项目了吗？