Anthropic新模型Mythos/Capybara泄露：AGI临界点前的安全与能力跃迁

2026/03/27 16:49阅读量 71

Anthropic因内容管理系统配置错误，导致包括最强测试模型Mythos（产品名Capybara）在内的近3000份内部文档意外公开。泄露文件显示该模型在推理、编码及网络安全方面实现“阶跃式”提升，甚至被担忧其攻击能力将超越防御者。Anthropic已确认模型存在并优先向防御组织开放测试，同时指出其高昂成本将限制短期面向普通用户发布。

事件概述：内部文档意外泄露

2026年3月，Anthropic因内容管理系统（CMS）配置的人为错误，导致近3000份未发布的内部文档暴露在公共数据缓存中。剑桥大学网络安全研究员Alexandre Pauwels和LayerX Security的Roy Paz在搜索公开数据时发现了这些文件。

泄露内容包含文章草稿、内部活动安排及部分员工文档，其中最关键的是关于Anthropic最新测试模型的详细规划。文件证实了代号为Mythos的底层模型及其产品层命名Capybara的存在，并披露了其核心性能指标与发布策略。

核心信息：模型能力与风险

1. 性能实现“阶跃式”提升

根据泄露文档，与现有最佳模型Claude Opus 4.6相比，Capybara/Mythos在以下领域表现显著增强：

软件编程：代码生成与库管理能力大幅提升。
学术推理：逻辑推导与复杂问题解决能力进阶。
网络安全：文档明确指出其在网络能力方面“目前远远领先于任何其他AI模型”。

Anthropic发言人已证实这一进展，称其为“有意义的进步”和“阶跃式变化”，并表示该模型已交付给极少数早期客户进行测试。

2. 双刃剑效应：攻击能力的飞跃

泄露文件揭示了Anthropic对该模型最深层的担忧：其网络安全能力的提升可能是一把双刃剑。

漏洞泛化发现：不同于传统模糊测试（fuzzing），该模型能通过理解代码语义、历史修复模式和相似Bug特征，主动寻找尚未被修复的同类漏洞。
攻击链构建：模型能够理解攻击的语义，分辨正常脚本与规避扫描、凭据窃取等恶意动作的组合，预示着未来黑客利用AI发动大规模攻击的能力将远超防御者的努力。

3. 谨慎的发布策略

鉴于潜在风险，Anthropic制定了严格的发布计划：

优先防御：优先向网络安全防御组织提供早期访问权限，使其有时间加固代码库，应对即将到来的AI驱动的攻击浪潮。
成本控制：文档提到该模型运行成本极高，短期内不会面向普通用户开放。
快速止损：发现泄露后，Anthropic迅速关闭了公开访问权限，并将此归咎于配置错误，但Mythos和Capybara的名称及特性已成为公开事实。

技术推测：从“单轮回答”到“系统执行”

基于泄露信息及Anthropic的技术路线，Mythos/Capybara的突破可能不仅在于参数量，而在于构建了一套“模型+编排+验证+风险控制”的复合系统：

长任务稳定性：实现了从“单次回答强”到“整条执行链稳”的跨越。通过类似游戏“检查点”的机制，在长链条任务中保留关键状态，局部报错无需从头重来，仅需定位修复即可继续。
动态推理预算：采用更重的测试时计算（Test-time Compute），根据任务难度动态分配思考资源。面对复杂问题会进行多步草稿推演，而非线性输出。
Agent轨迹强化学习：训练目标从“最终答案正确”转向“任务链成功完成”，涵盖计划拆解、工具调用时机、验证节点及错误回退机制。
内置Verifier（验证器）：引入类似审稿人的质检机制，在代码场景检查Patch有效性，在安全场景评估输出是否增加攻击可执行性。
细粒度风险监控：安全能力内嵌于推理过程，通过分析中间表征和工具调用顺序，识别可疑行为模式，而非仅依赖关键词过滤。

行业影响

此次泄露事件被视为AI发展进入下一个临界点的信号。如果Mythos/Capybara正式发布，其具备的语义泛化、长任务稳定性及自主工具编排能力，标志着AI正从辅助工具向具备独立执行能力的系统演进。这也引发了对网络安全平衡被打破的担忧：当AI的攻击能力系统性超过防御能力时，整个数字基础设施的安全架构将面临重构。未来的观察重点将集中在该模型在Computer Use、Terminal及Browser等长任务环境中的实际稳定性表现。

阅读原文详情