Anthropic新模型Mythos/Capybara泄露:AGI临界点前的安全与能力跃迁
Anthropic因内容管理系统配置错误,导致包括最强测试模型Mythos(产品名Capybara)在内的近3000份内部文档意外公开。泄露文件显示该模型在推理、编码及网络安全方面实现“阶跃式”提升,甚至被担忧其攻击能力将超越防御者。Anthropic已确认模型存在并优先向防御组织开放测试,同时指出其高昂成本将限制短期面向普通用户发布。
事件概述:内部文档意外泄露
2026年3月,Anthropic因内容管理系统(CMS)配置的人为错误,导致近3000份未发布的内部文档暴露在公共数据缓存中。剑桥大学网络安全研究员Alexandre Pauwels和LayerX Security的Roy Paz在搜索公开数据时发现了这些文件。
泄露内容包含文章草稿、内部活动安排及部分员工文档,其中最关键的是关于Anthropic最新测试模型的详细规划。文件证实了代号为Mythos的底层模型及其产品层命名Capybara的存在,并披露了其核心性能指标与发布策略。
核心信息:模型能力与风险
1. 性能实现“阶跃式”提升
根据泄露文档,与现有最佳模型Claude Opus 4.6相比,Capybara/Mythos在以下领域表现显著增强:
- 软件编程:代码生成与库管理能力大幅提升。
- 学术推理:逻辑推导与复杂问题解决能力进阶。
- 网络安全:文档明确指出其在网络能力方面“目前远远领先于任何其他AI模型”。
Anthropic发言人已证实这一进展,称其为“有意义的进步”和“阶跃式变化”,并表示该模型已交付给极少数早期客户进行测试。
2. 双刃剑效应:攻击能力的飞跃
泄露文件揭示了Anthropic对该模型最深层的担忧:其网络安全能力的提升可能是一把双刃剑。
- 漏洞泛化发现:不同于传统模糊测试(fuzzing),该模型能通过理解代码语义、历史修复模式和相似Bug特征,主动寻找尚未被修复的同类漏洞。
- 攻击链构建:模型能够理解攻击的语义,分辨正常脚本与规避扫描、凭据窃取等恶意动作的组合,预示着未来黑客利用AI发动大规模攻击的能力将远超防御者的努力。
3. 谨慎的发布策略
鉴于潜在风险,Anthropic制定了严格的发布计划:
- 优先防御:优先向网络安全防御组织提供早期访问权限,使其有时间加固代码库,应对即将到来的AI驱动的攻击浪潮。
- 成本控制:文档提到该模型运行成本极高,短期内不会面向普通用户开放。
- 快速止损:发现泄露后,Anthropic迅速关闭了公开访问权限,并将此归咎于配置错误,但Mythos和Capybara的名称及特性已成为公开事实。
技术推测:从“单轮回答”到“系统执行”
基于泄露信息及Anthropic的技术路线,Mythos/Capybara的突破可能不仅在于参数量,而在于构建了一套“模型+编排+验证+风险控制”的复合系统:
- 长任务稳定性:实现了从“单次回答强”到“整条执行链稳”的跨越。通过类似游戏“检查点”的机制,在长链条任务中保留关键状态,局部报错无需从头重来,仅需定位修复即可继续。
- 动态推理预算:采用更重的测试时计算(Test-time Compute),根据任务难度动态分配思考资源。面对复杂问题会进行多步草稿推演,而非线性输出。
- Agent轨迹强化学习:训练目标从“最终答案正确”转向“任务链成功完成”,涵盖计划拆解、工具调用时机、验证节点及错误回退机制。
- 内置Verifier(验证器):引入类似审稿人的质检机制,在代码场景检查Patch有效性,在安全场景评估输出是否增加攻击可执行性。
- 细粒度风险监控:安全能力内嵌于推理过程,通过分析中间表征和工具调用顺序,识别可疑行为模式,而非仅依赖关键词过滤。
行业影响
此次泄露事件被视为AI发展进入下一个临界点的信号。如果Mythos/Capybara正式发布,其具备的语义泛化、长任务稳定性及自主工具编排能力,标志着AI正从辅助工具向具备独立执行能力的系统演进。这也引发了对网络安全平衡被打破的担忧:当AI的攻击能力系统性超过防御能力时,整个数字基础设施的安全架构将面临重构。未来的观察重点将集中在该模型在Computer Use、Terminal及Browser等长任务环境中的实际稳定性表现。
