Anthropic 发布 Claude Opus 4.7:以“不乱猜”为核心,长文与视觉能力大幅跃升
2026/04/17 11:14阅读量 2
当地时间 4 月 16 日,Anthropic 正式发布新一代旗舰模型 Claude Opus 4.7,该版本专为 Agentic(智能体)工作流设计,重点攻克长上下文检索与高分辨率视觉感知瓶颈。在 OfficeQA Pro 等基准测试中,Opus 4.7 的长文问答准确率较前代提升 17%,并在结构生物学等专业领域实现数倍增长。与此同时,Anthropic 通过主动限制部分高级网络安全能力并推出分级验证计划,将“安全克制”确立为产品差异化策略。
事件概述
当地时间 4 月 16 日,Anthropic 正式发布新一代旗舰模型 Claude Opus 4.7。该模型被定位为“迄今能力最强的通用可用模型”,标志着人工智能行业竞争焦点从追求对话流畅性转向考核自主任务执行能力。值得注意的是,Anthropic 明确表示这并非其最强模型,能力更强的 Claude Mythos Preview 仍处于受限测试阶段。
核心性能突破
1. 长上下文与复杂任务处理
- 长文问答准确率提升:在 BFS 1M 测试(要求模型遍历填满 100 万 token 上下文的有向图)中,Opus 4.7 得分从 41.2% 提升至 58.6%,增幅达 17.4 个百分点,被视为衡量 AI 智能体跑多步骤长任务的硬性指标。
- 海量文档解析:在由 Databricks 开发的 OfficeQA Pro 评测中(解析近 9 万页美国财政部历史文件),Opus 4.7 取得 80.6% 的得分,几乎是谷歌 Gemini 3.1 Pro(42.9%)的两倍,大幅领先于 GPT-5.4(51.1%)。
- 决策连贯性:在 Vending-Bench 2 模拟经营测试中,Opus 4.7 最终实现 10,937 美元余额,较 Opus 4.6 的 8,018 美元提升 36%。
2. 视觉智能与屏幕操作
- 分辨率飞跃:支持最长边达 2,576 像素的图像输入(约 375 万像素),较前代提升超三倍,能识别占比低至 0.07% 的 UI 元素。
- 专业软件定位:在 ScreenSpot-Pro 基准测试中,配合工具调用功能,Opus 4.7 在 VSCode、Photoshop 等专业软件中的定位成功率达到 87.6%,而 Opus 4.6 仅为 57.7%。
- 代码修复能力:在 SWE-bench Multimodal 测试中,结合 UI 截图和代码修复前端 JavaScript bug 的能力从 27.1% 提升至 34.5%。
3. 指令遵循与软件工程
- 严谨性提升:Opus 4.7 显著提升了指令遵循能力,严格按字面意思执行,减少“糊弄”或跳过指示的情况。这使得写需求、定格式更加可靠,但也可能导致旧版偏对话式的提示词失效。
- 编程表现:在 SWE-bench Verified 测试中得分为 87.6%(Opus 4.6 为 80.8%);在更难的 SWE-bench Pro 测试中得分为 64.3%(Opus 4.6 为 53.4%)。模型能在汇报结果前主动验证自身输出。
- 跨会话记忆:在使用基于文件系统的记忆方面表现更佳,能在长时间、多会话工作中记住项目约束、用户偏好及失败原因,使 Agent 从“临时工”转变为“稳定同事”。
新功能与安全策略
1. 工具与模式更新
- Claude Code 升级:新增
auto mode(权限选项,允许模型在长任务中做少量权限决策以减少打断)和/ultrareview(专门代码审查会话,让 AI 审查 AI 生成的代码)。 - Xhigh Effort 模式:位于标准处理与最大推理深度之间,模型会进行更多内部推理以提高可靠性,但会产生更多输出 token。
2. 专业领域与经济价值
- 结构生物学:在 Structural Biology 基准测试中,推理得分从 30.9% 跃升至 74.0%,实现 2.4 倍增长。
- 金融分析:在 Finance Agent v11 测试中得分为 64.4%;在 GDPval-AA 评估中获得 1753 分的 Elo 评分,高于 GPT-5.4(1674 分)和 Gemini 3.1 Pro(1314 分)。
3. 安全与成本控制
- 网络安全验证计划:Anthropic 更新了 Cyber Verification Program,对能力进行分级。普通用户获得有护栏的 Opus,仅经过验证的安全专家可申请更宽的权限。公司有意限制了 Opus 4.7 的高级网络安全能力(低于 Mythos Preview 水平),以防止进攻性操作滥用,将其作为测试新安全护栏的公开模型。
- Token 消耗逻辑:由于使用了修订后的分词器,相同输入量下 token 消耗增加 10%-35%。虽然单价未变(输入$5/百万 token,输出$25/百万 token),但高强度任务消耗更快。这种设计反映了计费模式从“单次回答长度”向“思考等级、任务预算、Agent 轮次”的转变,旨在降低完成任务的总成本而非单次调用成本。
行业影响
Opus 4.7 的发布表明 AI 行业竞争的核心指标已发生改变:从“答得像不像”转向“做得完不完”。企业客户开始重视模型能否持续几十分钟不跑偏、能否交付完整可交付物以及是否具备“不乱猜”的安全性。Anthropic 通过主动削弱部分能力以换取安全验证的策略,为硅谷在模型能力与基础设施安全之间的平衡提供了新思路。
