Claude Sonnet 5 上线一日差评刷屏：性能不敌国产模型，性价比全面翻车

2026/07/02 19:22阅读量 6

Anthropic 发布 Claude Sonnet 5，定位为 Agent 能力最强、价格仅为 Opus 4.8 四折的模型。但上线不到 24 小时，第三方测试显示其在硬核推理题上与国产 MiniMax-M3、Qwen3.7-Plus 极限分数持平，成本却高出 6 倍以上。Max 推理模式导致 Token 膨胀和账单飙升，Uber、微软等企业因成本过高考虑停用。过度安全对齐也引发开发者不满。

事件概述

Anthropic 于 2026 年 7 月 1 日发布 Claude Sonnet 5，官方宣传为“迄今最具 Agent 能力的 Sonnet”，在大量智能体任务上接近旗舰 Opus 4.8，价格仅为 Opus 的四折（输入 2 美元/百万 token，限时优惠）。然而发布仅一天，社区涌现大量差评，核心争议集中在性价比和国产模型对比上。

核心争议：性能与成本的失衡

第三方测评结果：个人维护的 LLM Benchmark Dashboard 在逻辑、数学、编程等高难度推理题上测试，Sonnet 5 极限分数 61.95，与 MiniMax-M3（61.95）和 Qwen3.7-Plus 打平，但测试成本 71.96 元，是 Qwen（11.71 元）和 MiniMax（11.64 元）的 6 倍以上。
Max 推理模式问题：该模式旨在深度推理，但实际导致高成本的“过度思考”，调用轮次翻 3 倍，输出 Token 膨胀 40%。完成一个长程智能任务需 2.29 美元，高于 Opus 4.8 的 1.80 美元。Anthropic 还更换了分词器，同样文本 Token 数增加最多 35%，变相涨价。
企业用户反馈：Uber 为 5000 名工程师开通 Claude Code，重度用户月账单达 500–2000 美元，四个月烧光全年 AI 编程预算，CTO 紧急叫停评估财务模型。微软 Windows 与 M365 团队计划 2026 年 6 月停用 Claude Code，迁回 GitHub Copilot 以控制成本。

能力表现：两面性

优势：在多步 Agent 和工程编程上表现突出。SWE-bench Pro 得分 63.2%，接近 Opus 4.8 的 69.2%；CursorBench 得分 57%，较前代提升 8 个百分点。开发者实测跨文件配置迁移和 API 中间件任务完美完成，能自主规划、自检代码。
短板：在硬核逻辑推理和考试型任务上极限能力未领先，且 Max 模式下的高延迟与高成本使其在简单推理上得不偿失。Hacker News 用户分析 Anthropic 成本-性能散点图后指出，同等花费下 Opus 4.8 表现更好。

安全对齐过度引发不满

Anthropic 声称为防止滥用，对模型进行了严格的道德审查。在“编写 Firefox 漏洞利用代码”测试中 Sonnet 5 得零分，官方以此作为安全成果宣传。但开发者批评该做法使工具失去实用价值，白帽工程师无法进行网络安全攻防演练。

行业趋势：性价比成为核心关注点

Sonnet 5 的争议反映了大模型行业从单纯比拼能力转向性价比竞争的拐点。国产模型如 DeepSeek 高级推理任务综合成本仅 0.04 美元，而 Sonnet 5 Max 模式需 2.29 美元，价差高达 56 倍。开发者普遍认为，跑分上的微弱差距已无法支撑如此悬殊的定价。

阅读原文详情

事件概述

核心争议：性能与成本的失衡

能力表现：两面性

安全对齐过度引发不满

行业趋势：性价比成为核心关注点

准备好启动您的定制项目了吗？