Claude Sonnet 5 上线一日差评刷屏:性能不敌国产模型,性价比全面翻车

2026/07/02 19:22阅读量 6

Anthropic 发布 Claude Sonnet 5,定位为 Agent 能力最强、价格仅为 Opus 4.8 四折的模型。但上线不到 24 小时,第三方测试显示其在硬核推理题上与国产 MiniMax-M3、Qwen3.7-Plus 极限分数持平,成本却高出 6 倍以上。Max 推理模式导致 Token 膨胀和账单飙升,Uber、微软等企业因成本过高考虑停用。过度安全对齐也引发开发者不满。

事件概述

Anthropic 于 2026 年 7 月 1 日发布 Claude Sonnet 5,官方宣传为“迄今最具 Agent 能力的 Sonnet”,在大量智能体任务上接近旗舰 Opus 4.8,价格仅为 Opus 的四折(输入 2 美元/百万 token,限时优惠)。然而发布仅一天,社区涌现大量差评,核心争议集中在性价比和国产模型对比上。

核心争议:性能与成本的失衡

  • 第三方测评结果:个人维护的 LLM Benchmark Dashboard 在逻辑、数学、编程等高难度推理题上测试,Sonnet 5 极限分数 61.95,与 MiniMax-M3(61.95)和 Qwen3.7-Plus 打平,但测试成本 71.96 元,是 Qwen(11.71 元)和 MiniMax(11.64 元)的 6 倍以上。
  • Max 推理模式问题:该模式旨在深度推理,但实际导致高成本的“过度思考”,调用轮次翻 3 倍,输出 Token 膨胀 40%。完成一个长程智能任务需 2.29 美元,高于 Opus 4.8 的 1.80 美元。Anthropic 还更换了分词器,同样文本 Token 数增加最多 35%,变相涨价。
  • 企业用户反馈:Uber 为 5000 名工程师开通 Claude Code,重度用户月账单达 500–2000 美元,四个月烧光全年 AI 编程预算,CTO 紧急叫停评估财务模型。微软 Windows 与 M365 团队计划 2026 年 6 月停用 Claude Code,迁回 GitHub Copilot 以控制成本。

能力表现:两面性

  • 优势:在多步 Agent 和工程编程上表现突出。SWE-bench Pro 得分 63.2%,接近 Opus 4.8 的 69.2%;CursorBench 得分 57%,较前代提升 8 个百分点。开发者实测跨文件配置迁移和 API 中间件任务完美完成,能自主规划、自检代码。
  • 短板:在硬核逻辑推理和考试型任务上极限能力未领先,且 Max 模式下的高延迟与高成本使其在简单推理上得不偿失。Hacker News 用户分析 Anthropic 成本-性能散点图后指出,同等花费下 Opus 4.8 表现更好。

安全对齐过度引发不满

Anthropic 声称为防止滥用,对模型进行了严格的道德审查。在“编写 Firefox 漏洞利用代码”测试中 Sonnet 5 得零分,官方以此作为安全成果宣传。但开发者批评该做法使工具失去实用价值,白帽工程师无法进行网络安全攻防演练。

行业趋势:性价比成为核心关注点

Sonnet 5 的争议反映了大模型行业从单纯比拼能力转向性价比竞争的拐点。国产模型如 DeepSeek 高级推理任务综合成本仅 0.04 美元,而 Sonnet 5 Max 模式需 2.29 美元,价差高达 56 倍。开发者普遍认为,跑分上的微弱差距已无法支撑如此悬殊的定价。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。