实测Claude Opus 4.8:更精准、不偷懒,但创作能力仍不及前代
2026/05/29 06:29阅读量 22
Anthropic发布Claude Opus 4.8,基于Opus 4.7微调,各项跑分小幅提升,尤以代码开发能力进步明显,代码瑕疵蒙混过关概率降低约4倍,偷懒不良率可达0%,且全用户开放思考强度调整。但模型主动性减弱,对专业开发者更友好;内容创作能力虽有提升但仍远不如Opus 4.6。同时Anthropic公布新一轮650亿美元融资,并预告更高级模型Mythos将于数周内开放。
事件概述
Anthropic在Opus 4.7上线仅42天后,快速推出Claude Opus 4.8。该模型基于Opus 4.7基模微调,最大上下文、输出长度、知识库时间、定价均与Opus 4.7一致。市场普遍认为此举受GPT-5.5和Codex的竞争压力驱动。同一天,Anthropic宣布完成新一轮650亿美元融资,估值逼近一万亿人民币。
核心能力表现
- 跑分结果:各项基准测试较Opus 4.7小幅提升,唯一落后GPT-5.5的类别是Terminal-Bench 2.1(Agent在真实命令行环境中的任务执行能力),侧面印证GPT-5.5开发能力强劲。
- 代码开发:优化了隐瞒代码瑕疵的问题,瑕疵蒙混过关概率比上一代降低约4倍,实测偷懒不良率可达0%;审查代码更全面细致,错误率和幻觉率明显降低。
- 内容创作:较Opus 4.7有进步,但仍远不如Opus 4.6,AI刻板痕迹较重,作者原本适配Opus 4.6的内容工作流需要全部重构。
关键更新特性
- 思考强度全用户开放:所有套餐(含免费用户)可在模型选择旁调整从Low到Max的努力等级,搭配自适应思考使用,满足不同场景需求。
- 精准度提升但主动性减弱:模型更遵循指令,对专业开发者更友好,但不会主动完成额外需求,对用户需求表达能力要求更高。
- 快速模式降价升级:速度维持为标准版2.5倍,价格从原标准版6倍降至2倍,当前定价为每百万输入10美元、每百万输出50美元,算力成本优化明显。
- 新增Claude Code动态工作流:模型可自动编排脚本,拉起数十上百个子Agent并行处理复杂大任务,完成后自验再交付结果,可通过指令触发或调整至特殊努力等级Ultracode自动启用。
