实测对比Opus 4.8、ChatGPT 5.5与Kimi 2.6:Anthropic称新代模型更谨慎,代码漏检率降低约四倍

2026/05/30 09:42阅读量 2

在最新一轮模型实测对比中,Anthropic指出其新一代模型(对应Opus 4.8)在不确定性表达和结论严谨性上有所改进,同时写代码时漏判bug的概率较上一代降低约四倍。

据Anthropic官方披露,新一代模型(对应Opus 4.8)在以下方面取得显著提升:

  • 不确定性标注:模型更主动地标示自身没有把握的内容,避免给出缺乏依据的结论。
  • 代码可靠性:在代码撰写场景下,遗漏Bug的检测概率相比上一代降低约四倍。

该声明来自一场针对Opus 4.8、ChatGPT 5.5和Kimi 2.6的实测对比,但原文仅详细说明了Anthropic一方的改进数据,未提供其他竞品的具体表现细节。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。