测试揭示 Google AI Overviews 错误率:每 10 个答案中约含 1 个错误

2026/04/08 14:18阅读量 4

《纽约时报》与 Oumi 合作通过 SimpleQA 工具评估发现,Google 搜索的 AI 概括功能(AI Overviews)在模型升级后准确率提升至 91%,即每 10 个答案中仍有 1 个是错误的。尽管准确率较 Gemini 2.5 时期的 85% 有所提高,但考虑到 Google 庞大的日搜索量,每分钟仍可能传播成千上万条错误信息。测试还指出,当 AI 给出错误答案时,其结论常与列出的引用来源信息自相矛盾。

事件概述

《纽约时报》联合 Oumi 利用 AI 工具 SimpleQA 对 Google 搜索的 AI 概括功能(AI Overviews)进行了准确性测试。结果显示,该功能存在明显的错误率问题。

核心数据与事实

  • 错误率:测试显示 AI Overviews 每 10 个答案中约有 1 个是错误的,准确率为 91%。
  • 时间线对比
    • Gemini 2.5 时期:去年测试期间,AI Overviews 的准确率为 85%。
    • Gemini 3 时期:模型升级后,准确率提升至 91%。
  • 影响规模:鉴于 Google 服务每日巨大的搜索量,即便 91% 的准确率也意味着每分钟有数千条错误信息被传播。

关键问题特征

  • 引用矛盾:AI Overviews 在生成答案时会列出引用来源,但在出错的情况下,生成的答案内容经常与所引用的来源信息相互矛盾。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。