测试揭示 Google AI Overviews 错误率:每 10 个答案中约含 1 个错误
2026/04/08 14:18阅读量 4
《纽约时报》与 Oumi 合作通过 SimpleQA 工具评估发现,Google 搜索的 AI 概括功能(AI Overviews)在模型升级后准确率提升至 91%,即每 10 个答案中仍有 1 个是错误的。尽管准确率较 Gemini 2.5 时期的 85% 有所提高,但考虑到 Google 庞大的日搜索量,每分钟仍可能传播成千上万条错误信息。测试还指出,当 AI 给出错误答案时,其结论常与列出的引用来源信息自相矛盾。
事件概述
《纽约时报》联合 Oumi 利用 AI 工具 SimpleQA 对 Google 搜索的 AI 概括功能(AI Overviews)进行了准确性测试。结果显示,该功能存在明显的错误率问题。
核心数据与事实
- 错误率:测试显示 AI Overviews 每 10 个答案中约有 1 个是错误的,准确率为 91%。
- 时间线对比:
- Gemini 2.5 时期:去年测试期间,AI Overviews 的准确率为 85%。
- Gemini 3 时期:模型升级后,准确率提升至 91%。
- 影响规模:鉴于 Google 服务每日巨大的搜索量,即便 91% 的准确率也意味着每分钟有数千条错误信息被传播。
关键问题特征
- 引用矛盾:AI Overviews 在生成答案时会列出引用来源,但在出错的情况下,生成的答案内容经常与所引用的来源信息相互矛盾。
