AI数学解题能力仍不及人类专家:新测试暴露幻觉与引用短板
2026/06/15 17:50阅读量 3
一项名为First Proof的测试向4款AI模型提出10道科研级原创数学难题,由专家评审打分。结果所有AI解题水平均不及顶尖数学家,且频繁出现幻觉,文献引用严重缺失。这是首次同时满足题目前沿、未出现在训练数据、专业评阅三大标准的测试。
事件概述
一项名为 First Proof 的测试评估了 AI 系统解决复杂数学难题的能力。研究人员向 4 款 AI 模型提出 10 道科研级数学问题,随后由相关领域的匿名数学家评审团打分。
核心信息
- 该测试首次同时满足三大核心标准:题目均为前沿科研级数学问题、所有题目从未出现在模型训练数据中、由专业数学家评阅。
- 10 名来自不同数学细分领域的研究人员,每人提供一道本人已解答但尚未公开发表的原创题目。
- 测试结果显示,各大推理模型依然频繁出现幻觉问题,这是大语言模型的通病。
- 所有 AI 作答在文献引用方面“严重缺失”,全程未标注来源。
- 总体结论:AI 模型的解题水平仍不及顶尖数学家。
值得关注
该测试暴露了当前推理模型在需要严谨逻辑和引用支持的高阶数学任务上的根本性缺陷,即便在未接触过的原创题目上,幻觉和引用缺失问题依然突出。
