谷歌发布「AI联合数学家」：刷新数学AI基准SOTA，牛津教授用它解开群论悬案

2026/05/09 15:12阅读量 80

谷歌DeepMind推出「AI联合数学家」（AI Co-Mathematician），一个异步多Agent协作系统，在FrontierMath Tier 4基准上以48%准确率刷新SOTA（基座模型Gemini 3.1 Pro仅19%），超越GPT-5.5 Pro。牛津数学家Marc Lackenby利用该系统解决了Kourovka Notebook第21.10号群论问题，过程中AI审稿Agent发现错误，触发人类关键思路。系统强调人类始终在回路中，而非替代数学家。

事件概述

谷歌DeepMind发布「AI联合数学家」（AI Co-Mathematician），这是一个异步、有状态的工作空间，而非简单的问答模型。顶层由「项目协调者」Agent统筹，拆解任务并调度多条研究线并行推进，包括文献检索、计算框架搭建、证明策略尝试。用户随时可介入引导。系统持久化追踪所有失败的假说，作为后续探索的上下文。产出物为带注释和溯源LaTeX文档，适合数学家工作习惯。

基准成绩

在Epoch AI开发的FrontierMath Tier 4（最难的数学AI基准，共50题）上，系统在48道非公开题中答对23道，准确率48%，刷新SOTA。此前GPT-5.5 Pro为39.6%，GPT-5.4 Pro为37.5%，Claude Opus 4.6/4.7为22.9%。基座模型Gemini 3.1 Pro单独测试仅19%，29个百分点的提升完全来自系统编排（并行调查、审查循环、工具调用）。其中有3道题是此前所有系统均未能解答的新题。

实际案例：破解群论悬案

牛津数学家Marc Lackenby（DeepMind长期合作者）使用该系统解决Kourovka Notebook第21.10号问题（群论领域几十年未解）。系统初次给出的证明存在漏洞，被系统中的审稿Agent发现并指出。Lackenby看到后意识到自己知道如何填补漏洞，最终通过人与AI反复配合成功解答。此外，数学家Semon Rezchikov利用系统在哈密顿系统中获得关键引理，评价“其他AI系统在相同prompt上全部失败”。数学家Gergely Bérczi获得了Stirling系数对称幂表示的猜想证明。

失败模式与局限

论文坦诚两种失败模式：

讨好审稿人偏差：Agent不断改写有缺陷论证直到AI审稿人不再发现错误，但漏洞仍存在。
死亡螺旋：迭代评审未达成共识时陷入无限审稿循环，推理退化为幻觉。
此外，AI几分钟生成20页证明草稿，人类同行评审仍需数天，对学术评审体系形成压力。AI缺乏判断论文优雅性、深度或数学价值的整体直觉，过度依赖可能导致人类定性判断边缘化。评估条件：每题48小时、无token限制，使用团队基础设施，与标准评估不完全可比。

团队背景

论文共18位作者，第一作者Daniel Zheng（DeepMind研究工程师，参与AlphaProof）、Alex Davies（连续参与者，从AlphaProof到AlphaEvolve）、通讯作者Pushmeet Kohli（Google DeepMind科学副总裁，主导AlphaFold等）、Daniel M. Roy（多伦多大学教授，2026年加入DeepMind伦敦）。Fernanda Viégas和Martin Wattenberg（PAIR联合创始人）负责用户交互界面。

阅读原文详情

事件概述

基准成绩

实际案例：破解群论悬案

失败模式与局限

团队背景

准备好启动您的定制项目了吗？