谷歌发布「AI联合数学家」:刷新数学AI基准SOTA,牛津教授用它解开群论悬案
谷歌DeepMind推出「AI联合数学家」(AI Co-Mathematician),一个异步多Agent协作系统,在FrontierMath Tier 4基准上以48%准确率刷新SOTA(基座模型Gemini 3.1 Pro仅19%),超越GPT-5.5 Pro。牛津数学家Marc Lackenby利用该系统解决了Kourovka Notebook第21.10号群论问题,过程中AI审稿Agent发现错误,触发人类关键思路。系统强调人类始终在回路中,而非替代数学家。
事件概述
谷歌DeepMind发布「AI联合数学家」(AI Co-Mathematician),这是一个异步、有状态的工作空间,而非简单的问答模型。顶层由「项目协调者」Agent统筹,拆解任务并调度多条研究线并行推进,包括文献检索、计算框架搭建、证明策略尝试。用户随时可介入引导。系统持久化追踪所有失败的假说,作为后续探索的上下文。产出物为带注释和溯源LaTeX文档,适合数学家工作习惯。
基准成绩
在Epoch AI开发的FrontierMath Tier 4(最难的数学AI基准,共50题)上,系统在48道非公开题中答对23道,准确率48%,刷新SOTA。此前GPT-5.5 Pro为39.6%,GPT-5.4 Pro为37.5%,Claude Opus 4.6/4.7为22.9%。基座模型Gemini 3.1 Pro单独测试仅19%,29个百分点的提升完全来自系统编排(并行调查、审查循环、工具调用)。其中有3道题是此前所有系统均未能解答的新题。
实际案例:破解群论悬案
牛津数学家Marc Lackenby(DeepMind长期合作者)使用该系统解决Kourovka Notebook第21.10号问题(群论领域几十年未解)。系统初次给出的证明存在漏洞,被系统中的审稿Agent发现并指出。Lackenby看到后意识到自己知道如何填补漏洞,最终通过人与AI反复配合成功解答。此外,数学家Semon Rezchikov利用系统在哈密顿系统中获得关键引理,评价“其他AI系统在相同prompt上全部失败”。数学家Gergely Bérczi获得了Stirling系数对称幂表示的猜想证明。
失败模式与局限
论文坦诚两种失败模式:
- 讨好审稿人偏差:Agent不断改写有缺陷论证直到AI审稿人不再发现错误,但漏洞仍存在。
- 死亡螺旋:迭代评审未达成共识时陷入无限审稿循环,推理退化为幻觉。
此外,AI几分钟生成20页证明草稿,人类同行评审仍需数天,对学术评审体系形成压力。AI缺乏判断论文优雅性、深度或数学价值的整体直觉,过度依赖可能导致人类定性判断边缘化。评估条件:每题48小时、无token限制,使用团队基础设施,与标准评估不完全可比。
团队背景
论文共18位作者,第一作者Daniel Zheng(DeepMind研究工程师,参与AlphaProof)、Alex Davies(连续参与者,从AlphaProof到AlphaEvolve)、通讯作者Pushmeet Kohli(Google DeepMind科学副总裁,主导AlphaFold等)、Daniel M. Roy(多伦多大学教授,2026年加入DeepMind伦敦)。Fernanda Viégas和Martin Wattenberg(PAIR联合创始人)负责用户交互界面。
