AI科研能力评估:从知识问答到全流程模拟的基准测试演进
2026/04/25 10:07阅读量 2
为判断AI是否具备开展科学研究的智能,研究者开发了数十项新基准测试,但尚未形成统一标准。当前评估正从侧重琐碎知识的HLE测试,转向包含验证性设计的FrontierScience及模拟真实研究项目的SDE和LABBench2。专家指出单一标准无法覆盖科学复杂性,未来需依赖多元化测试组合来驱动AI在数据绘制、推理分析及全流程工作流上的进步。
事件概述
近年来,人工智能(AI)研究者致力于开发能加速科学进程的工具,如提出新问题、设计实验等。然而,如何测试大语言模型(LLM)是否真正具备开展科学研究的能力仍无定论。过去一年内涌现了数十项面向科学的新基准测试,旨在评估AI的科研潜力,但科学界的复杂性使得评判标准难以统一。
核心信息:主流基准测试及其发现
1. 知识广度测试:HLE(人类终极考试)
- 背景:2026年1月发表于《Nature》,由非营利组织人工智能安全中心发布。
- 内容:包含2500道源自“人类知识前沿”的问题,旨在考验仅长期深耕该领域的专家才能回答的多样化数据集。
- 表现:Google Gemini 3 Deep Think创下48.4%的得分纪录,此前OpenAI o1模型得分为8.3%。
- 争议:部分科学家质疑其测试的是晦涩乃至琐碎的知识(如蜂鸟籽骨支撑肌腱数量),而非实际的研究能力。
2. 推理与验证测试:FrontierScience
- 背景:OpenAI于2025年12月发布,包含700道化学、生物与物理题。
- 设计特点:
- 奥林匹克式问题:基于简短场景、答案明确,用于衡量纯推理努力(GPT-5.2正确率77%)。
- 开放式研究问题:模拟博士科学家处理复杂问题的场景(如分子修饰途径推理),通过中间推理步骤评分(得分25%)。
- 意义:关键突破在于可验证性设计,明确了评分规则以公平测试模型能力。
3. 真实场景模拟:SDE(科学发现评估)
- 背景:由AI for Science公司Deep Principle等同期发布。
- 内容:基于8项未发表的真实研究项目,要求AI完成1125项多步骤任务(如分子分解),关联43种研究场景。
- 发现:
- 单题正确率与项目整合能力不总相关,知晓宏观方向比知晓特定性质更重要。
- 来自OpenAI、Anthropic、xAI等不同供应商的顶尖模型常在同一难点受阻,暗示训练数据相似性可能限制了突破。
4. 全流程工作流测试:LABBench2
- 背景:FutureHouse推出,旨在测试AI从构想到论文的全流程能力。
- 内容:采用近1900项任务,评估代理型AI执行文献检索、数据获取与基因序列构建等工作的能力。
- 瓶颈:多数领先LLM在专利与论文检索方面表现良好,但在跨数据库引用、密集论文中定位并解读图表等复杂任务上仍面临困难。
值得关注:评估体系的未来方向
- 多元化组合:科学家强调不存在衡量AI“擅长”科学的单一标准。系统绘制数据的能力与分析化学事实知识截然不同,需组合测试不同技能。
- 驱动创新:基准测试不仅记录现状,更通过设定新目标推动发展。正如OpenAI研究者所言:“衡量潜在能力以推动发展。”
- 结论:研究界应依赖测试组合,每项测试针对并催化科学工作流不同环节的改进,以应对科学所需的广泛技能。
