AI科研能力评估：从知识问答到全流程模拟的基准测试演进

2026/04/25 10:07阅读量 2

为判断AI是否具备开展科学研究的智能，研究者开发了数十项新基准测试，但尚未形成统一标准。当前评估正从侧重琐碎知识的HLE测试，转向包含验证性设计的FrontierScience及模拟真实研究项目的SDE和LABBench2。专家指出单一标准无法覆盖科学复杂性，未来需依赖多元化测试组合来驱动AI在数据绘制、推理分析及全流程工作流上的进步。

事件概述

近年来，人工智能（AI）研究者致力于开发能加速科学进程的工具，如提出新问题、设计实验等。然而，如何测试大语言模型（LLM）是否真正具备开展科学研究的能力仍无定论。过去一年内涌现了数十项面向科学的新基准测试，旨在评估AI的科研潜力，但科学界的复杂性使得评判标准难以统一。

核心信息：主流基准测试及其发现

1. 知识广度测试：HLE（人类终极考试）

背景：2026年1月发表于《Nature》，由非营利组织人工智能安全中心发布。
内容：包含2500道源自“人类知识前沿”的问题，旨在考验仅长期深耕该领域的专家才能回答的多样化数据集。
表现：Google Gemini 3 Deep Think创下48.4%的得分纪录，此前OpenAI o1模型得分为8.3%。
争议：部分科学家质疑其测试的是晦涩乃至琐碎的知识（如蜂鸟籽骨支撑肌腱数量），而非实际的研究能力。

2. 推理与验证测试：FrontierScience

背景：OpenAI于2025年12月发布，包含700道化学、生物与物理题。
设计特点：
- 奥林匹克式问题：基于简短场景、答案明确，用于衡量纯推理努力（GPT-5.2正确率77%）。
- 开放式研究问题：模拟博士科学家处理复杂问题的场景（如分子修饰途径推理），通过中间推理步骤评分（得分25%）。
意义：关键突破在于可验证性设计，明确了评分规则以公平测试模型能力。

3. 真实场景模拟：SDE（科学发现评估）

背景：由AI for Science公司Deep Principle等同期发布。
内容：基于8项未发表的真实研究项目，要求AI完成1125项多步骤任务（如分子分解），关联43种研究场景。
发现：
- 单题正确率与项目整合能力不总相关，知晓宏观方向比知晓特定性质更重要。
- 来自OpenAI、Anthropic、xAI等不同供应商的顶尖模型常在同一难点受阻，暗示训练数据相似性可能限制了突破。

4. 全流程工作流测试：LABBench2

背景：FutureHouse推出，旨在测试AI从构想到论文的全流程能力。
内容：采用近1900项任务，评估代理型AI执行文献检索、数据获取与基因序列构建等工作的能力。
瓶颈：多数领先LLM在专利与论文检索方面表现良好，但在跨数据库引用、密集论文中定位并解读图表等复杂任务上仍面临困难。

值得关注：评估体系的未来方向

多元化组合：科学家强调不存在衡量AI“擅长”科学的单一标准。系统绘制数据的能力与分析化学事实知识截然不同，需组合测试不同技能。
驱动创新：基准测试不仅记录现状，更通过设定新目标推动发展。正如OpenAI研究者所言：“衡量潜在能力以推动发展。”
结论：研究界应依赖测试组合，每项测试针对并催化科学工作流不同环节的改进，以应对科学所需的广泛技能。

阅读原文详情