AI科研能力评估:从知识问答到全流程模拟的基准测试演进

2026/04/25 10:07阅读量 2

为判断AI是否具备开展科学研究的智能,研究者开发了数十项新基准测试,但尚未形成统一标准。当前评估正从侧重琐碎知识的HLE测试,转向包含验证性设计的FrontierScience及模拟真实研究项目的SDE和LABBench2。专家指出单一标准无法覆盖科学复杂性,未来需依赖多元化测试组合来驱动AI在数据绘制、推理分析及全流程工作流上的进步。

事件概述

近年来,人工智能(AI)研究者致力于开发能加速科学进程的工具,如提出新问题、设计实验等。然而,如何测试大语言模型(LLM)是否真正具备开展科学研究的能力仍无定论。过去一年内涌现了数十项面向科学的新基准测试,旨在评估AI的科研潜力,但科学界的复杂性使得评判标准难以统一。

核心信息:主流基准测试及其发现

1. 知识广度测试:HLE(人类终极考试)

  • 背景:2026年1月发表于《Nature》,由非营利组织人工智能安全中心发布。
  • 内容:包含2500道源自“人类知识前沿”的问题,旨在考验仅长期深耕该领域的专家才能回答的多样化数据集。
  • 表现:Google Gemini 3 Deep Think创下48.4%的得分纪录,此前OpenAI o1模型得分为8.3%。
  • 争议:部分科学家质疑其测试的是晦涩乃至琐碎的知识(如蜂鸟籽骨支撑肌腱数量),而非实际的研究能力。

2. 推理与验证测试:FrontierScience

  • 背景:OpenAI于2025年12月发布,包含700道化学、生物与物理题。
  • 设计特点
    • 奥林匹克式问题:基于简短场景、答案明确,用于衡量纯推理努力(GPT-5.2正确率77%)。
    • 开放式研究问题:模拟博士科学家处理复杂问题的场景(如分子修饰途径推理),通过中间推理步骤评分(得分25%)。
  • 意义:关键突破在于可验证性设计,明确了评分规则以公平测试模型能力。

3. 真实场景模拟:SDE(科学发现评估)

  • 背景:由AI for Science公司Deep Principle等同期发布。
  • 内容:基于8项未发表的真实研究项目,要求AI完成1125项多步骤任务(如分子分解),关联43种研究场景。
  • 发现
    • 单题正确率与项目整合能力不总相关,知晓宏观方向比知晓特定性质更重要。
    • 来自OpenAI、Anthropic、xAI等不同供应商的顶尖模型常在同一难点受阻,暗示训练数据相似性可能限制了突破。

4. 全流程工作流测试:LABBench2

  • 背景:FutureHouse推出,旨在测试AI从构想到论文的全流程能力。
  • 内容:采用近1900项任务,评估代理型AI执行文献检索、数据获取与基因序列构建等工作的能力。
  • 瓶颈:多数领先LLM在专利与论文检索方面表现良好,但在跨数据库引用、密集论文中定位并解读图表等复杂任务上仍面临困难。

值得关注:评估体系的未来方向

  • 多元化组合:科学家强调不存在衡量AI“擅长”科学的单一标准。系统绘制数据的能力与分析化学事实知识截然不同,需组合测试不同技能。
  • 驱动创新:基准测试不仅记录现状,更通过设定新目标推动发展。正如OpenAI研究者所言:“衡量潜在能力以推动发展。”
  • 结论:研究界应依赖测试组合,每项测试针对并催化科学工作流不同环节的改进,以应对科学所需的广泛技能。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。