AI 科研能力真相:能解奥赛题,却难做从0到1的创新

现有基准测试揭示,尽管 AI 在记忆冷僻知识和解答有标准答案的奥赛题上表现卓越,但在面对无标准答案的开放研究、完整项目执行及信息整合等核心科研环节时能力断崖式下跌。四套主流测试(HLE、FrontierScience、SDE、LABBench2)共同表明,AI 擅长模仿已知和零散任务,却无法像人类一样探索未知或实现从0到1的创新。这重新定义了科研能力的本质:提出新问题、在不确定性中推进项目以及跨领域整合信息的能力,才是当前 AI 难以替代的核心价值。

事件概述

科学界正通过多套基准测试(Benchmark)评估人工智能是否具备真正的科研能力。结果显示,AI 在知识记忆和标准化解题上已超越人类,但在处理开放性问题、串联完整科研流程及进行原创性探索方面存在显著短板。这些测试不仅揭示了当前 AI 的技术边界,也重新定义了“科研能力”的核心内涵。

核心信息与测试数据

目前最具代表性的四套基准测试及其结论如下:

1. HLE(人类终极考试):侧重记忆而非创新

  • 机制:包含 2500 道来自前沿领域的偏门问题,旨在考察专家级知识储备。
  • 数据:2026 年 3 月,Google Gemini3DeepThink 正确率刷新至 48.4%。
  • 结论:该测试主要考察对冷僻知识点的记忆,无法反映 AI 提出新问题或进行科研创新的真实能力。

2. FrontierScience:推理与开放的鸿沟

  • 机制:由 OpenAI 推出,含 700 道题,分为“奥赛题”(有标准答案)和“博士级开放研究题”(无标准答案)。
  • 数据:GPT-5.2 在奥赛题上正确率达 77%,但在开放研究题上仅得 25 分。
  • 结论:AI 极度依赖标准答案,一旦进入无人区式的开放研究场景,能力出现断崖式下跌。

3. SDE(科学发现评估):全流程执行的瓶颈

  • 机制:基于 8 个真实未发表的科研项目,拆解为 1125 个连续任务,要求 AI 完成从假设到验证的完整闭环。
  • 现象:顶尖模型(包括 OpenAI、Anthropic、xAI、DeepSeek 等)在零散难题上表现尚可,但在需要串联完整科研流程的创新任务上集体卡壳。
  • 原因:训练数据均来自已发表文献,导致 AI 面对真正未知的创新问题时缺乏方向感。

4. LABBench2:信息整合能力的缺失

  • 机制:覆盖近 1900 个任务,测试从想法产生到论文发表的全流程,包括文献检索、多数据库交叉比对及图表解读。
  • 结果:AI 在简单信息检索上表现良好,但在涉及复杂交叉比对和深度解读论文图表时频繁出错。
  • 结论:信息检索与整合能力的不足,阻碍了 AI 独立承担完整的科研任务。

关键启示

  • 科研的本质是探索未知:现有的 AI 模型擅长“解答已知”,即利用已有知识库进行优化和模仿;而真正的科研在于“提出未知”,即在不确定性中寻找新路径。
  • 不可替代的核心能力:对于科研人员而言,死记硬背、套用模板和应付标准化考试最易被 AI 替代。相反,提出问题的能力、在试错中迭代的耐心、跨学科的信息整合能力以及从 0 到 1 的创新思维,构成了人类科研的核心价值。
  • 未来方向:当前的基准测试如同当年的 ImageNet 挑战赛,正在为 AI for Science 指明改进方向——从单纯的知识检索转向复杂的逻辑推理与全流程自主执行。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。