AI 科研能力真相：能解奥赛题，却难做从0到1的创新

2026/03/21 21:38阅读量 27

现有基准测试揭示，尽管 AI 在记忆冷僻知识和解答有标准答案的奥赛题上表现卓越，但在面对无标准答案的开放研究、完整项目执行及信息整合等核心科研环节时能力断崖式下跌。四套主流测试（HLE、FrontierScience、SDE、LABBench2）共同表明，AI 擅长模仿已知和零散任务，却无法像人类一样探索未知或实现从0到1的创新。这重新定义了科研能力的本质：提出新问题、在不确定性中推进项目以及跨领域整合信息的能力，才是当前 AI 难以替代的核心价值。

事件概述

科学界正通过多套基准测试（Benchmark）评估人工智能是否具备真正的科研能力。结果显示，AI 在知识记忆和标准化解题上已超越人类，但在处理开放性问题、串联完整科研流程及进行原创性探索方面存在显著短板。这些测试不仅揭示了当前 AI 的技术边界，也重新定义了“科研能力”的核心内涵。

核心信息与测试数据

目前最具代表性的四套基准测试及其结论如下：

1. HLE（人类终极考试）：侧重记忆而非创新

机制：包含 2500 道来自前沿领域的偏门问题，旨在考察专家级知识储备。
数据：2026 年 3 月，Google Gemini3DeepThink 正确率刷新至 48.4%。
结论：该测试主要考察对冷僻知识点的记忆，无法反映 AI 提出新问题或进行科研创新的真实能力。

2. FrontierScience：推理与开放的鸿沟

机制：由 OpenAI 推出，含 700 道题，分为“奥赛题”（有标准答案）和“博士级开放研究题”（无标准答案）。
数据：GPT-5.2 在奥赛题上正确率达 77%，但在开放研究题上仅得 25 分。
结论：AI 极度依赖标准答案，一旦进入无人区式的开放研究场景，能力出现断崖式下跌。

3. SDE（科学发现评估）：全流程执行的瓶颈

机制：基于 8 个真实未发表的科研项目，拆解为 1125 个连续任务，要求 AI 完成从假设到验证的完整闭环。
现象：顶尖模型（包括 OpenAI、Anthropic、xAI、DeepSeek 等）在零散难题上表现尚可，但在需要串联完整科研流程的创新任务上集体卡壳。
原因：训练数据均来自已发表文献，导致 AI 面对真正未知的创新问题时缺乏方向感。

4. LABBench2：信息整合能力的缺失

机制：覆盖近 1900 个任务，测试从想法产生到论文发表的全流程，包括文献检索、多数据库交叉比对及图表解读。
结果：AI 在简单信息检索上表现良好，但在涉及复杂交叉比对和深度解读论文图表时频繁出错。
结论：信息检索与整合能力的不足，阻碍了 AI 独立承担完整的科研任务。

关键启示

科研的本质是探索未知：现有的 AI 模型擅长“解答已知”，即利用已有知识库进行优化和模仿；而真正的科研在于“提出未知”，即在不确定性中寻找新路径。
不可替代的核心能力：对于科研人员而言，死记硬背、套用模板和应付标准化考试最易被 AI 替代。相反，提出问题的能力、在试错中迭代的耐心、跨学科的信息整合能力以及从 0 到 1 的创新思维，构成了人类科研的核心价值。
未来方向：当前的基准测试如同当年的 ImageNet 挑战赛，正在为 AI for Science 指明改进方向——从单纯的知识检索转向复杂的逻辑推理与全流程自主执行。

阅读原文详情