AI东大京大考试碾压人类状元，世界史论述题得分率仅25%暴露短板

2026/05/04 08:10阅读量 2

OpenAI最新模型ChatGPT 5.2 Thinking在日本东京大学和京都大学入学考试闭卷盲测中，总分远超人类最高分，数学满分；但世界史论述题得分率仅25%。暴露出AI在长文本结构化组织和宏大叙事方面的根本缺陷，提示人类考生应转向宏观架构、高感触等AI不擅长的领域。

事件概述

在日本最难考的顶尖学府——东京大学和京都大学的入学考试闭卷盲测中，OpenAI最新模型ChatGPT 5.2 Thinking取得突破性成绩。测试全程物理断网，AI仅凭预训练权重作答。东大理科三类（医学部）满分550分，AI获得503分，而今年人类最高分仅453分，高出50分。其中数学满分，英语得分率90%。京都大学医学部考试中，AI得1176分，人类状元1098分。相比之下，2024年的GPT-4未通过所有科目，2025年的o1模型首次达到录取线，2026年ChatGPT 5.2已最高分通过。

核心短板：世界史论述题

成绩单中，世界史论述题满分60分，AI仅获15分，得分率25%。阅卷方河合塾及技术社区专家指出，AI严重缺乏结构化组织能力（Structural organization）。世界史论述题需将历史碎片串联，理清政治经济因果，写出逻辑严密的宏大叙事文章。大模型在生成超长文本时，容易偏离主题，出现“结构性断裂”，处理复杂卷宗时可能遭遇“长期记忆坍缩”导致逻辑重置。其输出单句辞藻华丽但整体缺乏连贯性和人类统领全局的“世界观”。

对人类的启示

日本人工智能学会会长Satoshi Kurihara教授指出，人类不应在同一条赛道上与AI直接竞争。准大学生应调整能力培养方向：

减少对规则内机械做题的依赖：微积分、法条背诵无法与廉价的API调用竞争，靠刷题和记忆换取高薪的路线正在贬值。
转向“宏观架构能力”培养：AI无法统筹世界史大题，未来高薪岗位需要懂行的“AI项目经理”——提出本质问题、拆解任务、整合AI碎片为系统。
在复杂现实场景中历练：AI偏好结构化数据，而真实世界充满混沌、情绪和谎言。商务谈判、冲突调解、压力决策等需要同理心、信任和道德抉择的“高感触（High-touch）”领域，是AI目前无法有效介入的。

阅读原文详情

事件概述

核心短板：世界史论述题

对人类的启示

准备好启动您的定制项目了吗？