AI东大京大考试碾压人类状元,世界史论述题得分率仅25%暴露短板
2026/05/04 08:10阅读量 2
OpenAI最新模型ChatGPT 5.2 Thinking在日本东京大学和京都大学入学考试闭卷盲测中,总分远超人类最高分,数学满分;但世界史论述题得分率仅25%。暴露出AI在长文本结构化组织和宏大叙事方面的根本缺陷,提示人类考生应转向宏观架构、高感触等AI不擅长的领域。
事件概述
在日本最难考的顶尖学府——东京大学和京都大学的入学考试闭卷盲测中,OpenAI最新模型ChatGPT 5.2 Thinking取得突破性成绩。测试全程物理断网,AI仅凭预训练权重作答。东大理科三类(医学部)满分550分,AI获得503分,而今年人类最高分仅453分,高出50分。其中数学满分,英语得分率90%。京都大学医学部考试中,AI得1176分,人类状元1098分。相比之下,2024年的GPT-4未通过所有科目,2025年的o1模型首次达到录取线,2026年ChatGPT 5.2已最高分通过。
核心短板:世界史论述题
成绩单中,世界史论述题满分60分,AI仅获15分,得分率25%。阅卷方河合塾及技术社区专家指出,AI严重缺乏结构化组织能力(Structural organization)。世界史论述题需将历史碎片串联,理清政治经济因果,写出逻辑严密的宏大叙事文章。大模型在生成超长文本时,容易偏离主题,出现“结构性断裂”,处理复杂卷宗时可能遭遇“长期记忆坍缩”导致逻辑重置。其输出单句辞藻华丽但整体缺乏连贯性和人类统领全局的“世界观”。
对人类的启示
日本人工智能学会会长Satoshi Kurihara教授指出,人类不应在同一条赛道上与AI直接竞争。准大学生应调整能力培养方向:
- 减少对规则内机械做题的依赖:微积分、法条背诵无法与廉价的API调用竞争,靠刷题和记忆换取高薪的路线正在贬值。
- 转向“宏观架构能力”培养:AI无法统筹世界史大题,未来高薪岗位需要懂行的“AI项目经理”——提出本质问题、拆解任务、整合AI碎片为系统。
- 在复杂现实场景中历练:AI偏好结构化数据,而真实世界充满混沌、情绪和谎言。商务谈判、冲突调解、压力决策等需要同理心、信任和道德抉择的“高感触(High-touch)”领域,是AI目前无法有效介入的。
