8款AI押高考数学卷，最高命中率不足两成

2026/06/13 11:32阅读量 14

硅星人评测8款主流AI押2026北京高考数学卷，结果显示所有AI知识点命中率均未超过20%，模拟卷整体偏简单。测试还暴露了AI在诚实度、创造力方面的显著差异：Genspark和Kimi命中率并列第一，但Kimi亮点分低；GLM垫底且大题题号错位；匿名盲评未出现普遍自我偏爱；Kimi对残缺PDF诚实说明，Gemini依赖训练记忆自由发挥。

测试背景与方法

硅星人AI前沿团队将同一份Prompt发给8款主流AI Agent（ChatGPT、Claude、Gemini、Genspark、GLM、Kimi、MiniMax、Manus），要求它们分析2021-2025年北京高考数学真题，预测2026年命题方向并出一套完整的150分模拟卷。考后由资深高三数学老师逐题核对知识点命中率，并对出卷质量进行主观评分。测试同时设计了匿名盲评和残缺PDF处理环节，以评估AI的自我认知与诚实度。

命中率与亮点分结果

知识点命中率（共21题，按命中的知识点数计）：所有AI命中占比均不超过20%。Genspark和Kimi并列最高（9题），Manus和GLM垫底（4题）。固定送分考点（如三角、立几）各家均能押中，差距主要来自中间十几道浮动小题。真题T17、T18题号意外对调，所有AI均未预测到，集体失分。压轴题（T21）方向：Claude、Gemini、Genspark、Manus押对组合方向，其余猜错。GLM连压轴该出新定义都没做到，放了普通导数题。
亮点分（主观评分）：Genspark和Gemini并列第一，GLM垫底。Kimi命中率第一但亮点分仅60，说明“押得准”与“出得好”并非一回事。老师评价：所有AI出卷整体难度低于高二下学期，存在“只会改数字拙劣模仿、生成不了新题型、无法完成知识点组合创新”的问题，尤其是新定义压轴题是AI集体盲区。

匿名盲评：AI并未自我偏爱

将8套卷匿名打乱后发回给各AI，以教研员身份盲评。仅Genspark将自己排第一（其卷子本身即为公认冠军），GLM将自己排垫底，其余AI也未自抬身价。排除Genspark后，平均自评名次低于随机期望，说明多数AI能准确识别自身缺陷。唯一离群点：ChatGPT将公认冠军卷压到第六，与其他AI审美不一致。

残缺PDF测试：诚实度差异

输入PDF中2021、2024年真题为扫描图片无法直接提取文本，意外测试了AI对残缺资料的处理能力，结果分为三档：

诚实档：Kimi主动说明仅读取到3年真题，基于有限信息分析不编造。
中间档：GLM、Manus、MiniMax通过其他方式（图像识别、联网检索）补全了信息，但未主动说明情况。
隐患档：Gemini未读取测试材料，依靠训练记忆完成分析，存在自由发挥隐患。

各模型过程表现特点

ChatGPT：最省心，直接输出排版好的PDF，预测“教科书”但偏常规，互评中离群。
Claude：最较真，为渲染公式自行设计流程，盲评中逐题验算挑错。
Gemini：最爱塞科技场景（算力、神经网络），PDF环节未真读，靠记忆答题，且有公式渲染错误。
Genspark：全场冠军，全卷零差错，情境设计贴近真实（电池衰减、自动驾驶），主动说明PDF不全并请求联网，但分值判断疑似脑补。
GLM：版式像真卷但里子全是硬伤（带参考公式、考等差数列、抛物线），AI及老师均将其排垫底。
Kimi：诚实但缺乏主动性，仅基于三年数据，唯一将T16/T17押反。
MiniMax：模板最规整但出题偏简单，中途一度写成上海卷并挂自家产品名。
Manus：风格平稳，解答题被评“相对最有水平”。

总结：形似而神不似

8家几乎都能模仿北京卷的骨架（题型、分值结构），但造不出其灵魂——每年翻新的新定义压轴题。AI出题普遍偏好塞入AI、算力等科技情境，而真实北京卷五年才出现一次类似情境。老师评价：“我去出肯定比它们好很多倍，但我也绝对会被骂。”高考预测本身就几乎无解，AI的创造力尚远未达标。

阅读原文详情