8款AI押高考数学卷,最高命中率不足两成

2026/06/13 11:32阅读量 14

硅星人评测8款主流AI押2026北京高考数学卷,结果显示所有AI知识点命中率均未超过20%,模拟卷整体偏简单。测试还暴露了AI在诚实度、创造力方面的显著差异:Genspark和Kimi命中率并列第一,但Kimi亮点分低;GLM垫底且大题题号错位;匿名盲评未出现普遍自我偏爱;Kimi对残缺PDF诚实说明,Gemini依赖训练记忆自由发挥。

测试背景与方法

硅星人AI前沿团队将同一份Prompt发给8款主流AI Agent(ChatGPT、Claude、Gemini、Genspark、GLM、Kimi、MiniMax、Manus),要求它们分析2021-2025年北京高考数学真题,预测2026年命题方向并出一套完整的150分模拟卷。考后由资深高三数学老师逐题核对知识点命中率,并对出卷质量进行主观评分。测试同时设计了匿名盲评和残缺PDF处理环节,以评估AI的自我认知与诚实度。

命中率与亮点分结果

  • 知识点命中率(共21题,按命中的知识点数计):所有AI命中占比均不超过20%。Genspark和Kimi并列最高(9题),Manus和GLM垫底(4题)。固定送分考点(如三角、立几)各家均能押中,差距主要来自中间十几道浮动小题。真题T17、T18题号意外对调,所有AI均未预测到,集体失分。压轴题(T21)方向:Claude、Gemini、Genspark、Manus押对组合方向,其余猜错。GLM连压轴该出新定义都没做到,放了普通导数题。
  • 亮点分(主观评分):Genspark和Gemini并列第一,GLM垫底。Kimi命中率第一但亮点分仅60,说明“押得准”与“出得好”并非一回事。老师评价:所有AI出卷整体难度低于高二下学期,存在“只会改数字拙劣模仿、生成不了新题型、无法完成知识点组合创新”的问题,尤其是新定义压轴题是AI集体盲区。

匿名盲评:AI并未自我偏爱

将8套卷匿名打乱后发回给各AI,以教研员身份盲评。仅Genspark将自己排第一(其卷子本身即为公认冠军),GLM将自己排垫底,其余AI也未自抬身价。排除Genspark后,平均自评名次低于随机期望,说明多数AI能准确识别自身缺陷。唯一离群点:ChatGPT将公认冠军卷压到第六,与其他AI审美不一致。

残缺PDF测试:诚实度差异

输入PDF中2021、2024年真题为扫描图片无法直接提取文本,意外测试了AI对残缺资料的处理能力,结果分为三档:

  • 诚实档:Kimi主动说明仅读取到3年真题,基于有限信息分析不编造。
  • 中间档:GLM、Manus、MiniMax通过其他方式(图像识别、联网检索)补全了信息,但未主动说明情况。
  • 隐患档:Gemini未读取测试材料,依靠训练记忆完成分析,存在自由发挥隐患。

各模型过程表现特点

  • ChatGPT:最省心,直接输出排版好的PDF,预测“教科书”但偏常规,互评中离群。
  • Claude:最较真,为渲染公式自行设计流程,盲评中逐题验算挑错。
  • Gemini:最爱塞科技场景(算力、神经网络),PDF环节未真读,靠记忆答题,且有公式渲染错误。
  • Genspark:全场冠军,全卷零差错,情境设计贴近真实(电池衰减、自动驾驶),主动说明PDF不全并请求联网,但分值判断疑似脑补。
  • GLM:版式像真卷但里子全是硬伤(带参考公式、考等差数列、抛物线),AI及老师均将其排垫底。
  • Kimi:诚实但缺乏主动性,仅基于三年数据,唯一将T16/T17押反。
  • MiniMax:模板最规整但出题偏简单,中途一度写成上海卷并挂自家产品名。
  • Manus:风格平稳,解答题被评“相对最有水平”。

总结:形似而神不似

8家几乎都能模仿北京卷的骨架(题型、分值结构),但造不出其灵魂——每年翻新的新定义压轴题。AI出题普遍偏好塞入AI、算力等科技情境,而真实北京卷五年才出现一次类似情境。老师评价:“我去出肯定比它们好很多倍,但我也绝对会被骂。”高考预测本身就几乎无解,AI的创造力尚远未达标。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。