AI互评高考作文:DeepSeek-V4记叙文得分最高,Hunyuan给出满分

2026/06/11 18:59阅读量 4

作者让GPT-5.5、Fable-5、DeepSeek-V4和Hunyuan 3 Preview分别写2026年北京高考作文,并让它们互相盲评打分。最终DeepSeek-V4的记叙文《含英咀华》获平均分46分(满分50),而三篇议论文平均分仅43-44分,暴露AI议论文套路化问题。不同AI评分标准差异明显,Hunyuan最宽松、Fable-5最严格。

事件概述

2026年高考期间,有作者组织了一场AI写作与互评实验:让GPT-5.5、Claude Fable-5、DeepSeek-V4、Hunyuan 3 Preview四款大模型分别撰写北京高考作文题,随后让它们以盲评方式互相打分。题目二选一,其中三款模型选择了议论文《做规划与下功夫》,DeepSeek-V4选择了记叙文《含英咀华》。

评分结果

  • DeepSeek-V4 (记叙文):四位“老师”平均分 46分(满分50),其中Hunyuan给出了满分50分。评语称其细节饱满、意象呼应主题,但部分比喻略显刻意。
  • GPT-5.5 (议论文):平均分 43.25分,其自评仅41分,批评自己“论据常见、语言套话”。
  • Fable-5 (议论文):平均分 44分,作为评分者它最严格,平均只给42.25分,反复指出“套话多、缺乏个性”。
  • Hunyuan 3 Preview (议论文):平均分 43.25分,但作为评分者它最友善,平均给出48分,给DeepSeek-V4打了满分。

关键分析

  • 记叙文更易出彩:DeepSeek-V4的作文有个人叙事和情感转折,避免了议论文的套路结构。
  • AI议论文同质化:三篇议论文均引用“凡事预则立”,例证重复(王羲之、袁隆平等),结构如“规划重要→功夫重要→二者统一”,语言存在明显套话。
  • 评分离散度大:同一篇作文不同AI评分可差8分,反映主观标准差异。自检机制虽让AI修正偏好,但无法根除系统性偏见。
  • Hunyuan最为宽容:对所有作文均给高分,几乎不批评;Fable-5和GPT-5.5则更严苛,尤其反感套话。

值得关注

该实验揭示了当前大模型在开放式写作中的共性弱点:擅长结构完整、逻辑清晰,但缺乏思想深度与个性化表达。议论文“安全”却千篇一律,记叙文虽容易出彩但也存在修辞雕琢的痕迹。AI作为评分者同样存在明显偏好,其“客观性”尚需校准。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。