AI互评高考作文：DeepSeek-V4记叙文得分最高，Hunyuan给出满分

2026/06/11 18:59阅读量 4

作者让GPT-5.5、Fable-5、DeepSeek-V4和Hunyuan 3 Preview分别写2026年北京高考作文，并让它们互相盲评打分。最终DeepSeek-V4的记叙文《含英咀华》获平均分46分（满分50），而三篇议论文平均分仅43-44分，暴露AI议论文套路化问题。不同AI评分标准差异明显，Hunyuan最宽松、Fable-5最严格。

事件概述

2026年高考期间，有作者组织了一场AI写作与互评实验：让GPT-5.5、Claude Fable-5、DeepSeek-V4、Hunyuan 3 Preview四款大模型分别撰写北京高考作文题，随后让它们以盲评方式互相打分。题目二选一，其中三款模型选择了议论文《做规划与下功夫》，DeepSeek-V4选择了记叙文《含英咀华》。

评分结果

DeepSeek-V4 (记叙文)：四位“老师”平均分 46分（满分50），其中Hunyuan给出了满分50分。评语称其细节饱满、意象呼应主题，但部分比喻略显刻意。
GPT-5.5 (议论文)：平均分 43.25分，其自评仅41分，批评自己“论据常见、语言套话”。
Fable-5 (议论文)：平均分 44分，作为评分者它最严格，平均只给42.25分，反复指出“套话多、缺乏个性”。
Hunyuan 3 Preview (议论文)：平均分 43.25分，但作为评分者它最友善，平均给出48分，给DeepSeek-V4打了满分。

关键分析

记叙文更易出彩：DeepSeek-V4的作文有个人叙事和情感转折，避免了议论文的套路结构。
AI议论文同质化：三篇议论文均引用“凡事预则立”，例证重复（王羲之、袁隆平等），结构如“规划重要→功夫重要→二者统一”，语言存在明显套话。
评分离散度大：同一篇作文不同AI评分可差8分，反映主观标准差异。自检机制虽让AI修正偏好，但无法根除系统性偏见。
Hunyuan最为宽容：对所有作文均给高分，几乎不批评；Fable-5和GPT-5.5则更严苛，尤其反感套话。

值得关注

该实验揭示了当前大模型在开放式写作中的共性弱点：擅长结构完整、逻辑清晰，但缺乏思想深度与个性化表达。议论文“安全”却千篇一律，记叙文虽容易出彩但也存在修辞雕琢的痕迹。AI作为评分者同样存在明显偏好，其“客观性”尚需校准。

阅读原文详情

事件概述

评分结果

关键分析

值得关注

准备好启动您的定制项目了吗？