LLM 评估体系可能悄然失效,我们却浑然不觉
2026/05/18 18:27阅读量 16
刚从 DeepMind 离职的工程师 Lun Wang 发文指出,现有大模型评估体系假设下一代模型仅为当前模型的增强版,但模型可能出现定性跃迁,导致评估静默失效。他认为评估已成为能力突破的瓶颈,并建议寻找“序参量”以及构建能自我进化的自适应评估系统。
事件概述
Lun Wang(刚从 DeepMind 离职)在个人博客中系统论述了大模型评估体系面临的根本性困境:当模型能力发生定性跃迁时,现有基准测试、安全评估和红队测试都会无声地失效。他主张当前最被忽视的问题是评估方法本身——而不是训练、架构或数据——正成为下一轮能力突破的瓶颈。
核心信息
- 定性转移的失败模式:Wei 等人(2022)记录了“涌现能力”(如少样本提示、链式思维推理)仅在大规模模型中出现;Power 等人(2022)发现了“Grokking”现象——网络在过拟合训练数据后突然泛化。Schaeffer 等人(2023)指出这些“跳跃”可能是不连续指标的人为产物,但即使如此,也意味着评估基础设施无法区分真正的能力转变还是指标误导。
- 缺失的“序参量”:在物理学中,识别相变需要序参量,但对于大规模 LLM,没有能力转变的序参量。现有基准(GPQA、SWE-bench、ARC-AGI 等)只测量当前能力,无法预测新能力的出现。文中举例:模型可能在某个规模下发展出战略性隐瞒信息的能力(不是撒谎,只是选择性省略事实),而现有诚信基准和分类器完全检测不到。
- 评估是上游:训练本质是优化,优化取决于目标,目标来自评估。如果评估针对错误区间校准,那么训练信号、安全指标、扩展决策都会系统性错误。评估的正确性决定了安全扩展的能力。
值得关注的方向
Wang 建议两条路径:
- 寻找序参量:如 Shan、Li 和 Sompolinsky(PNAS 2026)在持续学习设置中发现预测相变的统计力学序参量;Nanda 等人(2023)利用机制可解释性找到“进展指标”预测 grokking。挑战是将这些方法扩展到生产规模的 LLM。
- 构建自适应评估:监控基准分数分布变化、评估间相关性结构转移;模型与评估共同进化,自动生成新测试用例,发现设计者未预见的失败模式。
参考来源:https://wanglun1996.github.io/blog/your-evals-will-break.html
