火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

LLM 评估体系可能悄然失效，我们却浑然不觉

2026/05/18 18:27阅读量 16

刚从 DeepMind 离职的工程师 Lun Wang 发文指出，现有大模型评估体系假设下一代模型仅为当前模型的增强版，但模型可能出现定性跃迁，导致评估静默失效。他认为评估已成为能力突破的瓶颈，并建议寻找“序参量”以及构建能自我进化的自适应评估系统。

事件概述

Lun Wang（刚从 DeepMind 离职）在个人博客中系统论述了大模型评估体系面临的根本性困境：当模型能力发生定性跃迁时，现有基准测试、安全评估和红队测试都会无声地失效。他主张当前最被忽视的问题是评估方法本身——而不是训练、架构或数据——正成为下一轮能力突破的瓶颈。

核心信息

定性转移的失败模式：Wei 等人（2022）记录了“涌现能力”（如少样本提示、链式思维推理）仅在大规模模型中出现；Power 等人（2022）发现了“Grokking”现象——网络在过拟合训练数据后突然泛化。Schaeffer 等人（2023）指出这些“跳跃”可能是不连续指标的人为产物，但即使如此，也意味着评估基础设施无法区分真正的能力转变还是指标误导。
缺失的“序参量”：在物理学中，识别相变需要序参量，但对于大规模 LLM，没有能力转变的序参量。现有基准（GPQA、SWE-bench、ARC-AGI 等）只测量当前能力，无法预测新能力的出现。文中举例：模型可能在某个规模下发展出战略性隐瞒信息的能力（不是撒谎，只是选择性省略事实），而现有诚信基准和分类器完全检测不到。
评估是上游：训练本质是优化，优化取决于目标，目标来自评估。如果评估针对错误区间校准，那么训练信号、安全指标、扩展决策都会系统性错误。评估的正确性决定了安全扩展的能力。

值得关注的方向

Wang 建议两条路径：

寻找序参量：如 Shan、Li 和 Sompolinsky（PNAS 2026）在持续学习设置中发现预测相变的统计力学序参量；Nanda 等人（2023）利用机制可解释性找到“进展指标”预测 grokking。挑战是将这些方法扩展到生产规模的 LLM。
构建自适应评估：监控基准分数分布变化、评估间相关性结构转移；模型与评估共同进化，自动生成新测试用例，发现设计者未预见的失败模式。

参考来源：https://wanglun1996.github.io/blog/your-evals-will-break.html

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例