下一代模型需要下一代Benchmark:UXBench、MemLens、RoadmapBench等五个新评测项目解析

2026/06/21 11:35阅读量 2

本文梳理了5个面向下一代大模型的新型Benchmark,核心转向评测模型在真实世界解决实际问题的能力,包括用户体验、多模态长期记忆、长周期软件工程、Agent规划能力和本地化网页浏览,揭示了当前模型的短板及未来优化方向。

事件概述

随着大模型能力持续提升,传统的GLUE、MMLU、HumanEval等Benchmark已难以反映模型在真实场景中的表现。近期学界与工业界推出多个新型评测基准,从“会答题”转向“能在真实世界里稳定做事”。以下为5个值得关注的Benchmark。

核心信息

1. UXBench:用户体验评测

  • 发布方:腾讯混元、元宝团队联合香港理工大学
  • 数据来源:基于7万+真实中文AI交互日志,构建7400个测试样本,覆盖8个场景83个领域
  • 任务类型:预测用户反馈(UX Judge)、生成满意回复(UX Eval)、失败恢复(UX Recovery)
  • 关键结果:海外头部模型得分普遍偏高;Hunyuan3三项任务得分分别为64.3%、48.8%、7.6%
  • 价值:首次将抽象的用户体验转化为可训练、可评估的能力,适合用于产品内部迭代的定制化评测

2. MemLens:多模态长期记忆评测

  • 发布方:香港科技大学宋阳秋团队,联合香港中文大学、英伟达、丘脑智能
  • 数据集:789道测试题,覆盖5种记忆能力(信息抽取、跨会话推理、时间推理、知识更新、拒答),在32K/64K/128K/256K四档上下文长度下统一评测
  • 关键发现:长上下文LVLM短对话准确率高但随长度退化;记忆增强Agent性能稳定但压缩存储会丢失视觉细节(如登机牌日期、票据金额)。单一路线无法满足需求,必须采用混合架构
  • 价值:填补多模态长期记忆系统评估空白,数据与代码已开源

3. RoadmapBench:长周期软件工程评测

  • 发布方:UniPat AI联合北京大学,参与者包括复旦大学、香港大学、清华大学等
  • 任务:115个来自17个真实开源仓库的版本升级任务,覆盖5种编程语言;单任务中位数修改3700行代码、跨51个文件
  • 关键结果:最强模型Claude Opus 4.7仅解决39.1%的任务,弱模型仅5.2%,远低于其在SWE-bench Verified上80%+的得分
  • 价值:突破SWE-bench仅测单issue修bug的局限,揭示长周期开发中设计新抽象(平均通过率36%)远比修bug(64%)困难

4. APB:Agent规划能力诊断评测

  • 发布方:上海AI Lab、哈尔滨工业大学、复旦大学等
  • 数据集:4209个多模态案例,覆盖22个领域,将规划能力单独拆分评测,可区分失败源于规划错误还是执行错误
  • 关键结果:GPT-5规划正确率74.5%,Gemini 3 Pro 71.3%,GPT-4o仅19.5%。基于APB修正规划可提升最终执行成绩
  • 价值:不仅给分,还给出失败类型,可反向指导训练数据构建

5. K-BrowseComp:本地化网页浏览评测

  • 发布方:韩国中央大学、KAIST、首尔大学、NAVER Cloud AI、CMU等
  • 数据集:400道扎根韩国语境的深度检索题,其中300道经母语者人工验证
  • 关键结果:前沿全球模型在验证集上仅得30%-45.67%,远低于其在英文BrowseComp的表现;韩国本土模型得分仅0%-10.33%
  • 价值:证明本地化信息处理是独立的核心能力,印证各地区建立本土主权评测的必要性

值得关注

这五个Benchmark代表了评测方向的三个转变:

  • 从“评分”到“诊断”:不再只给总分,而是指出模型在哪些能力环节失败(如APB区分规划与执行错误,MemLens区分写入、检索、推理问题)
  • 从“答题”到“做事”:UXBench关注用户体验,RoadmapBench关注长周期软件工程,K-BrowseComp关注本地化检索
  • 从“通用”到“定制化”:UXBench可基于产品自身数据生成样本,适合用于自家模型的定向优化

对于AI开发者而言,下一代模型需要下一代Benchmark来定义进化方向,而提出好问题的不仅是实验室,也应是使用产品的团队。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。