WBench 基准测试:从月球漫步到赛博都市,揭示世界模型能力边界
2026/06/12 16:26阅读量 2
WBench 基准测试通过模拟月球漫步与赛博都市等场景,系统评估了世界模型在复杂环境中的表现,测试结果指明了当前模型在物理模拟、环境交互等方面的能力上限与局限。
基于公开标题信息,WBench 是一项专门用于测试世界模型能力的基准。其测试场景涵盖“月球漫步”与“赛博都市”两类典型环境,分别考验模型对物理规律(如低重力运动)和复杂城市动态交互的模拟精度。该测试旨在系统测量世界模型在时空推理、因果推断及长期一致性上的边界,为后续模型优化提供量化参考。具体评测方法与详细结果尚未在正文中披露。
