WBench 基准测试：从月球漫步到赛博都市，揭示世界模型能力边界

2026/06/12 16:26阅读量 2

WBench 基准测试通过模拟月球漫步与赛博都市等场景，系统评估了世界模型在复杂环境中的表现，测试结果指明了当前模型在物理模拟、环境交互等方面的能力上限与局限。

基于公开标题信息，WBench 是一项专门用于测试世界模型能力的基准。其测试场景涵盖“月球漫步”与“赛博都市”两类典型环境，分别考验模型对物理规律（如低重力运动）和复杂城市动态交互的模拟精度。该测试旨在系统测量世界模型在时空推理、因果推断及长期一致性上的边界，为后续模型优化提供量化参考。具体评测方法与详细结果尚未在正文中披露。