李飞飞团队发布空间智能新基准ESI-Bench：AI看图强但行动弱，主动探索才是关键瓶颈

2026/05/22 16:25阅读量 7

李飞飞团队发布ESI-Bench，专为评测具身空间智能设计，强调感知-行动回路。测试发现，当前最强多模态大模型在主动探索场景下表现远逊于人类，核心瓶颈是行动策略而非感知能力。3D重建若质量不佳反而有害，模型还存在元认知缺陷，即不自知信息不足。

事件概述

斯坦福李飞飞团队发布ESI-Bench（Embodied Spatial Intelligence Benchmark），一个专门评测具身空间智能的新基准。该基准要求智能体像人类一样主动行动获取信息，而非被动接收最优视角图片。论文核心发现：当前AI的感知能力已接近人类，但主动探索和行动策略严重不足，成为空间智能的真正瓶颈。

ESI-Bench核心设计

闭合感知-行动回路：与现有基准不同，ESI-Bench强制智能体必须通过主动行动（如绕到物体背后、拉开抽屉、拿起来观察）来获取足够信息，才能回答空间问题。
基于人类空间认知四大维度：物体表征、布局与几何、数量表征、目标导向行动（源自Spelke核心知识系统）。
任务规模：10个任务类别，29个子类别，3081个实例，在OmniGibson仿真平台上构建，场景来自BEHAVIOR-1K库。
关键设定：行动强制——正确答案不在单张图片中，智能体必须主动探索并推理。

三个核心结论

1. 感知不是瓶颈，行动才是

当前强大模型（如GPT-5、Gemini 3.1）在被动接收到最佳视角时表现优异（如Gemini 3.1在部分遮挡任务上准确率从14.6%暴涨到95.1%），但自己主动寻找视角时效果很差。
被动多视角策略反而有害：GPT-5在空间距离任务上，多看随机角度图片后准确率从53.9%降至49.1%。
团队命名为“动作盲视”（Action Blindness）：一个差动作导致差视角，级联失败。在结构围合任务上，主动探索与上帝视角差距高达49.7%。

2. 不完美的3D比2D更坑

若使用完美真值3D场景图，模型性能提升（如Gemini在材质透明度任务上2D 44.0% vs 3D 60.4%）。
但用当前先进重建模型VGGT做真实场景重建后，推理效果反而下降：几何配置任务2D基线27.5%，重建后仅9.9%。
说明失真3D信息（几何伪影、遮挡补全错误等）比信息更少的2D更误导模型。

3. 元认知缺陷：模型不知道自己不知道

人类在主动探索时表现远超模型（物理接触任务人类88.3% vs GPT-5 64.2%；材质透明度人类93.6% vs Gemini 52.3%）。
人类会收集更多观测、寻找反证、在模糊时降低置信度；而模型过早停止探索，即使证据不足也高置信度判断，出现空间幻觉。
模型动作选择存在方向偏差，反复向同一方向移动积累冗余信息。
团队认为这是元认知缺陷：缺乏内建的“怀疑机制”，无法评估信息充分性，无法根据矛盾证据调整信念。这并非更强的视觉编码器或更多探索步骤可以解决。

阅读原文详情