李飞飞团队发布空间智能新基准ESI-Bench:AI看图强但行动弱,主动探索才是关键瓶颈
2026/05/22 16:25阅读量 7
李飞飞团队发布ESI-Bench,专为评测具身空间智能设计,强调感知-行动回路。测试发现,当前最强多模态大模型在主动探索场景下表现远逊于人类,核心瓶颈是行动策略而非感知能力。3D重建若质量不佳反而有害,模型还存在元认知缺陷,即不自知信息不足。
事件概述
斯坦福李飞飞团队发布ESI-Bench(Embodied Spatial Intelligence Benchmark),一个专门评测具身空间智能的新基准。该基准要求智能体像人类一样主动行动获取信息,而非被动接收最优视角图片。论文核心发现:当前AI的感知能力已接近人类,但主动探索和行动策略严重不足,成为空间智能的真正瓶颈。
ESI-Bench核心设计
- 闭合感知-行动回路:与现有基准不同,ESI-Bench强制智能体必须通过主动行动(如绕到物体背后、拉开抽屉、拿起来观察)来获取足够信息,才能回答空间问题。
- 基于人类空间认知四大维度:物体表征、布局与几何、数量表征、目标导向行动(源自Spelke核心知识系统)。
- 任务规模:10个任务类别,29个子类别,3081个实例,在OmniGibson仿真平台上构建,场景来自BEHAVIOR-1K库。
- 关键设定:行动强制——正确答案不在单张图片中,智能体必须主动探索并推理。
三个核心结论
1. 感知不是瓶颈,行动才是
- 当前强大模型(如GPT-5、Gemini 3.1)在被动接收到最佳视角时表现优异(如Gemini 3.1在部分遮挡任务上准确率从14.6%暴涨到95.1%),但自己主动寻找视角时效果很差。
- 被动多视角策略反而有害:GPT-5在空间距离任务上,多看随机角度图片后准确率从53.9%降至49.1%。
- 团队命名为“动作盲视”(Action Blindness):一个差动作导致差视角,级联失败。在结构围合任务上,主动探索与上帝视角差距高达49.7%。
2. 不完美的3D比2D更坑
- 若使用完美真值3D场景图,模型性能提升(如Gemini在材质透明度任务上2D 44.0% vs 3D 60.4%)。
- 但用当前先进重建模型VGGT做真实场景重建后,推理效果反而下降:几何配置任务2D基线27.5%,重建后仅9.9%。
- 说明失真3D信息(几何伪影、遮挡补全错误等)比信息更少的2D更误导模型。
3. 元认知缺陷:模型不知道自己不知道
- 人类在主动探索时表现远超模型(物理接触任务人类88.3% vs GPT-5 64.2%;材质透明度人类93.6% vs Gemini 52.3%)。
- 人类会收集更多观测、寻找反证、在模糊时降低置信度;而模型过早停止探索,即使证据不足也高置信度判断,出现空间幻觉。
- 模型动作选择存在方向偏差,反复向同一方向移动积累冗余信息。
- 团队认为这是元认知缺陷:缺乏内建的“怀疑机制”,无法评估信息充分性,无法根据矛盾证据调整信念。这并非更强的视觉编码器或更多探索步骤可以解决。
