SFI-Bench:衡量多模态大模型空间-功能智能的新基准
2026/05/06 08:00阅读量 2
苹果联合研究团队推出 SFI-Bench 基准,基于室内视频的 1700 余个问题,评估多模态大语言模型的结构化空间推理与功能推理能力。实验显示当前模型在整合空间记忆与功能知识方面存在关键瓶颈。
核心信息
- 机构:Apple Machine Learning Research 联合 Mila(蒙特利尔大学)和纽约大学。
- 论文:《From Where Things Are to What They’re For: Benchmarking Spatial–Functional Intelligence for Multimodal LLMs》,发表于 arXiv (2605.02130),被 CVPR 接收。
- 发布时间:2026 年 5 月。
评估维度
SFI-Bench 是一个视频基准,包含超过 1700 个问题,全部来源于第一人称室内视频扫描,系统测试两个高级推理维度:
- 结构化空间推理:理解复杂布局并形成连贯的空间表征。
- 功能推理:推断物体可供性(affordances)及上下文相关的用途。
具体任务包括:条件计数、多跳关系推理、功能配对以及基于知识的故障排查。这些任务直接考验模型整合感知、记忆和推理的能力。
实验发现
当前的多模态大语言模型(MLLMs)在整合空间记忆与功能知识以及外部常识方面持续表现不佳,表明这构成了关键瓶颈。SFI-Bench 因此成为衡量和推动更强大、更真实接地气的多模态智能体的重要工具。
