SFI-Bench:衡量多模态大模型空间-功能智能的新基准

2026/05/06 08:00阅读量 2

苹果联合研究团队推出 SFI-Bench 基准,基于室内视频的 1700 余个问题,评估多模态大语言模型的结构化空间推理与功能推理能力。实验显示当前模型在整合空间记忆与功能知识方面存在关键瓶颈。

核心信息

  • 机构:Apple Machine Learning Research 联合 Mila(蒙特利尔大学)和纽约大学。
  • 论文:《From Where Things Are to What They’re For: Benchmarking Spatial–Functional Intelligence for Multimodal LLMs》,发表于 arXiv (2605.02130),被 CVPR 接收。
  • 发布时间:2026 年 5 月。

评估维度

SFI-Bench 是一个视频基准,包含超过 1700 个问题,全部来源于第一人称室内视频扫描,系统测试两个高级推理维度:

  1. 结构化空间推理:理解复杂布局并形成连贯的空间表征。
  2. 功能推理:推断物体可供性(affordances)及上下文相关的用途。

具体任务包括:条件计数、多跳关系推理、功能配对以及基于知识的故障排查。这些任务直接考验模型整合感知、记忆和推理的能力。

实验发现

当前的多模态大语言模型(MLLMs)在整合空间记忆与功能知识以及外部常识方面持续表现不佳,表明这构成了关键瓶颈。SFI-Bench 因此成为衡量和推动更强大、更真实接地气的多模态智能体的重要工具。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。