火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

SFI-Bench：衡量多模态大模型空间-功能智能的新基准

2026/05/06 08:00阅读量 2

苹果联合研究团队推出 SFI-Bench 基准，基于室内视频的 1700 余个问题，评估多模态大语言模型的结构化空间推理与功能推理能力。实验显示当前模型在整合空间记忆与功能知识方面存在关键瓶颈。

核心信息

机构：Apple Machine Learning Research 联合 Mila（蒙特利尔大学）和纽约大学。
论文：《From Where Things Are to What They’re For: Benchmarking Spatial–Functional Intelligence for Multimodal LLMs》，发表于 arXiv (2605.02130)，被 CVPR 接收。
发布时间：2026 年 5 月。

评估维度

SFI-Bench 是一个视频基准，包含超过 1700 个问题，全部来源于第一人称室内视频扫描，系统测试两个高级推理维度：

结构化空间推理：理解复杂布局并形成连贯的空间表征。
功能推理：推断物体可供性（affordances）及上下文相关的用途。

具体任务包括：条件计数、多跳关系推理、功能配对以及基于知识的故障排查。这些任务直接考验模型整合感知、记忆和推理的能力。

实验发现

当前的多模态大语言模型（MLLMs）在整合空间记忆与功能知识以及外部常识方面持续表现不佳，表明这构成了关键瓶颈。SFI-Bench 因此成为衡量和推动更强大、更真实接地气的多模态智能体的重要工具。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例