清华开源空间模型Spatial-TTT入选ECCV 2026,2B参数超越GPT-5和Gemini-3-pro

2026/06/22 11:48阅读量 4

清华大学团队提出流式空间智能模型Spatial-TTT,被ECCV 2026接收。该模型通过混合TTT架构、空间预测机制和稠密场景描述监督,仅用2B参数即可在VSI-Bench、MindCube-Tiny等基准上超越GPT-5、Gemini-3-pro等闭源模型,并支持最长120分钟流式视频处理,显存和计算量较行业模型降低超40%。

清华大学博士生刘芳甫作为一作的研究被ECCV 2026正式接收,模型名为Spatial-TTT。其核心目标是解决多模态模型在动态真实环境中的“流式空间智能”问题——相机持续移动、视角变化、目标时隐时现时,模型需要“边看、边更新、边形成空间记忆”,而非依赖无限膨胀的上下文窗口。

事件概述

Spatial-TTT将Test-Time Training(TTT)思想引入空间理解,把模型参数作为动态记忆,在处理视频流时在线更新快速权重(fast weights)。具体设计包括:

  • 混合架构:解码器中75%的层采用TTT(负责长程记忆),25%保留标准全注意力(维持语义理解),并引入large-chunk更新与并行滑动窗口注意力提升效率。
  • 空间预测机制:在TTT分支的Q/K/V中引入轻量级3D时空卷积,使快速权重能捕捉几何对应与时间连续性。
  • 稠密场景描述监督:构建覆盖全局语境、物体类别、空间关系的scene walkthrough数据,分两阶段训练(先全局3D意识,再强化具体空间推理)。

核心数据

  • VSI-Bench:Spatial-TTT-2B取得64.4平均分,在Absolute Distance、Relative Direction、Route Plan等任务上表现突出,超越GPT-5等闭源模型。
  • MindCube-Tiny:准确率76.2%,高出Gemini-3-pro(63.9%)12个百分点,高出MindCube-3B(51.7%)近25个百分点。
  • 长视频测试:在VSI-SUPER-Count的10/30/60/120分钟视频上得分分别达31.8/45.6/36.2/38.4,对比模型在更长视频上性能崩塌或OOM。
  • 效率:1024帧输入下显存占用11.9GB,计算量799.4 TFLOPs,相比行业领先大厂模型节省超40%;带显式几何编码器的Spatial-MLLM-4B在512帧场景已无法运行。

值得关注

消融实验显示,去掉空间预测机制后VSI-Bench从64.4降至62.1,去掉密集场景描述监督降至61.3,完全去掉混合架构(纯TTT)降至53.9,证明三个设计协同有效。该工作为物理世界Agent(机器人、自动驾驶、AR)提供了一条从流式视觉感知迈向持续世界状态建模的路径。

论文:arxiv.org/pdf/2603.12255
项目:liuff19.github.io/Spatial-TTT/
代码:github.com/THU-SI/Spatial-TTT/

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。