清华开源空间模型Spatial-TTT入选ECCV 2026，2B参数超越GPT-5和Gemini-3-pro

2026/06/22 11:48阅读量 4

清华大学团队提出流式空间智能模型Spatial-TTT，被ECCV 2026接收。该模型通过混合TTT架构、空间预测机制和稠密场景描述监督，仅用2B参数即可在VSI-Bench、MindCube-Tiny等基准上超越GPT-5、Gemini-3-pro等闭源模型，并支持最长120分钟流式视频处理，显存和计算量较行业模型降低超40%。

清华大学博士生刘芳甫作为一作的研究被ECCV 2026正式接收，模型名为Spatial-TTT。其核心目标是解决多模态模型在动态真实环境中的“流式空间智能”问题——相机持续移动、视角变化、目标时隐时现时，模型需要“边看、边更新、边形成空间记忆”，而非依赖无限膨胀的上下文窗口。

事件概述

Spatial-TTT将Test-Time Training（TTT）思想引入空间理解，把模型参数作为动态记忆，在处理视频流时在线更新快速权重（fast weights）。具体设计包括：

混合架构：解码器中75%的层采用TTT（负责长程记忆），25%保留标准全注意力（维持语义理解），并引入large-chunk更新与并行滑动窗口注意力提升效率。
空间预测机制：在TTT分支的Q/K/V中引入轻量级3D时空卷积，使快速权重能捕捉几何对应与时间连续性。
稠密场景描述监督：构建覆盖全局语境、物体类别、空间关系的scene walkthrough数据，分两阶段训练（先全局3D意识，再强化具体空间推理）。

核心数据

VSI-Bench：Spatial-TTT-2B取得64.4平均分，在Absolute Distance、Relative Direction、Route Plan等任务上表现突出，超越GPT-5等闭源模型。
MindCube-Tiny：准确率76.2%，高出Gemini-3-pro（63.9%）12个百分点，高出MindCube-3B（51.7%）近25个百分点。
长视频测试：在VSI-SUPER-Count的10/30/60/120分钟视频上得分分别达31.8/45.6/36.2/38.4，对比模型在更长视频上性能崩塌或OOM。
效率：1024帧输入下显存占用11.9GB，计算量799.4 TFLOPs，相比行业领先大厂模型节省超40%；带显式几何编码器的Spatial-MLLM-4B在512帧场景已无法运行。

值得关注

消融实验显示，去掉空间预测机制后VSI-Bench从64.4降至62.1，去掉密集场景描述监督降至61.3，完全去掉混合架构（纯TTT）降至53.9，证明三个设计协同有效。该工作为物理世界Agent（机器人、自动驾驶、AR）提供了一条从流式视觉感知迈向持续世界状态建模的路径。

论文：arxiv.org/pdf/2603.12255
项目：liuff19.github.io/Spatial-TTT/
代码：github.com/THU-SI/Spatial-TTT/

阅读原文详情

事件概述

核心数据

值得关注

准备好启动您的定制项目了吗？