TrajTok：基于轨迹标记的端到端视频理解新范式

2026/03/17 08:00阅读量 22

Apple ML Research 提出 TrajTok，一种将视频分词器与下游任务联合训练的端到端模块，通过隐式时空聚类直接生成对象轨迹，解决了传统分块化方法冗余度高及现有轨迹方法依赖复杂外部管线的问题。该模型在保持高效的同时，显著提升了视频分类、检索及长视频推理性能，并成功应用于 TrajViT2、TrajAdapter 和 TrajVLM 等多种架构中。相关论文已发表于 CVPR 2026。

事件概述

Apple Machine Learning Research 团队提出 TrajTok（Learning Trajectory Tokens），旨在解决当前视频模型中因传统分块化（patchification）导致的 token 数量过多且冗余严重的问题，从而提升视频处理的效率与可扩展性。

核心机制与创新

端到端联合训练：TrajTok 是一个完全集成并与视频模型协同训练的模块，能够根据语义复杂度动态调整 token 粒度，且不受视频时长限制。
隐式时空聚类：模型包含一个统一的分割器，能在单次前向传播中直接在像素的时空维度上进行隐式聚类，输出对象轨迹，无需依赖缓慢且通用的外部分割与跟踪管线。
设计权衡：优先保证对下游任务的适应性，而非追求像素级的完美分割精度，这使得 TrajTok 既轻量又高效。

实验成果与应用

TrajViT2：基于 TrajTok 从头训练的 Video CLIP 模型，在大规模分类和检索基准测试中取得了最佳准确率，同时保持了与最优 token 合并方法相当的计算效率。
通用组件能力：
- TrajAdapter：可作为预训练视觉特征的探测头（probing head）无缝集成。
- TrajVLM：作为视觉 - 语言模型中的对齐连接器，在长视频推理任务中表现出卓越性能。

发布信息

会议：CVPR 2026
作者单位：华盛顿大学、Allen Institute for Artificial Intelligence (AI2)、Woven by Toyota, Inc. 等
发布时间：2026 年 3 月

阅读原文详情

事件概述

核心机制与创新

实验成果与应用

发布信息

准备好启动您的定制项目了吗？