TC-JEPA:以文本条件降低预测不确定性,学习语义丰富的视觉表示
2026/05/07 08:00阅读量 33
Apple 研究团队提出 Text-Conditional JEPA(TC-JEPA),在 I-JEPA 的掩码特征预测基础上引入图像描述文本作为条件,降低预测不确定性,使学习到的视觉表示更具语义。实验表明,TC-JEPA 在多种下游任务上优于对比学习方法,尤其擅长细粒度视觉理解与推理,为视觉-语言预训练提供了基于特征预测的新范式。
事件概述
Apple 机器学习和研究团队在 ICML 2026 发表论文《Text-Conditional JEPA for Learning Semantically Rich Visual Representations》,提出了一种增强版的联合嵌入预测架构(JEPA)——Text-Conditional JEPA(TC-JEPA)。
核心方法
- 基础架构 I-JEPA 通过掩码特征预测进行视觉自监督学习,但因掩码位置的视觉不确定性,预测困难且可能无法学到语义表示。
- TC-JEPA 使用图像描述文本(caption)来降低预测不确定性:在预测块特征时引入一个细粒度文本条件器,对输入文本 token 计算稀疏交叉注意力。
- 如此一来,块特征变得可预测(作为文本的函数),从而更具语义意义。
关键结果
- TC-JEPA 提升了下游任务性能,并改善了训练稳定性,具有良好的扩展性。
- 该工作提供了一种仅基于特征预测的视觉-语言预训练新范式,在多种任务上优于对比学习方法,尤其是在需要细粒度视觉理解与推理的任务上表现突出。
值得关注
- 该方法不依赖对比学习中的负样本对,而是通过文本条件实现语义对齐。
- 论文出自 Apple 研究团队(作者包括 Chen Huang, Xianhang Li 等),已在 arXiv 公开(arXiv:2605.03245)。
- 该方向有望推动视觉-语言预训练从对比式向预测式范式转变。
