TC-JEPA：以文本条件降低预测不确定性，学习语义丰富的视觉表示

2026/05/07 08:00阅读量 33

Apple 研究团队提出 Text-Conditional JEPA（TC-JEPA），在 I-JEPA 的掩码特征预测基础上引入图像描述文本作为条件，降低预测不确定性，使学习到的视觉表示更具语义。实验表明，TC-JEPA 在多种下游任务上优于对比学习方法，尤其擅长细粒度视觉理解与推理，为视觉-语言预训练提供了基于特征预测的新范式。

事件概述

Apple 机器学习和研究团队在 ICML 2026 发表论文《Text-Conditional JEPA for Learning Semantically Rich Visual Representations》，提出了一种增强版的联合嵌入预测架构（JEPA）——Text-Conditional JEPA（TC-JEPA）。

核心方法

基础架构 I-JEPA 通过掩码特征预测进行视觉自监督学习，但因掩码位置的视觉不确定性，预测困难且可能无法学到语义表示。
TC-JEPA 使用图像描述文本（caption）来降低预测不确定性：在预测块特征时引入一个细粒度文本条件器，对输入文本 token 计算稀疏交叉注意力。
如此一来，块特征变得可预测（作为文本的函数），从而更具语义意义。

关键结果

TC-JEPA 提升了下游任务性能，并改善了训练稳定性，具有良好的扩展性。
该工作提供了一种仅基于特征预测的视觉-语言预训练新范式，在多种任务上优于对比学习方法，尤其是在需要细粒度视觉理解与推理的任务上表现突出。

值得关注

该方法不依赖对比学习中的负样本对，而是通过文本条件实现语义对齐。
论文出自 Apple 研究团队（作者包括 Chen Huang, Xianhang Li 等），已在 arXiv 公开（arXiv:2605.03245）。
该方向有望推动视觉-语言预训练从对比式向预测式范式转变。

阅读原文详情

事件概述

核心方法

关键结果

值得关注

准备好启动您的定制项目了吗？