TC-JEPA:以文本条件降低预测不确定性,学习语义丰富的视觉表示

2026/05/07 08:00阅读量 33

Apple 研究团队提出 Text-Conditional JEPA(TC-JEPA),在 I-JEPA 的掩码特征预测基础上引入图像描述文本作为条件,降低预测不确定性,使学习到的视觉表示更具语义。实验表明,TC-JEPA 在多种下游任务上优于对比学习方法,尤其擅长细粒度视觉理解与推理,为视觉-语言预训练提供了基于特征预测的新范式。

事件概述

Apple 机器学习和研究团队在 ICML 2026 发表论文《Text-Conditional JEPA for Learning Semantically Rich Visual Representations》,提出了一种增强版的联合嵌入预测架构(JEPA)——Text-Conditional JEPA(TC-JEPA)。

核心方法

  • 基础架构 I-JEPA 通过掩码特征预测进行视觉自监督学习,但因掩码位置的视觉不确定性,预测困难且可能无法学到语义表示。
  • TC-JEPA 使用图像描述文本(caption)来降低预测不确定性:在预测块特征时引入一个细粒度文本条件器,对输入文本 token 计算稀疏交叉注意力。
  • 如此一来,块特征变得可预测(作为文本的函数),从而更具语义意义。

关键结果

  • TC-JEPA 提升了下游任务性能,并改善了训练稳定性,具有良好的扩展性。
  • 该工作提供了一种仅基于特征预测的视觉-语言预训练新范式,在多种任务上优于对比学习方法,尤其是在需要细粒度视觉理解与推理的任务上表现突出。

值得关注

  • 该方法不依赖对比学习中的负样本对,而是通过文本条件实现语义对齐。
  • 论文出自 Apple 研究团队(作者包括 Chen Huang, Xianhang Li 等),已在 arXiv 公开(arXiv:2605.03245)。
  • 该方向有望推动视觉-语言预训练从对比式向预测式范式转变。
来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。