Apple研究团队提出Velox框架:学习4D几何与外观的潜在表示

2026/05/08 08:00阅读量 14

Apple ML研究团队在CVPR 2026发表论文,提出Velox框架,用于学习4D物体几何与外观的潜在表示。该框架以非结构化动态点云为输入,通过编码器压缩为动态形状标记,并由4D表面解码器和3D高斯解码器联合监督学习,在视频转4D生成、3D跟踪和图像转4D布料模拟等任务中表现出色。

事件概述

Apple 机器学习研究团队在 CVPR 2026 发表论文《Velox: Learning Representations of 4D Geometry and Appearance》,提出一种学习 4D 物体潜在表示的框架。作者包括 Anagh Malik、Dorian Chan、Xiaoming Zhao、David B. Lindell、Oncel Tuzel 和 Jen-Hao Rick Chang(其中 Malik 和 Lindell 来自多伦多大学)。

核心架构

Velox 框架的输入是无结构动态点云(spatiotemporal color point clouds),通过编码器压缩成一组动态形状标记(dynamic shape tokens)。这些标记由两个互补的解码器监督学习:

  • 4D 表面解码器:建模随时间变化的表面分布,捕获几何信息;
  • 高斯解码器:将标记映射为 3D 高斯体,帮助学习外观信息。

下游任务与性能

框架在三个任务上验证了表示的有效性:

  • 视频到 4D 生成;
  • 3D 跟踪;
  • 通过图像到 4D 生成的布料模拟。

在所有设定中均取得了优异表现,表明 Velox 的表示具有描述性、压缩性且易于构建。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。