Apple研究团队提出Velox框架:学习4D几何与外观的潜在表示
2026/05/08 08:00阅读量 14
Apple ML研究团队在CVPR 2026发表论文,提出Velox框架,用于学习4D物体几何与外观的潜在表示。该框架以非结构化动态点云为输入,通过编码器压缩为动态形状标记,并由4D表面解码器和3D高斯解码器联合监督学习,在视频转4D生成、3D跟踪和图像转4D布料模拟等任务中表现出色。
事件概述
Apple 机器学习研究团队在 CVPR 2026 发表论文《Velox: Learning Representations of 4D Geometry and Appearance》,提出一种学习 4D 物体潜在表示的框架。作者包括 Anagh Malik、Dorian Chan、Xiaoming Zhao、David B. Lindell、Oncel Tuzel 和 Jen-Hao Rick Chang(其中 Malik 和 Lindell 来自多伦多大学)。
核心架构
Velox 框架的输入是无结构动态点云(spatiotemporal color point clouds),通过编码器压缩成一组动态形状标记(dynamic shape tokens)。这些标记由两个互补的解码器监督学习:
- 4D 表面解码器:建模随时间变化的表面分布,捕获几何信息;
- 高斯解码器:将标记映射为 3D 高斯体,帮助学习外观信息。
下游任务与性能
框架在三个任务上验证了表示的有效性:
- 视频到 4D 生成;
- 3D 跟踪;
- 通过图像到 4D 生成的布料模拟。
在所有设定中均取得了优异表现,表明 Velox 的表示具有描述性、压缩性且易于构建。
