Apple研究团队提出Velox框架：学习4D几何与外观的潜在表示

2026/05/08 08:00阅读量 14

Apple ML研究团队在CVPR 2026发表论文，提出Velox框架，用于学习4D物体几何与外观的潜在表示。该框架以非结构化动态点云为输入，通过编码器压缩为动态形状标记，并由4D表面解码器和3D高斯解码器联合监督学习，在视频转4D生成、3D跟踪和图像转4D布料模拟等任务中表现出色。

事件概述

Apple 机器学习研究团队在 CVPR 2026 发表论文《Velox: Learning Representations of 4D Geometry and Appearance》，提出一种学习 4D 物体潜在表示的框架。作者包括 Anagh Malik、Dorian Chan、Xiaoming Zhao、David B. Lindell、Oncel Tuzel 和 Jen-Hao Rick Chang（其中 Malik 和 Lindell 来自多伦多大学）。

核心架构

Velox 框架的输入是无结构动态点云（spatiotemporal color point clouds），通过编码器压缩成一组动态形状标记（dynamic shape tokens）。这些标记由两个互补的解码器监督学习：

4D 表面解码器：建模随时间变化的表面分布，捕获几何信息；
高斯解码器：将标记映射为 3D 高斯体，帮助学习外观信息。

下游任务与性能

框架在三个任务上验证了表示的有效性：

视频到 4D 生成；
3D 跟踪；
通过图像到 4D 生成的布料模拟。

在所有设定中均取得了优异表现，表明 Velox 的表示具有描述性、压缩性且易于构建。

阅读原文详情

事件概述

核心架构

下游任务与性能

准备好启动您的定制项目了吗？