Apple ML Research 提出 LiTo:基于表面光场的统一3D几何与外观表征
Apple Machine Learning Research 提出了 LiTo,一种能够联合建模物体几何与视角相关外观的3D潜在表示方法。该方法利用RGB深度图像作为表面光场样本,通过编码生成紧凑的潜在向量集,有效复现了高光、菲涅尔反射等复杂光照下的视角效应。实验表明,LiTo在视觉质量和输入保真度上均优于现有方法,并支持从单张输入图像生成符合光照与材质条件的3D对象。
事件概述
Apple Machine Learning Research 团队提出了一种名为 LiTo (Surface Light Field Tokenization) 的新方法,旨在解决传统3D重建技术难以同时捕捉几何结构与视角相关外观(View-dependent Appearance)的问题。
核心信息
-
技术原理:
- 将 RGB-D 图像视为表面光场(Surface Light Field)的采样点。
- 通过对表面光场的随机子样本进行编码,将其转换为一组紧凑的潜在向量(Latent Vectors)。
- 构建统一的3D潜在空间,同时表征物体的几何形状和外观属性。
-
关键能力:
- 视角效应模拟:能够在复杂光照条件下准确复现镜面高光(Specular Highlights)和菲涅尔反射(Fresnel Reflections)。
- 生成式建模:训练了一个基于该表示的潜在流匹配模型(Latent Flow Matching Model),以单张输入图像为条件,学习其分布并生成具有真实光照和材质一致性的3D对象。
-
性能表现:
- 实验结果显示,相比现有方法,LiTo 在生成图像的视觉质量(Visual Quality)和对原始输入的保真度(Input Fidelity)方面均取得了更高的指标。
论文信息
- 标题:LiTo: Surface Light Field Tokenization
- 作者:Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel
- 发表会议:ICLR
- 发表时间:2026年3月
