Apple ML Research 提出 LiTo:基于表面光场的统一3D几何与外观表征

Apple Machine Learning Research 提出了 LiTo,一种能够联合建模物体几何与视角相关外观的3D潜在表示方法。该方法利用RGB深度图像作为表面光场样本,通过编码生成紧凑的潜在向量集,有效复现了高光、菲涅尔反射等复杂光照下的视角效应。实验表明,LiTo在视觉质量和输入保真度上均优于现有方法,并支持从单张输入图像生成符合光照与材质条件的3D对象。

事件概述

Apple Machine Learning Research 团队提出了一种名为 LiTo (Surface Light Field Tokenization) 的新方法,旨在解决传统3D重建技术难以同时捕捉几何结构与视角相关外观(View-dependent Appearance)的问题。

核心信息

  • 技术原理

    • 将 RGB-D 图像视为表面光场(Surface Light Field)的采样点。
    • 通过对表面光场的随机子样本进行编码,将其转换为一组紧凑的潜在向量(Latent Vectors)。
    • 构建统一的3D潜在空间,同时表征物体的几何形状和外观属性。
  • 关键能力

    • 视角效应模拟:能够在复杂光照条件下准确复现镜面高光(Specular Highlights)和菲涅尔反射(Fresnel Reflections)。
    • 生成式建模:训练了一个基于该表示的潜在流匹配模型(Latent Flow Matching Model),以单张输入图像为条件,学习其分布并生成具有真实光照和材质一致性的3D对象。
  • 性能表现

    • 实验结果显示,相比现有方法,LiTo 在生成图像的视觉质量(Visual Quality)和对原始输入的保真度(Input Fidelity)方面均取得了更高的指标。

论文信息

  • 标题:LiTo: Surface Light Field Tokenization
  • 作者:Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel
  • 发表会议:ICLR
  • 发表时间:2026年3月
来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。