基于半离散耦合的流匹配

本文提出了一种名为半离散流匹配(SD-FM)的新方法,旨在解决传统最优传输流匹配(OT-FM)在大规模批量处理时计算成本过高的问题。该方法利用目标数据集分布通常有限的特性,通过随机梯度下降估计对偶势向量,将噪声点与数据点进行高效匹配。实验表明,SD-FM消除了OT-FM中关于批量大小和正则化参数的二次依赖瓶颈,并在多项训练指标和推理预算约束下全面优于传统流匹配和OT-FM。

Markdown 内容:作者 Stephen Zhang**, Seyed Alireza Mousavi Hosseini**, Michal Klein, Marco Cuturi Cameto。 以时间相关速度场参数化的流模型可以通过积分常微分方程(ODE),从噪声中生成数据。这些模型通常使用流匹配进行训练,即采样随机的噪声和目标点对 (x0, x1),并确保当沿连接 x0 到 x1 的线段评估时,速度场在平均意义上与 x1 - x0 对齐。虽然默认情况下这些对是独立采样的,但也可以使用最优传输(OT)求解器,通过将 n 个噪声批次与 n 个目标点对齐来更仔细地选择它们。 尽管在理论上很有前景,但 OT 流匹配(OT-FM)方法在实践中并未得到广泛应用。Zhang 等人(2025)最近指出,只有当批量大小 n 显著增长时,OT-FM 才能真正开始显现优势,而这只能由 Sinkhorn 算法的多 GPU 实现来处理。不幸的是,运行 Sinkhorn 的成本会迅速飙升,对于用于拟合速度场的每对 n 个样本,都需要 O(n^2/ε^2) 次操作,其中 ε 是正则化参数,通常需要较小以获得更好的结果。 为了实现 OT-FM 的理论承诺,我们提议放弃批量 OT,转而采用一种半离散公式,利用目标数据集分布通常具有有限大小 N 这一事实。SD-OT 问题通过使用 SGD 估计对偶势向量来解决;使用该向量,在训练时新采样的噪声向量可以以最大内积搜索(MIPS)的成本与数据点进行匹配。 半离散流匹配(SD-FM)消除了 OT-FM 中导致瓶颈的关于 n/ε 的二次依赖关系。在多个数据集上,无论是无条件/条件生成,还是使用均值流模型,SD-FM 在所有训练指标和推理预算约束下均优于 FM 和 OT-FM。 * **工作期间隶属于 Apple 相关阅读和更新。 ----------------------------- 流模型逐渐将数据从一个模态(例如噪声)转换到另一个模态(例如图像)。此类模型由时间相关速度场参数化,经过训练以拟合连接源点和目标点对的线段。当源点和目标点对之间的配对已知时,训练流模型归结为一个监督回归问题。当不存在这种配对时,例如从噪声生成数据的情况,训练……[阅读全文](https://machinelearning.apple.com/research/sinkhorn-couplings) 最优传输(OT)理论关注于所有能够将一个概率测度变形为另一个概率测度的映射 T:R^d→R^d 中“最节俭”的那些,即使得 x 与其像 T(x) 之间的平均成本 c(x, T(x)) 尽可能小。人们提出了许多计算方法来估计当 c 为 ℓ_2^2 距离时的 Monge 映射,例如使用……[阅读全文](https://machinelearning.apple.com/research/monge-bregman-occam)

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。