基于半离散耦合的流匹配

2026/03/06 08:00阅读量 7

本文提出了一种名为半离散流匹配（SD-FM）的新方法，旨在解决传统最优传输流匹配（OT-FM）在大规模批量处理时计算成本过高的问题。该方法利用目标数据集分布通常有限的特性，通过随机梯度下降估计对偶势向量，将噪声点与数据点进行高效匹配。实验表明，SD-FM消除了OT-FM中关于批量大小和正则化参数的二次依赖瓶颈，并在多项训练指标和推理预算约束下全面优于传统流匹配和OT-FM。

Markdown 内容：作者 Stephen Zhang**, Seyed Alireza Mousavi Hosseini**, Michal Klein, Marco Cuturi Cameto。
以时间相关速度场参数化的流模型可以通过积分常微分方程（ODE），从噪声中生成数据。这些模型通常使用流匹配进行训练，即采样随机的噪声和目标点对 (x0, x1)，并确保当沿连接 x0 到 x1 的线段评估时，速度场在平均意义上与 x1 - x0 对齐。虽然默认情况下这些对是独立采样的，但也可以使用最优传输（OT）求解器，通过将 n 个噪声批次与 n 个目标点对齐来更仔细地选择它们。
尽管在理论上很有前景，但 OT 流匹配（OT-FM）方法在实践中并未得到广泛应用。Zhang 等人（2025）最近指出，只有当批量大小 n 显著增长时，OT-FM 才能真正开始显现优势，而这只能由 Sinkhorn 算法的多 GPU 实现来处理。不幸的是，运行 Sinkhorn 的成本会迅速飙升，对于用于拟合速度场的每对 n 个样本，都需要 O(n^2/ε^2) 次操作，其中 ε 是正则化参数，通常需要较小以获得更好的结果。
为了实现 OT-FM 的理论承诺，我们提议放弃批量 OT，转而采用一种半离散公式，利用目标数据集分布通常具有有限大小 N 这一事实。SD-OT 问题通过使用 SGD 估计对偶势向量来解决；使用该向量，在训练时新采样的噪声向量可以以最大内积搜索（MIPS）的成本与数据点进行匹配。
半离散流匹配（SD-FM）消除了 OT-FM 中导致瓶颈的关于 n/ε 的二次依赖关系。在多个数据集上，无论是无条件/条件生成，还是使用均值流模型，SD-FM 在所有训练指标和推理预算约束下均优于 FM 和 OT-FM。

**工作期间隶属于 Apple
相关阅读和更新。

流模型逐渐将数据从一个模态（例如噪声）转换到另一个模态（例如图像）。此类模型由时间相关速度场参数化，经过训练以拟合连接源点和目标点对的线段。当源点和目标点对之间的配对已知时，训练流模型归结为一个监督回归问题。当不存在这种配对时，例如从噪声生成数据的情况，训练……阅读全文
最优传输（OT）理论关注于所有能够将一个概率测度变形为另一个概率测度的映射 T:R^d→R^d 中“最节俭”的那些，即使得 x 与其像 T(x) 之间的平均成本 c(x, T(x)) 尽可能小。人们提出了许多计算方法来估计当 c 为 ℓ_2^2 距离时的 Monge 映射，例如使用……阅读全文

阅读原文详情

准备好启动您的定制项目了吗？