Kantorovich 对偶与对偶势函数
每个传输问题都有一个对偶——它选的不是方案而是价格;c-变换把它收成单个势函数,W₁ 情形恰是 Wasserstein-GAN 的评论者,Brenier 定理则找回最优映射。
Kantorovich 问题选的是一个传输方案——一个关于配对 的耦合 。每个这样的问题都有一个对偶,它选的是完全不同的东西:不是方案,而是一对价格。正是这个对偶视角,把 Wasserstein 距离从「一个待计算的数」变成「一个可训练的目标」,也正是 Wasserstein 自编码器与 Wasserstein GAN——以及经由它们的 CryoGEN-II 与 CryoWGEN——所默默依赖的那一块。
一句话先把全篇串起来:原问题在「搬什么去哪」上优化(一个二维表 ),对偶在「每处值多少」上优化(两条曲线 );两者给出同一个数,但后者的未知量是一个函数,而函数恰是神经网络能直接拟合的对象。下面四节分别说明这对价格如何收成一个势函数、距离代价下它为何变成 1-Lipschitz、它如何就是 WGAN 的评论者,以及平方代价下它的梯度如何还原出一张真正的映射。
用两套价格取代一个方案
设想一个运输承包商。你不再自己安排每一铲土的去向(即选 ),而是雇一个承包商,他张贴两套价格:在 处装载一单位收 ,在 处卸载收 。承包商想最大化收入 ,但要拿到你的生意,任何一对装–卸的报价都不能高过你自己干的代价,即 。对偶问题正是
逐符号读: 是供给分布(土堆在哪), 是需求分布(坑在哪), 是把一单位从 搬到 的单位代价; 是「装载价表」、 是「卸载价表」,都是定义在整个空间上的函数。目标 是承包商在所有土堆处收到的装载费总和、 是在所有坑处收到的卸载费总和。约束对每一对 都要成立,因为你随时可以选择「自己把这一对搬掉」,承包商的两段报价之和绝不能让你产生这个念头。
强对偶成立:这个上确界等于原问题的下确界——最便宜的方案,恰好等于最精明的承包商能开出的价。(Kantorovich 对偶;Peyré & Cuturi 2019, §2.5。)
= W₁ 最优(1-Lipschitz 上界正好达到)
对偶问题不再选运输方案,而是选一个势函数 f,最大化 𝔼_μ[f] − 𝔼_ν[f]。势函数想尽量陡以把 μ 与 ν 拉开,但 Kantorovich–Rubinstein 要求 f 必须 1-Lipschitz(斜率绝对值 ≤ 1)。这个上限恰好把对偶值卡在 W₁:斜率 −1 时取等。把斜率推过 ±1,对偶值会超过 W₁ —— 而真正的下界不可能超过最优值,这正说明那条 1-Lipschitz 约束不可或缺。
把它落到一个能心算的例子上。设 把全部质量放在一点 , 把全部质量放在一点 ,代价 。原问题别无选择,只能整团搬过去,代价就是这段距离 。对偶这边,承包商要在 下最大化 ,于是把不等式顶到等号,收入正是 ——两边相等,强对偶在这个最简情形里一眼可见。稍微复杂一点:、,代价取距离。两个土堆都到 的距离都是 ,最优方案把各半单位都搬到 ,总代价 ;对偶取 、(容易验证 在 处取等),收入 ,再次吻合。
c-变换:把两个势函数收成一个
固定 后,承包商在每个 处能做的,就是在约束允许范围内尽量多收,于是得到 -变换
这一步只是把「对每个 把 抬到约束的天花板」写成公式:约束 要对所有 成立,所以 最大只能取这些上界里最小的那一个,即对 取下确界。换言之,一旦定下装载价 ,最优的卸载价 就不再是自由变量——它被 完全决定。代入 ,两套价格便收成一个。对偶随之化为对单个势函数的最大化:
这就是半对偶,而那个孤立的 正是编码器–解码器方法所说的「单一势函数」:只对一个函数 优化,正是 CryoGEN-II 得以用单势函数目标取代对抗 min–max 的原因。(Peyré & Cuturi §3.1;Genevay 等,半对偶随机 OT。)这件事在工程上很要紧:原问题的未知量 是一个随数据规模膨胀的 表,而半对偶的未知量 是一个函数,可以交给一张网络去拟合,再用随机梯度在小批量上优化——OT 能进生成模型的训练回路,转折点就在这里。
W₁ 与 1-Lipschitz 势函数
当代价取距离本身 时,约束迫使 且 为 1-Lipschitz,半对偶随之化为简洁的 Kantorovich–Rubinstein 形式
为何距离代价会逼出这两条结论?把 代进约束 :取 得 ;又因三角不等式可证 ,于是 ,两条价表退化为一条的正负镜像。代入约束得 对所有 成立,这恰是 1-Lipschitz(斜率绝对值不超过 )的定义。 即此约束; 是同一个势函数在两个分布上的均值之差。于是 不再需要先解出方案再求和,而是直接化为「找一条爬升不超速的函数,让它在 与 上的均值差最大」。
势函数是一个把两个分布区分开的见证者:它应在 所在处取高、在 所在处取低,而它拉开的差距 就度量了两者相距多远。1-Lipschitz 上限禁止它涨得比几何允许的更快——没有这个上限,这个分数可以被无界地抬高(在演示里把斜率拖过 ,就能看到「对偶值」超过 ,而真正的下界永远不可能超过最优值)。最紧的合法见证者,得分恰好是 。
互补松弛:方案与价格如何咬合
原问题与对偶不是两个无关的最优化——在最优处它们由互补松弛精确咬合。只有当一对 的价格约束取到等号 时,最优方案才会沿这对真正搬运质量;约束一旦严格小于(),该对的传输量必为零。
直觉:承包商只对那些「报价正好顶满你自己干的代价」的配对接单——别处他没有竞争力,质量也就不会从那里流过。这条等式刻画的「紧约束集」(称为 -循环单调的支撑)正是最优耦合允许出现的全部配对;上一节那个 的例子里,约束恰在 处取等,而方案也确实只在这两对上搬运,正是互补松弛在起作用。这条等式还解释了下一节 Brenier 定理为何能从势函数还原映射:紧约束把每个 钉在使等号成立的那个 上。
这正是 Wasserstein-GAN 的评论者
Kantorovich–Rubinstein 形式就是 Wasserstein GAN 的目标。WGAN 的**评论者(critic)**就是势函数 ;权重裁剪或梯度罚用来施加 1-Lipschitz 约束;生成器则被训练去降低 ,把生成分布 推向数据。看似一场对抗博弈,底层其实是一方求解 对偶、另一方沿它下降——这也是为何即便两个分布几乎不重叠,WGAN 的梯度依然有效(见支撑不相交的论证)。
对比一下普通 GAN 就看清了区别:普通判别器输出一个 的概率,当两个分布不重叠时它能轻易判到饱和(输出 或 ),梯度随即消失,生成器收不到方向信号。WGAN 的评论者输出的是一个无界实数势函数,1-Lipschitz 约束保证它不会饱和, 始终给出一个与 成正比、且处处可微的距离——这正是对偶视角带来的实际好处。
Brenier 定理:方案何时是一个映射
原问题页留了一个悬念——确定性的 Monge 映射「未必存在」,因为质量可能必须分裂。对偶把它了结了。对平方代价 、且源 绝对连续时,最优势函数本质上是一个凸函数,它的梯度就是最优映射:
逐符号读: 是由对偶势函数构造出的凸势(具体为 这类形式), 是它在 处的梯度, 则是把源点 送往目标点的映射。凸性在这里是关键:它保证 是单调的,从而不同的 不会被映到同一个 上去抢质量,于是无需分裂——这正是上一节互补松弛「把每个 钉到一个 」在平方代价下的结果。于是 Kantorovich 最优解终究由一个真正的映射诱导——无需分裂质量。(Brenier 1991;Peyré & Cuturi §2.4。)这正是平方代价最优传输把一个分布「捋直」搬到另一个分布的确切含义。
熵正则的对偶就是 Sinkhorn 势函数。 加入熵罚把硬约束 软化为一个光滑罚项,对偶随之变得无约束且可微。-变换软化为 soft-min(log-sum-exp):
而最优势函数恰是对数域的 Sinkhorn 缩放 、。你在那里迭代的行/列缩放,就是这里的对偶价格——Sinkhorn 即是对这个光滑对偶做坐标上升。(Peyré & Cuturi §4.4;Cuturi 2013。)注意这里的 被换成了 :当 ,soft-min 收敛到硬 ,光滑对偶退回前面那个非光滑的硬对偶; 越大,价格曲线越平、约束越松,这正是熵正则用一个温度旋钮在「硬指派」与「弥散对冲」之间拨档的对偶侧表现。
为何对偶对学习如此关键。 原问题在耦合上优化——一个随数据增长的 对象;对偶则在单个函数 上优化,而函数恰可由神经网络直接参数化。正是这一替换,构成了全部机制:它使 Wasserstein 距离成为一个可训练的损失,而非每次都要重算的量;WGAN(硬性 1-Lipschitz 对偶)与 Sinkhorn 自编码器(光滑熵对偶)共享的也正是它——这就是从对偶一侧看到的「最优传输 → 自编码器」那条线。
在 Cryo-ET 重构里落到何处
这条对偶链不是抽象练习,它撑起了几种重构方法的训练目标。当你想让重构出的干净体分布去匹配一个参考分布时,你需要一个能反向传播的分布距离——而原问题给出的方案 不可微、又随体素数暴涨,没法直接当损失。对偶把距离改写成一个势函数上的优化:CryoGEN-II 走 WAE/OT 路线,用本页的单一势函数目标得到一个稳定的单答案;Wasserstein GAN 则把同一个 1-Lipschitz 势函数当评论者来逼分布对齐。再往熵正则那侧走一步,光滑对偶的玻尔兹曼解就变成 EVIA / CryoWGEN 在 E-step 采样的逐图后验(细节见熵正则页)——同一套对偶,温度 时给 MAP 式的单答案, 时给一族重构,正好承载缺失楔形留下的不确定性。
延伸阅读
- Peyré & Cuturi. Computational Optimal Transport. 2019.(§2.4–2.5, §3.1, §4.4, §6.2)
- Genevay, Cuturi, Peyré, Bach. Stochastic Optimization for Large-scale Optimal Transport. NeurIPS 2016.
- Arjovsky, Chintala, Bottou. Wasserstein GAN. ICML 2017.
- Brenier. Polar factorization and monotone rearrangement of vector-valued functions. 1991.