Kantorovich 对偶与对偶势函数

每个传输问题都有一个对偶——它选的不是方案而是价格;c-变换把它收成单个势函数,W₁ 情形恰是 Wasserstein-GAN 的评论者,Brenier 定理则找回最优映射。

Kantorovich 问题选的是一个传输方案——一个关于配对 (x,y)(x,y) 的耦合 π\pi。每个这样的问题都有一个对偶,它选的是完全不同的东西:不是方案,而是一对价格。正是这个对偶视角,把 Wasserstein 距离从「一个待计算的数」变成「一个可训练的目标」,也正是 Wasserstein 自编码器Wasserstein GAN——以及经由它们的 CryoGEN-IICryoWGEN——所默默依赖的那一块。

一句话先把全篇串起来:原问题在「搬什么去哪」上优化(一个二维表 π\pi),对偶在「每处值多少」上优化(两条曲线 f,gf,g);两者给出同一个数,但后者的未知量是一个函数,而函数恰是神经网络能直接拟合的对象。下面四节分别说明这对价格如何收成一个势函数、距离代价下它为何变成 1-Lipschitz、它如何就是 WGAN 的评论者,以及平方代价下它的梯度如何还原出一张真正的映射。

用两套价格取代一个方案

设想一个运输承包商。你不再自己安排每一铲土的去向(即选 π\pi),而是雇一个承包商,他张贴两套价格:在 xx装载一单位收 f(x)f(x),在 yy卸载g(y)g(y)。承包商想最大化收入 fdμ+gdν\int f\,d\mu + \int g\,d\nu,但要拿到你的生意,任何一对装–卸的报价都不能高过你自己干的代价,即 f(x)+g(y)c(x,y)f(x)+g(y)\le c(x,y)对偶问题正是

supf,g fdμ+gdνs.t.f(x)+g(y)c(x,y)  x,y.\sup_{f,g}\ \int f\,d\mu + \int g\,d\nu \qquad\text{s.t.}\qquad f(x)+g(y)\le c(x,y)\ \ \forall x,y.

逐符号读:μ\mu 是供给分布(土堆在哪),ν\nu 是需求分布(坑在哪),c(x,y)c(x,y) 是把一单位从 xx 搬到 yy 的单位代价;ff 是「装载价表」、gg 是「卸载价表」,都是定义在整个空间上的函数。目标 fdμ\int f\,d\mu 是承包商在所有土堆处收到的装载费总和、gdν\int g\,d\nu 是在所有坑处收到的卸载费总和。约束对每一对 (x,y)(x,y) 都要成立,因为你随时可以选择「自己把这一对搬掉」,承包商的两段报价之和绝不能让你产生这个念头。

强对偶成立:这个上确界等于原问题的下确界——最便宜的方案,恰好等于最精明的承包商能开出的价。(Kantorovich 对偶;Peyré & Cuturi 2019, §2.5。)

势函数 f(x)源 μ目标 νW₁ = 4对偶值 𝔼_μ[f] − 𝔼_ν[f] = 4.00

= W₁ 最优(1-Lipschitz 上界正好达到)

对偶问题不再选运输方案,而是选一个势函数 f,最大化 𝔼_μ[f] − 𝔼_ν[f]。势函数想尽量陡以把 μ 与 ν 拉开,但 Kantorovich–Rubinstein 要求 f 必须 1-Lipschitz(斜率绝对值 ≤ 1)。这个上限恰好把对偶值卡在 W₁:斜率 −1 时取等。把斜率推过 ±1,对偶值会超过 W₁ —— 而真正的下界不可能超过最优值,这正说明那条 1-Lipschitz 约束不可或缺。

把它落到一个能心算的例子上。设 μ\mu 把全部质量放在一点 x0x_0ν\nu 把全部质量放在一点 y0y_0,代价 c=x0y0c=\lVert x_0-y_0\rVert。原问题别无选择,只能整团搬过去,代价就是这段距离 d=x0y0d=\lVert x_0-y_0\rVert。对偶这边,承包商要在 f(x0)+g(y0)df(x_0)+g(y_0)\le d 下最大化 f(x0)+g(y0)f(x_0)+g(y_0),于是把不等式顶到等号,收入正是 dd——两边相等,强对偶在这个最简情形里一眼可见。稍微复杂一点:μ=12δ0+12δ2\mu=\tfrac12\delta_{0}+\tfrac12\delta_{2}ν=δ1\nu=\delta_{1},代价取距离。两个土堆都到 11 的距离都是 11,最优方案把各半单位都搬到 11,总代价 121+121=1\tfrac12\cdot1+\tfrac12\cdot1=1;对偶取 f(0)=f(2)=12f(0)=f(2)=\tfrac12g(1)=12g(1)=\tfrac12(容易验证 f(x)+g(1)x1f(x)+g(1)\le|x-1|x=0,2x=0,2 处取等),收入 1212+1212+12=1\tfrac12\cdot\tfrac12+\tfrac12\cdot\tfrac12+\tfrac12=1,再次吻合。

c-变换:把两个势函数收成一个

固定 ff 后,承包商在每个 yy 处能做的,就是在约束允许范围内尽量多收,于是得到 cc-变换

fc(y)=infx(c(x,y)f(x)).f^{c}(y)=\inf_{x}\big(c(x,y)-f(x)\big).

这一步只是把「对每个 yyg(y)g(y) 抬到约束的天花板」写成公式:约束 g(y)c(x,y)f(x)g(y)\le c(x,y)-f(x) 要对所有 xx 成立,所以 g(y)g(y) 最大只能取这些上界里最小的那一个,即对 xx 取下确界。换言之,一旦定下装载价 ff,最优的卸载价 gg 就不再是自由变量——它被 ff 完全决定。代入 g=fcg=f^{c},两套价格便收成一个。对偶随之化为对单个势函数的最大化:

supf fdμ+fcdν.\sup_{f}\ \int f\,d\mu + \int f^{c}\,d\nu .

这就是半对偶,而那个孤立的 ff 正是编码器–解码器方法所说的「单一势函数」:只对一个函数 ff 优化,正是 CryoGEN-II 得以用单势函数目标取代对抗 min–max 的原因。(Peyré & Cuturi §3.1;Genevay 等,半对偶随机 OT。)这件事在工程上很要紧:原问题的未知量 π\pi 是一个随数据规模膨胀的 n×mn\times m 表,而半对偶的未知量 ff 是一个函数,可以交给一张网络去拟合,再用随机梯度在小批量上优化——OT 能进生成模型的训练回路,转折点就在这里。

W₁ 与 1-Lipschitz 势函数

当代价取距离本身 c(x,y)=xyc(x,y)=\lVert x-y\rVert 时,约束迫使 g=fg=-fff1-Lipschitz,半对偶随之化为简洁的 Kantorovich–Rubinstein 形式

W1(μ,ν)=supfLip1 Eμ[f]Eν[f].W_1(\mu,\nu)=\sup_{\lVert f\rVert_{\mathrm{Lip}}\le 1}\ \mathbb{E}_{\mu}[f]-\mathbb{E}_{\nu}[f].

为何距离代价会逼出这两条结论?把 c(x,y)=xyc(x,y)=\lVert x-y\rVert 代进约束 f(x)+g(y)xyf(x)+g(y)\le\lVert x-y\rVert:取 x=yx=yf(x)+g(x)0f(x)+g(x)\le0;又因三角不等式可证 fc=ff^{c}=-f,于是 g=fg=-f,两条价表退化为一条的正负镜像。代入约束得 f(x)f(y)xyf(x)-f(y)\le\lVert x-y\rVert 对所有 x,yx,y 成立,这恰是 1-Lipschitz(斜率绝对值不超过 11)的定义。fLip1\lVert f\rVert_{\mathrm{Lip}}\le1 即此约束;Eμ[f]Eν[f]\mathbb{E}_{\mu}[f]-\mathbb{E}_{\nu}[f] 是同一个势函数在两个分布上的均值之差。于是 W1W_1 不再需要先解出方案再求和,而是直接化为「找一条爬升不超速的函数,让它在 μ\muν\nu 上的均值差最大」。

直觉

势函数是一个把两个分布区分开的见证者:它应在 μ\mu 所在处取高、在 ν\nu 所在处取低,而它拉开的差距 Eμ[f]Eν[f]\mathbb{E}_\mu[f]-\mathbb{E}_\nu[f] 就度量了两者相距多远。1-Lipschitz 上限禁止它涨得比几何允许的更快——没有这个上限,这个分数可以被无界地抬高(在演示里把斜率拖过 ±1\pm 1,就能看到「对偶值」超过 W1W_1,而真正的下界永远不可能超过最优值)。最紧的合法见证者,得分恰好是 W1W_1

互补松弛:方案与价格如何咬合

原问题与对偶不是两个无关的最优化——在最优处它们由互补松弛精确咬合。只有当一对 (x,y)(x,y) 的价格约束取到等号 f(x)+g(y)=c(x,y)f(x)+g(y)=c(x,y) 时,最优方案才会沿这对真正搬运质量;约束一旦严格小于(f(x)+g(y)<c(x,y)f(x)+g(y)<c(x,y)),该对的传输量必为零。

π(x,y)>0  f(x)+g(y)=c(x,y).\pi^\star(x,y)>0\ \Longrightarrow\ f(x)+g(y)=c(x,y).

直觉:承包商只对那些「报价正好顶满你自己干的代价」的配对接单——别处他没有竞争力,质量也就不会从那里流过。这条等式刻画的「紧约束集」(称为 cc-循环单调的支撑)正是最优耦合允许出现的全部配对;上一节那个 μ=12δ0+12δ2\mu=\tfrac12\delta_0+\tfrac12\delta_2 的例子里,约束恰在 x=0,2x=0,2 处取等,而方案也确实只在这两对上搬运,正是互补松弛在起作用。这条等式还解释了下一节 Brenier 定理为何能从势函数还原映射:紧约束把每个 xx 钉在使等号成立的那个 yy 上。

这正是 Wasserstein-GAN 的评论者

Kantorovich–Rubinstein 形式就是 Wasserstein GAN 的目标。WGAN 的**评论者(critic)**就是势函数 ff;权重裁剪或梯度罚用来施加 1-Lipschitz 约束;生成器则被训练去降低 Eqx[f]\mathbb{E}_{q_x}[f],把生成分布 qxq_x 推向数据。看似一场对抗博弈,底层其实是一方求解 W1W_1 对偶、另一方沿它下降——这也是为何即便两个分布几乎不重叠,WGAN 的梯度依然有效(见支撑不相交的论证)。

对比一下普通 GAN 就看清了区别:普通判别器输出一个 [0,1][0,1] 的概率,当两个分布不重叠时它能轻易判到饱和(输出 0011),梯度随即消失,生成器收不到方向信号。WGAN 的评论者输出的是一个无界实数势函数,1-Lipschitz 约束保证它不会饱和,Eμ[f]Eqx[f]\mathbb{E}_\mu[f]-\mathbb{E}_{q_x}[f] 始终给出一个与 W1W_1 成正比、且处处可微的距离——这正是对偶视角带来的实际好处。

Brenier 定理:方案何时是一个映射

原问题页留了一个悬念——确定性的 Monge 映射「未必存在」,因为质量可能必须分裂。对偶把它了结了。对平方代价 c(x,y)=xy2c(x,y)=\lVert x-y\rVert^2、且源 μ\mu 绝对连续时,最优势函数本质上是一个凸函数,它的梯度就是最优映射:

T(x)=φ(x),φ 为凸函数,T(x)=\nabla\varphi(x),\qquad \varphi\ \text{为凸函数},

逐符号读:φ\varphi 是由对偶势函数构造出的凸势(具体为 φ(x)=12x2f(x)\varphi(x)=\tfrac12\lVert x\rVert^2-f(x) 这类形式),φ(x)\nabla\varphi(x) 是它在 xx 处的梯度,TT 则是把源点 xx 送往目标点的映射。凸性在这里是关键:它保证 φ\nabla\varphi 是单调的,从而不同的 xx 不会被映到同一个 yy 上去抢质量,于是无需分裂——这正是上一节互补松弛「把每个 xx 钉到一个 yy」在平方代价下的结果。于是 Kantorovich 最优解终究由一个真正的映射诱导——无需分裂质量。(Brenier 1991;Peyré & Cuturi §2.4。)这正是平方代价最优传输把一个分布「捋直」搬到另一个分布的确切含义。

深入

熵正则的对偶就是 Sinkhorn 势函数。 加入熵罚把硬约束 f+gcf+g\le c 软化为一个光滑罚项,对偶随之变得无约束且可微cc-变换软化为 soft-min(log-sum-exp):

fc,γ(y)=γlog ⁣e(f(x)c(x,y))/γdμ(x),f^{c,\gamma}(y)=-\gamma\log\!\int e^{\,(f(x)-c(x,y))/\gamma}\,d\mu(x),

而最优势函数恰是对数域的 Sinkhorn 缩放 f=γlogaf=\gamma\log ag=γlogbg=\gamma\log b。你在那里迭代的行/列缩放,就是这里的对偶价格——Sinkhorn 即是对这个光滑对偶做坐标上升。(Peyré & Cuturi §4.4;Cuturi 2013。)注意这里的 inf\inf 被换成了 γloge/γ-\gamma\log\int e^{\cdot/\gamma}:当 γ0\gamma\to0,soft-min 收敛到硬 inf\inf,光滑对偶退回前面那个非光滑的硬对偶;γ\gamma 越大,价格曲线越平、约束越松,这正是熵正则用一个温度旋钮在「硬指派」与「弥散对冲」之间拨档的对偶侧表现。

为何对偶对学习如此关键。 原问题在耦合上优化——一个随数据增长的 n×mn\times m 对象;对偶则在单个函数 ff 上优化,而函数恰可由神经网络直接参数化。正是这一替换,构成了全部机制:它使 Wasserstein 距离成为一个可训练的损失,而非每次都要重算的量;WGAN(硬性 1-Lipschitz 对偶)与 Sinkhorn 自编码器(光滑熵对偶)共享的也正是它——这就是从对偶一侧看到的「最优传输 → 自编码器」那条线。

在 Cryo-ET 重构里落到何处

这条对偶链不是抽象练习,它撑起了几种重构方法的训练目标。当你想让重构出的干净体分布去匹配一个参考分布时,你需要一个能反向传播的分布距离——而原问题给出的方案 π\pi 不可微、又随体素数暴涨,没法直接当损失。对偶把距离改写成一个势函数上的优化:CryoGEN-II 走 WAE/OT 路线,用本页的单一势函数目标得到一个稳定的单答案;Wasserstein GAN 则把同一个 1-Lipschitz 势函数当评论者来逼分布对齐。再往熵正则那侧走一步,光滑对偶的玻尔兹曼解就变成 EVIA / CryoWGEN 在 E-step 采样的逐图后验(细节见熵正则页)——同一套对偶,温度 γ0\gamma\to0 时给 MAP 式的单答案,γ>0\gamma>0 时给一族重构,正好承载缺失楔形留下的不确定性。

延伸阅读

← 最优传输