Kantorovich 对偶与对偶势函数

每个传输问题都有一个对偶——它选的不是方案而是价格；c-变换把它收成单个势函数，W₁ 情形恰是 Wasserstein-GAN 的评论者，Brenier 定理则找回最优映射。

Kantorovich 问题选的是一个传输方案——一个关于配对 $(x,y)$ 的耦合 $\pi$ 。每个这样的问题都有一个对偶，它选的是完全不同的东西：不是方案，而是一对价格。正是这个对偶视角，把 Wasserstein 距离从「一个待计算的数」变成「一个可训练的目标」，也正是 Wasserstein 自编码器与 Wasserstein GAN——以及经由它们的 CryoGEN-II 与 CryoWGEN——所默默依赖的那一块。

一句话先把全篇串起来：原问题在「搬什么去哪」上优化（一个二维表 $\pi$ ），对偶在「每处值多少」上优化（两条曲线 $f,g$ ）；两者给出同一个数，但后者的未知量是一个函数，而函数恰是神经网络能直接拟合的对象。下面四节分别说明这对价格如何收成一个势函数、距离代价下它为何变成 1-Lipschitz、它如何就是 WGAN 的评论者，以及平方代价下它的梯度如何还原出一张真正的映射。

用两套价格取代一个方案

设想一个运输承包商。你不再自己安排每一铲土的去向（即选 $\pi$ ），而是雇一个承包商，他张贴两套价格：在 $x$ 处装载一单位收 $f(x)$ ，在 $y$ 处卸载收 $g(y)$ 。承包商想最大化收入 $\int f\,d\mu + \int g\,d\nu$ ，但要拿到你的生意，任何一对装–卸的报价都不能高过你自己干的代价，即 $f(x)+g(y)\le c(x,y)$ 。对偶问题正是

\sup_{f,g}\ \int f\,d\mu + \int g\,d\nu \qquad\text{s.t.}\qquad f(x)+g(y)\le c(x,y)\ \ \forall x,y.

逐符号读： $\mu$ 是供给分布（土堆在哪）， $\nu$ 是需求分布（坑在哪）， $c(x,y)$ 是把一单位从 $x$ 搬到 $y$ 的单位代价； $f$ 是「装载价表」、 $g$ 是「卸载价表」，都是定义在整个空间上的函数。目标 $\int f\,d\mu$ 是承包商在所有土堆处收到的装载费总和、 $\int g\,d\nu$ 是在所有坑处收到的卸载费总和。约束对每一对 $(x,y)$ 都要成立，因为你随时可以选择「自己把这一对搬掉」，承包商的两段报价之和绝不能让你产生这个念头。

强对偶成立：这个上确界等于原问题的下确界——最便宜的方案，恰好等于最精明的承包商能开出的价。（Kantorovich 对偶；Peyré & Cuturi 2019, §2.5。）

= W₁　最优（1-Lipschitz 上界正好达到）

势函数斜率s = -1.00

陡（−1.5）陡（+1.5）

对偶问题不再选运输方案，而是选一个势函数 f，最大化 𝔼_μ[f] − 𝔼_ν[f]。势函数想尽量陡以把 μ 与 ν 拉开，但 Kantorovich–Rubinstein 要求 f 必须 1-Lipschitz（斜率绝对值 ≤ 1）。这个上限恰好把对偶值卡在 W₁：斜率 −1 时取等。把斜率推过 ±1，对偶值会超过 W₁ —— 而真正的下界不可能超过最优值，这正说明那条 1-Lipschitz 约束不可或缺。

把它落到一个能心算的例子上。设 $\mu$ 把全部质量放在一点 $x_0$ ， $\nu$ 把全部质量放在一点 $y_0$ ，代价 $c=\lVert x_0-y_0\rVert$ 。原问题别无选择，只能整团搬过去，代价就是这段距离 $d=\lVert x_0-y_0\rVert$ 。对偶这边，承包商要在 $f(x_0)+g(y_0)\le d$ 下最大化 $f(x_0)+g(y_0)$ ，于是把不等式顶到等号，收入正是 $d$ ——两边相等，强对偶在这个最简情形里一眼可见。稍微复杂一点： $\mu=\tfrac12\delta_{0}+\tfrac12\delta_{2}$ 、 $\nu=\delta_{1}$ ，代价取距离。两个土堆都到 $1$ 的距离都是 $1$ ，最优方案把各半单位都搬到 $1$ ，总代价 $\tfrac12\cdot1+\tfrac12\cdot1=1$ ；对偶取 $f(0)=f(2)=\tfrac12$ 、 $g(1)=\tfrac12$ （容易验证 $f(x)+g(1)\le|x-1|$ 在 $x=0,2$ 处取等），收入 $\tfrac12\cdot\tfrac12+\tfrac12\cdot\tfrac12+\tfrac12=1$ ，再次吻合。

c-变换：把两个势函数收成一个

固定 $f$ 后，承包商在每个 $y$ 处能做的，就是在约束允许范围内尽量多收，于是得到 $c$ -变换

f^{c}(y)=\inf_{x}\big(c(x,y)-f(x)\big).

这一步只是把「对每个 $y$ 把 $g(y)$ 抬到约束的天花板」写成公式：约束 $g(y)\le c(x,y)-f(x)$ 要对所有 $x$ 成立，所以 $g(y)$ 最大只能取这些上界里最小的那一个，即对 $x$ 取下确界。换言之，一旦定下装载价 $f$ ，最优的卸载价 $g$ 就不再是自由变量——它被 $f$ 完全决定。代入 $g=f^{c}$ ，两套价格便收成一个。对偶随之化为对单个势函数的最大化：

\sup_{f}\ \int f\,d\mu + \int f^{c}\,d\nu .

这就是半对偶，而那个孤立的 $f$ 正是编码器–解码器方法所说的「单一势函数」：只对一个函数 $f$ 优化，正是 CryoGEN-II 得以用单势函数目标取代对抗 min–max 的原因。（Peyré & Cuturi §3.1；Genevay 等，半对偶随机 OT。）这件事在工程上很要紧：原问题的未知量 $\pi$ 是一个随数据规模膨胀的 $n\times m$ 表，而半对偶的未知量 $f$ 是一个函数，可以交给一张网络去拟合，再用随机梯度在小批量上优化——OT 能进生成模型的训练回路，转折点就在这里。

W₁ 与 1-Lipschitz 势函数

当代价取距离本身 $c(x,y)=\lVert x-y\rVert$ 时，约束迫使 $g=-f$ 且 $f$ 为 1-Lipschitz，半对偶随之化为简洁的 Kantorovich–Rubinstein 形式

W_1(\mu,\nu)=\sup_{\lVert f\rVert_{\mathrm{Lip}}\le 1}\ \mathbb{E}_{\mu}[f]-\mathbb{E}_{\nu}[f].

为何距离代价会逼出这两条结论？把 $c(x,y)=\lVert x-y\rVert$ 代进约束 $f(x)+g(y)\le\lVert x-y\rVert$ ：取 $x=y$ 得 $f(x)+g(x)\le0$ ；又因三角不等式可证 $f^{c}=-f$ ，于是 $g=-f$ ，两条价表退化为一条的正负镜像。代入约束得 $f(x)-f(y)\le\lVert x-y\rVert$ 对所有 $x,y$ 成立，这恰是 1-Lipschitz（斜率绝对值不超过 $1$ ）的定义。 $\lVert f\rVert_{\mathrm{Lip}}\le1$ 即此约束； $\mathbb{E}_{\mu}[f]-\mathbb{E}_{\nu}[f]$ 是同一个势函数在两个分布上的均值之差。于是 $W_1$ 不再需要先解出方案再求和，而是直接化为「找一条爬升不超速的函数，让它在 $\mu$ 与 $\nu$ 上的均值差最大」。

直觉

势函数是一个把两个分布区分开的见证者：它应在 $\mu$ 所在处取高、在 $\nu$ 所在处取低，而它拉开的差距 $\mathbb{E}_\mu[f]-\mathbb{E}_\nu[f]$ 就度量了两者相距多远。1-Lipschitz 上限禁止它涨得比几何允许的更快——没有这个上限，这个分数可以被无界地抬高（在演示里把斜率拖过 $\pm 1$ ，就能看到「对偶值」超过 $W_1$ ，而真正的下界永远不可能超过最优值）。最紧的合法见证者，得分恰好是 $W_1$ 。

互补松弛：方案与价格如何咬合

原问题与对偶不是两个无关的最优化——在最优处它们由互补松弛精确咬合。只有当一对 $(x,y)$ 的价格约束取到等号 $f(x)+g(y)=c(x,y)$ 时，最优方案才会沿这对真正搬运质量；约束一旦严格小于（ $f(x)+g(y)<c(x,y)$ ），该对的传输量必为零。

\pi^\star(x,y)>0\ \Longrightarrow\ f(x)+g(y)=c(x,y).

直觉：承包商只对那些「报价正好顶满你自己干的代价」的配对接单——别处他没有竞争力，质量也就不会从那里流过。这条等式刻画的「紧约束集」（称为 $c$ -循环单调的支撑）正是最优耦合允许出现的全部配对；上一节那个 $\mu=\tfrac12\delta_0+\tfrac12\delta_2$ 的例子里，约束恰在 $x=0,2$ 处取等，而方案也确实只在这两对上搬运，正是互补松弛在起作用。这条等式还解释了下一节 Brenier 定理为何能从势函数还原映射：紧约束把每个 $x$ 钉在使等号成立的那个 $y$ 上。

这正是 Wasserstein-GAN 的评论者

Kantorovich–Rubinstein 形式就是 Wasserstein GAN 的目标。WGAN 的**评论者（critic）**就是势函数 $f$ ；权重裁剪或梯度罚用来施加 1-Lipschitz 约束；生成器则被训练去降低 $\mathbb{E}_{q_x}[f]$ ，把生成分布 $q_x$ 推向数据。看似一场对抗博弈，底层其实是一方求解 $W_1$ 对偶、另一方沿它下降——这也是为何即便两个分布几乎不重叠，WGAN 的梯度依然有效（见支撑不相交的论证）。

对比一下普通 GAN 就看清了区别：普通判别器输出一个 $[0,1]$ 的概率，当两个分布不重叠时它能轻易判到饱和（输出 $0$ 或 $1$ ），梯度随即消失，生成器收不到方向信号。WGAN 的评论者输出的是一个无界实数势函数，1-Lipschitz 约束保证它不会饱和， $\mathbb{E}_\mu[f]-\mathbb{E}_{q_x}[f]$ 始终给出一个与 $W_1$ 成正比、且处处可微的距离——这正是对偶视角带来的实际好处。

Brenier 定理：方案何时是一个映射

原问题页留了一个悬念——确定性的 Monge 映射「未必存在」，因为质量可能必须分裂。对偶把它了结了。对平方代价 $c(x,y)=\lVert x-y\rVert^2$ 、且源 $\mu$ 绝对连续时，最优势函数本质上是一个凸函数，它的梯度就是最优映射：

T(x)=\nabla\varphi(x),\qquad \varphi\ \text{为凸函数},

逐符号读： $\varphi$ 是由对偶势函数构造出的凸势（具体为 $\varphi(x)=\tfrac12\lVert x\rVert^2-f(x)$ 这类形式）， $\nabla\varphi(x)$ 是它在 $x$ 处的梯度， $T$ 则是把源点 $x$ 送往目标点的映射。凸性在这里是关键：它保证 $\nabla\varphi$ 是单调的，从而不同的 $x$ 不会被映到同一个 $y$ 上去抢质量，于是无需分裂——这正是上一节互补松弛「把每个 $x$ 钉到一个 $y$ 」在平方代价下的结果。于是 Kantorovich 最优解终究由一个真正的映射诱导——无需分裂质量。（Brenier 1991；Peyré & Cuturi §2.4。）这正是平方代价最优传输把一个分布「捋直」搬到另一个分布的确切含义。

深入

熵正则的对偶就是 Sinkhorn 势函数。 加入熵罚把硬约束 $f+g\le c$ 软化为一个光滑罚项，对偶随之变得无约束且可微。 $c$ -变换软化为 soft-min（log-sum-exp）：

f^{c,\gamma}(y)=-\gamma\log\!\int e^{\,(f(x)-c(x,y))/\gamma}\,d\mu(x),

而最优势函数恰是对数域的 Sinkhorn 缩放 $f=\gamma\log a$ 、 $g=\gamma\log b$ 。你在那里迭代的行/列缩放，就是这里的对偶价格——Sinkhorn 即是对这个光滑对偶做坐标上升。（Peyré & Cuturi §4.4；Cuturi 2013。）注意这里的 $\inf$ 被换成了 $-\gamma\log\int e^{\cdot/\gamma}$ ：当 $\gamma\to0$ ，soft-min 收敛到硬 $\inf$ ，光滑对偶退回前面那个非光滑的硬对偶； $\gamma$ 越大，价格曲线越平、约束越松，这正是熵正则用一个温度旋钮在「硬指派」与「弥散对冲」之间拨档的对偶侧表现。

为何对偶对学习如此关键。 原问题在耦合上优化——一个随数据增长的 $n\times m$ 对象；对偶则在单个函数 $f$ 上优化，而函数恰可由神经网络直接参数化。正是这一替换，构成了全部机制：它使 Wasserstein 距离成为一个可训练的损失，而非每次都要重算的量；WGAN（硬性 1-Lipschitz 对偶）与 Sinkhorn 自编码器（光滑熵对偶）共享的也正是它——这就是从对偶一侧看到的「最优传输 → 自编码器」那条线。

在 Cryo-ET 重构里落到何处

这条对偶链不是抽象练习，它撑起了几种重构方法的训练目标。当你想让重构出的干净体分布去匹配一个参考分布时，你需要一个能反向传播的分布距离——而原问题给出的方案 $\pi$ 不可微、又随体素数暴涨，没法直接当损失。对偶把距离改写成一个势函数上的优化：CryoGEN-II 走 WAE/OT 路线，用本页的单一势函数目标得到一个稳定的单答案；Wasserstein GAN 则把同一个 1-Lipschitz 势函数当评论者来逼分布对齐。再往熵正则那侧走一步，光滑对偶的玻尔兹曼解就变成 EVIA / CryoWGEN 在 E-step 采样的逐图后验（细节见熵正则页）——同一套对偶，温度 $\gamma\to0$ 时给 MAP 式的单答案， $\gamma>0$ 时给一族重构，正好承载缺失楔形留下的不确定性。