Wasserstein 自编码器 WAE

由最优传输视角导出的自编码器，以 MMD 或对抗惩罚匹配聚合后验与先验，而非逐样本 KL。

Wasserstein 自编码器（WAE）是一种生成式自编码器，由分布匹配的最优传输视角导出。它把重构代价与聚合（边缘）后验和先验之间的散度共同最小化：

聚合后验如何匹配先验 —— 调节匹配强度：

先验 p(z)聚合后验 q(z)

核 MMD 惩罚

0.558

惩罚权重 λλ = 0.10

弱 · 不匹配强 · 铺满先验

WAE 用一个固定高斯核的 MMD 来度量聚合后验 q(z) 与先验的差距——它是样本两两之间的闭式量，全程没有判别器。调大惩罚权重 λ，MMD 随之下降、q(z) 铺开覆盖先验；而单个编码仍可保持信息量，故样本更锐利。对照 AAE：同样的匹配，那里改由一个对抗判别器来做。

一句话先把全貌说清：WAE 要做两件事，且只有两件。其一，把每个输入 $x$ 编码为隐码 $z$ 再解码回去，重构得越像越好。其二，让所有隐码合在一起形成的那团点云，整体形状贴合一个事先选定的简单先验（通常是标准高斯）。第二件事只管这团点云的总体轮廓，不管某个具体 $x$ 落在哪里——这正是它区别于 VAE 的全部要害。VAE 要求每一个输入的隐码都各自向先验靠拢；WAE 只要求平均下来像先验。把”逐个约束”换成”整体约束”，看似细微，却决定了样本是模糊还是锐利。

直觉

设想隐空间里有两团点：编码器实际吐出的隐码，和从目标先验抽出的样本。你想让它们重合。WAE 不去训练任何裁判，而是直接写下一个闭式公式——固定核的最大均值差异（MMD）——来度量两团点之间的距离，在样本对上一算即得，全程没有判别器。与之对照，对抗自编码器做的是同一桩匹配，却雇了一个训练出来的对抗判别器当裁判。WAE 省去裁判，换来的是稳定与可复现——代价是核函数自带一套固定的”远近”标准，得选对带宽。

\min_{Q}\; \mathbb{E}_{p_X}\,\mathbb{E}_{Q(z\mid x)}\!\big[c\big(x, G(z)\big)\big] +\lambda\,\mathcal{D}\!\big(q_Z,\,p_Z\big), \qquad q_Z(z)=\int Q(z\mid x)\,p_X(x)\,dx,

逐个符号读一遍。 $\mathbb{E}_{p_X}$ 是对数据分布求平均，即遍历所有训练样本 $x$ ； $Q(z\mid x)$ 是编码器，给定 $x$ 后给出隐码 $z$ 的（可退化为点的）分布； $c(x, G(z))$ 是把 $z$ 解码回 $G(z)$ 后与原图 $x$ 的传输代价，常取平方误差 $\|x-G(z)\|^2$ ； $G$ 为解码器。第一项合起来就是一句话：平均重构误差。 $\mathcal{D}(q_Z, p_Z)$ 是作用于聚合后验 $q_Z$ 与先验 $p_Z$ 之间的散度， $\lambda$ 是它的权重。最后那条积分定义了 $q_Z$ ：把每个 $x$ 的隐码分布 $Q(z\mid x)$ 按 $x$ 在数据中出现的频率 $p_X(x)$ 加权混合——也就是”忘掉每个隐码来自哪个输入”之后，整团隐码的边缘形状。此形式源自数据分布与模型之间的最优传输距离：当解码器为确定性时， $p_X$ 与生成分布之间的耦合可经隐空间分解，从而把传输问题化简为重构加上对 $q_Z$ 的单一约束。

正是这一约束把 WAE 与变分自编码器区分开来。VAE 惩罚每个逐样本后验 $q_\phi(z\mid x)$ 对先验的 KL 散度；WAE 只要求聚合的 $q_Z$ 匹配 $p_Z$ ，即对数据分布求平均后得到的边缘隐分布。因此不同输入可映到重叠乃至相同的区域，编码器也可为确定性。去掉逐样本惩罚便松开了 VAE 中那股倾向于模糊重构的力，故 WAE 常产出更锐利的样本。

聚合匹配也保证了从先验采样的可生成性：训练完成后，自 $p_Z$ 抽取的隐编码经解码器即得新样本。当 $q_Z$ 与 $p_Z$ 充分接近时，这些采样落在解码器见过的隐区域内，从而避免逐样本约束过松时常见的”空洞”——先验中无对应编码支撑的区域。散度系数 $\lambda$ 权衡重构保真与隐分布的贴合程度： $\lambda$ 偏小，重构清晰但隐空间留有空洞，从先验采样易解出失真样本； $\lambda$ 偏大，隐分布贴合先验但重构开始受拖累。

最优传输导出

该目标并非臆设，而是导出的。数据分布 $p_X$ 与模型 $p_G$ （先验经解码器之像）之间的传输代价，是对以二者为边缘的耦合 $\Gamma$ 取下确界，

W_c(p_X, p_G) = \inf_{\Gamma\in\mathcal{P}(p_X, p_G)} \mathbb{E}_{(x, y)\sim\Gamma}\big[c(x, y)\big].

这里 $\Gamma$ 是一张联合”运输方案”： $\mathcal{P}(p_X, p_G)$ 是所有以 $p_X$ 、 $p_G$ 为两条边缘的联合分布之集， $\mathbb{E}_{(x,y)\sim\Gamma}[c(x,y)]$ 是按该方案把 $x$ 搬到 $y$ 的平均代价， $\inf$ 取遍所有方案找最省的那个。当解码器 $G$ 为确定性映射时，模型中每个 $y$ 都是某隐编码 $z$ 之像 $G(z)$ ，因此耦合可借隐变量表达，而无须遍及 $x$ 与 $y$ 的完整乘积空间。传输问题遂经隐空间分解：对耦合的极小化化简为对条件编码器 $Q(z\mid x)$ 极小化重构代价 $c(x, G(z))$ ，并受唯一一条边缘约束——聚合后验 $q_Z$ 须等于先验 $p_Z$ 。将该硬约束松弛为惩罚 $\lambda\,\mathcal{D}(q_Z, p_Z)$ 即得 WAE 目标。最优传输视角使之精确的，正是这条约束，而非某种近似。

值得点明这一步省了什么。直接对成对图像之间的耦合 $\Gamma$ 做优化，需要在整个 $x\times y$ 乘积空间上搜索，规模随像素数爆炸。隐空间分解把这个搜索压成了”编码器 + 解码器 + 一条隐空间约束”——前两者是普通的自编码器前向，后者是一个低维（隐维度）上的分布匹配。代价从图像空间的传输降到隐空间的匹配，正是 WAE 可训练的原因。

确定性与随机编码器，及锐利之源

由于仅聚合 $q_Z$ 受约束，编码器 $Q(z\mid x)$ 可为确定性——一个点映射 $z=Q(x)$ ——而不违背目标；随机编码器虽被允许，却非必需。VAE 则相反，依赖一个随机的逐样本后验，其对先验的 KL 项作用于每个 $x$ 之上。这股逐样本之力把每个后验向先验膨胀，使不同输入的编码相互重叠，而解码器在从这些重叠编码重构时只得以模糊的平均加以折中。只匹配聚合便消除了这股逐样本压力：只要均值匹配 $p_Z$ ，不同输入便可保持分离乃至不重叠的编码，解码器遂得以放手给出锐利重构。这正是 WAE 样本通常更锐利的机理。

用一幅小图把”模糊从何而来”坐实。设两个截然不同的输入 $x_1$ 、 $x_2$ 。VAE 的逐样本 KL 把 $q(z\mid x_1)$ 和 $q(z\mid x_2)$ 都各自往先验中心吹胀，二者的高概率区开始交叠；落在交叠区的某个 $z$ ，解码器既被要求解出 $x_1$ 又被要求解出 $x_2$ ，平方误差下的最优折中就是二者的平均——视觉上就是模糊。WAE 不施加这股逐样本之力， $Q(x_1)$ 与 $Q(x_2)$ 可以分得很开、互不交叠，每个 $z$ 只对应一个目标，解码器无须折中，于是锐利。

深入

$\mathcal{D}(q_Z, p_Z)$ 有两种常用估计。WAE-MMD 用固定核的最大均值差异——一个闭式、基于样本的惩罚，不需额外网络。给定核 $k$ ，MMD 把两团样本经核映入再生核希尔伯特空间，比较二者的均值嵌入： $\mathrm{MMD}^2 = \mathbb{E}_{z,z'\sim q_Z}k(z,z') + \mathbb{E}_{z,z'\sim p_Z}k(z,z') - 2\,\mathbb{E}_{z\sim q_Z, z'\sim p_Z}k(z,z')$ ，三项都用小批量样本对的均值估计，当两分布相同时取零。常用核如逆多二次核 $k(z,z')=C/(C+\|z-z'\|^2)$ ，比高斯核尾部更重，对远离原点的离群编码更敏感。WAE-GAN 在隐空间训练一个判别器以对抗方式估计散度，更灵活，但重新引入极小极大不稳定性——判别器滞后于移动中的 $q_Z$ 时，交给编码器的梯度便带偏差。

其对抗变体与对抗自编码器密切相关，后者同样通过判别器把聚合后验匹配到先验。二者皆可视为更广义的基于传输的匹配的特例——EVIA 以熵正则最优传输对此加以发展。

在 Cryo-ET 重建中的位置

Cryo-ET 重建没有可供模仿的真值体积，只有被缺失楔割裂的层析图。可用的监督是一个关于”真实结构长什么样”的先验，而”把一个分布匹配到先验”恰是 WAE 在隐空间求解的问题。把判别器换成闭式、基于传输的匹配这一步，正是 CryoGEN-II 相对 CryoGEN-I 所走的同一步：CryoGEN-I 以一个判别器作点估计复原器，继承了”深入”框中所述的极小极大不稳定；CryoGEN-II 走 WAE/OT 路线，用稳定的最优传输目标换下那位会动的裁判，给出一个稳定的单一答案。把聚合匹配再推进一步——EVIA 的熵正则传输——便支撑起 CryoWGEN，它不再只给一个复原体积，而是把它扩成一族后验样本，从而显式暴露缺失楔究竟把哪些细节留作未定。

← 生成与分布匹配