Wasserstein 自编码器 WAE

由最优传输视角导出的自编码器,以 MMD 或对抗惩罚匹配聚合后验与先验,而非逐样本 KL。

Wasserstein 自编码器(WAE)是一种生成式自编码器,由分布匹配的最优传输视角导出。它把重构代价与聚合(边缘)后验和先验之间的散度共同最小化:

x输入编码器 QQ(z | x)z隐编码解码器 GG(z)重构重构代价 c(x, x̂)聚合后验 q_Z对所有 x 取均值先验 p_Z如标准正态匹配(MMD 或对抗惩罚)匹配作用于聚合分布,而非逐样本

聚合后验如何匹配先验 —— 调节匹配强度:

无判别器 · 闭式核散度
先验 p(z)聚合后验 q(z)
核 MMD 惩罚
0.558

WAE 用一个固定高斯核的 MMD 来度量聚合后验 q(z) 与先验的差距——它是样本两两之间的闭式量,全程没有判别器。调大惩罚权重 λ,MMD 随之下降、q(z) 铺开覆盖先验;而单个编码仍可保持信息量,故样本更锐利。对照 AAE:同样的匹配,那里改由一个对抗判别器来做。

一句话先把全貌说清:WAE 要做两件事,且只有两件。其一,把每个输入 xx 编码为隐码 zz 再解码回去,重构得越像越好。其二,让所有隐码合在一起形成的那团点云,整体形状贴合一个事先选定的简单先验(通常是标准高斯)。第二件事只管这团点云的总体轮廓,不管某个具体 xx 落在哪里——这正是它区别于 VAE 的全部要害。VAE 要求每一个输入的隐码都各自向先验靠拢;WAE 只要求平均下来像先验。把”逐个约束”换成”整体约束”,看似细微,却决定了样本是模糊还是锐利。

直觉

设想隐空间里有两团点:编码器实际吐出的隐码,和从目标先验抽出的样本。你想让它们重合。WAE 不去训练任何裁判,而是直接写下一个闭式公式——固定核的最大均值差异(MMD)——来度量两团点之间的距离,在样本对上一算即得,全程没有判别器。与之对照,对抗自编码器做的是同一桩匹配,却雇了一个训练出来的对抗判别器当裁判。WAE 省去裁判,换来的是稳定与可复现——代价是核函数自带一套固定的”远近”标准,得选对带宽。

minQ  EpXEQ(zx) ⁣[c(x,G(z))]+λD ⁣(qZ,pZ),qZ(z)=Q(zx)pX(x)dx,\min_{Q}\; \mathbb{E}_{p_X}\,\mathbb{E}_{Q(z\mid x)}\!\big[c\big(x, G(z)\big)\big] +\lambda\,\mathcal{D}\!\big(q_Z,\,p_Z\big), \qquad q_Z(z)=\int Q(z\mid x)\,p_X(x)\,dx,

逐个符号读一遍。EpX\mathbb{E}_{p_X} 是对数据分布求平均,即遍历所有训练样本 xxQ(zx)Q(z\mid x) 是编码器,给定 xx 后给出隐码 zz 的(可退化为点的)分布;c(x,G(z))c(x, G(z)) 是把 zz 解码回 G(z)G(z) 后与原图 xx 的传输代价,常取平方误差 xG(z)2\|x-G(z)\|^2GG 为解码器。第一项合起来就是一句话:平均重构误差D(qZ,pZ)\mathcal{D}(q_Z, p_Z) 是作用于聚合后验 qZq_Z 与先验 pZp_Z 之间的散度,λ\lambda 是它的权重。最后那条积分定义了 qZq_Z:把每个 xx 的隐码分布 Q(zx)Q(z\mid x)xx 在数据中出现的频率 pX(x)p_X(x) 加权混合——也就是”忘掉每个隐码来自哪个输入”之后,整团隐码的边缘形状。此形式源自数据分布与模型之间的最优传输距离:当解码器为确定性时,pXp_X 与生成分布之间的耦合可经隐空间分解,从而把传输问题化简为重构加上对 qZq_Z 的单一约束。

正是这一约束把 WAE 与变分自编码器区分开来。VAE 惩罚每个逐样本后验 qϕ(zx)q_\phi(z\mid x) 对先验的 KL 散度;WAE 只要求聚合qZq_Z 匹配 pZp_Z,即对数据分布求平均后得到的边缘隐分布。因此不同输入可映到重叠乃至相同的区域,编码器也可为确定性。去掉逐样本惩罚便松开了 VAE 中那股倾向于模糊重构的力,故 WAE 常产出更锐利的样本。

聚合匹配也保证了从先验采样的可生成性:训练完成后,自 pZp_Z 抽取的隐编码经解码器即得新样本。当 qZq_ZpZp_Z 充分接近时,这些采样落在解码器见过的隐区域内,从而避免逐样本约束过松时常见的”空洞”——先验中无对应编码支撑的区域。散度系数 λ\lambda 权衡重构保真与隐分布的贴合程度:λ\lambda 偏小,重构清晰但隐空间留有空洞,从先验采样易解出失真样本;λ\lambda 偏大,隐分布贴合先验但重构开始受拖累。

最优传输导出

该目标并非臆设,而是导出的。数据分布 pXp_X 与模型 pGp_G(先验经解码器之像)之间的传输代价,是对以二者为边缘的耦合 Γ\Gamma 取下确界,

Wc(pX,pG)=infΓP(pX,pG)E(x,y)Γ[c(x,y)].W_c(p_X, p_G) = \inf_{\Gamma\in\mathcal{P}(p_X, p_G)} \mathbb{E}_{(x, y)\sim\Gamma}\big[c(x, y)\big].

这里 Γ\Gamma 是一张联合”运输方案”:P(pX,pG)\mathcal{P}(p_X, p_G) 是所有以 pXp_XpGp_G 为两条边缘的联合分布之集,E(x,y)Γ[c(x,y)]\mathbb{E}_{(x,y)\sim\Gamma}[c(x,y)] 是按该方案把 xx 搬到 yy 的平均代价,inf\inf 取遍所有方案找最省的那个。当解码器 GG 为确定性映射时,模型中每个 yy 都是某隐编码 zz 之像 G(z)G(z),因此耦合可借隐变量表达,而无须遍及 xxyy 的完整乘积空间。传输问题遂经隐空间分解:对耦合的极小化化简为对条件编码器 Q(zx)Q(z\mid x) 极小化重构代价 c(x,G(z))c(x, G(z)),并受唯一一条边缘约束——聚合后验 qZq_Z 须等于先验 pZp_Z。将该硬约束松弛为惩罚 λD(qZ,pZ)\lambda\,\mathcal{D}(q_Z, p_Z) 即得 WAE 目标。最优传输视角使之精确的,正是这条约束,而非某种近似。

值得点明这一步省了什么。直接对成对图像之间的耦合 Γ\Gamma 做优化,需要在整个 x×yx\times y 乘积空间上搜索,规模随像素数爆炸。隐空间分解把这个搜索压成了”编码器 + 解码器 + 一条隐空间约束”——前两者是普通的自编码器前向,后者是一个低维(隐维度)上的分布匹配。代价从图像空间的传输降到隐空间的匹配,正是 WAE 可训练的原因。

确定性与随机编码器,及锐利之源

由于仅聚合 qZq_Z 受约束,编码器 Q(zx)Q(z\mid x) 可为确定性——一个点映射 z=Q(x)z=Q(x)——而不违背目标;随机编码器虽被允许,却非必需。VAE 则相反,依赖一个随机的逐样本后验,其对先验的 KL 项作用于每个 xx 之上。这股逐样本之力把每个后验向先验膨胀,使不同输入的编码相互重叠,而解码器在从这些重叠编码重构时只得以模糊的平均加以折中。只匹配聚合便消除了这股逐样本压力:只要均值匹配 pZp_Z,不同输入便可保持分离乃至不重叠的编码,解码器遂得以放手给出锐利重构。这正是 WAE 样本通常更锐利的机理。

用一幅小图把”模糊从何而来”坐实。设两个截然不同的输入 x1x_1x2x_2。VAE 的逐样本 KL 把 q(zx1)q(z\mid x_1)q(zx2)q(z\mid x_2) 都各自往先验中心吹胀,二者的高概率区开始交叠;落在交叠区的某个 zz,解码器既被要求解出 x1x_1 又被要求解出 x2x_2,平方误差下的最优折中就是二者的平均——视觉上就是模糊。WAE 不施加这股逐样本之力,Q(x1)Q(x_1)Q(x2)Q(x_2) 可以分得很开、互不交叠,每个 zz 只对应一个目标,解码器无须折中,于是锐利。

深入

D(qZ,pZ)\mathcal{D}(q_Z, p_Z) 有两种常用估计。WAE-MMD 用固定核的最大均值差异——一个闭式、基于样本的惩罚,不需额外网络。给定核 kk,MMD 把两团样本经核映入再生核希尔伯特空间,比较二者的均值嵌入:MMD2=Ez,zqZk(z,z)+Ez,zpZk(z,z)2EzqZ,zpZk(z,z)\mathrm{MMD}^2 = \mathbb{E}_{z,z'\sim q_Z}k(z,z') + \mathbb{E}_{z,z'\sim p_Z}k(z,z') - 2\,\mathbb{E}_{z\sim q_Z, z'\sim p_Z}k(z,z'),三项都用小批量样本对的均值估计,当两分布相同时取零。常用核如逆多二次核 k(z,z)=C/(C+zz2)k(z,z')=C/(C+\|z-z'\|^2),比高斯核尾部更重,对远离原点的离群编码更敏感。WAE-GAN 在隐空间训练一个判别器以对抗方式估计散度,更灵活,但重新引入极小极大不稳定性——判别器滞后于移动中的 qZq_Z 时,交给编码器的梯度便带偏差。

其对抗变体与对抗自编码器密切相关,后者同样通过判别器把聚合后验匹配到先验。二者皆可视为更广义的基于传输的匹配的特例——EVIA 以熵正则最优传输对此加以发展。

在 Cryo-ET 重建中的位置

Cryo-ET 重建没有可供模仿的真值体积,只有被缺失楔割裂的层析图。可用的监督是一个关于”真实结构长什么样”的先验,而”把一个分布匹配到先验”恰是 WAE 在隐空间求解的问题。把判别器换成闭式、基于传输的匹配这一步,正是 CryoGEN-II 相对 CryoGEN-I 所走的同一步:CryoGEN-I 以一个判别器作点估计复原器,继承了”深入”框中所述的极小极大不稳定;CryoGEN-II 走 WAE/OT 路线,用稳定的最优传输目标换下那位会动的裁判,给出一个稳定的单一答案。把聚合匹配再推进一步——EVIA 的熵正则传输——便支撑起 CryoWGEN,它不再只给一个复原体积,而是把它扩成一族后验样本,从而显式暴露缺失楔究竟把哪些细节留作未定。

← 生成与分布匹配