Wasserstein 自编码器 WAE
由最优传输视角导出的自编码器,以 MMD 或对抗惩罚匹配聚合后验与先验,而非逐样本 KL。
Wasserstein 自编码器(WAE)是一种生成式自编码器,由分布匹配的最优传输视角导出。它把重构代价与聚合(边缘)后验和先验之间的散度共同最小化:
聚合后验如何匹配先验 —— 调节匹配强度:
WAE 用一个固定高斯核的 MMD 来度量聚合后验 q(z) 与先验的差距——它是样本两两之间的闭式量,全程没有判别器。调大惩罚权重 λ,MMD 随之下降、q(z) 铺开覆盖先验;而单个编码仍可保持信息量,故样本更锐利。对照 AAE:同样的匹配,那里改由一个对抗判别器来做。
一句话先把全貌说清:WAE 要做两件事,且只有两件。其一,把每个输入 编码为隐码 再解码回去,重构得越像越好。其二,让所有隐码合在一起形成的那团点云,整体形状贴合一个事先选定的简单先验(通常是标准高斯)。第二件事只管这团点云的总体轮廓,不管某个具体 落在哪里——这正是它区别于 VAE 的全部要害。VAE 要求每一个输入的隐码都各自向先验靠拢;WAE 只要求平均下来像先验。把”逐个约束”换成”整体约束”,看似细微,却决定了样本是模糊还是锐利。
设想隐空间里有两团点:编码器实际吐出的隐码,和从目标先验抽出的样本。你想让它们重合。WAE 不去训练任何裁判,而是直接写下一个闭式公式——固定核的最大均值差异(MMD)——来度量两团点之间的距离,在样本对上一算即得,全程没有判别器。与之对照,对抗自编码器做的是同一桩匹配,却雇了一个训练出来的对抗判别器当裁判。WAE 省去裁判,换来的是稳定与可复现——代价是核函数自带一套固定的”远近”标准,得选对带宽。
逐个符号读一遍。 是对数据分布求平均,即遍历所有训练样本 ; 是编码器,给定 后给出隐码 的(可退化为点的)分布; 是把 解码回 后与原图 的传输代价,常取平方误差 ; 为解码器。第一项合起来就是一句话:平均重构误差。 是作用于聚合后验 与先验 之间的散度, 是它的权重。最后那条积分定义了 :把每个 的隐码分布 按 在数据中出现的频率 加权混合——也就是”忘掉每个隐码来自哪个输入”之后,整团隐码的边缘形状。此形式源自数据分布与模型之间的最优传输距离:当解码器为确定性时, 与生成分布之间的耦合可经隐空间分解,从而把传输问题化简为重构加上对 的单一约束。
正是这一约束把 WAE 与变分自编码器区分开来。VAE 惩罚每个逐样本后验 对先验的 KL 散度;WAE 只要求聚合的 匹配 ,即对数据分布求平均后得到的边缘隐分布。因此不同输入可映到重叠乃至相同的区域,编码器也可为确定性。去掉逐样本惩罚便松开了 VAE 中那股倾向于模糊重构的力,故 WAE 常产出更锐利的样本。
聚合匹配也保证了从先验采样的可生成性:训练完成后,自 抽取的隐编码经解码器即得新样本。当 与 充分接近时,这些采样落在解码器见过的隐区域内,从而避免逐样本约束过松时常见的”空洞”——先验中无对应编码支撑的区域。散度系数 权衡重构保真与隐分布的贴合程度: 偏小,重构清晰但隐空间留有空洞,从先验采样易解出失真样本; 偏大,隐分布贴合先验但重构开始受拖累。
最优传输导出
该目标并非臆设,而是导出的。数据分布 与模型 (先验经解码器之像)之间的传输代价,是对以二者为边缘的耦合 取下确界,
这里 是一张联合”运输方案”: 是所有以 、 为两条边缘的联合分布之集, 是按该方案把 搬到 的平均代价, 取遍所有方案找最省的那个。当解码器 为确定性映射时,模型中每个 都是某隐编码 之像 ,因此耦合可借隐变量表达,而无须遍及 与 的完整乘积空间。传输问题遂经隐空间分解:对耦合的极小化化简为对条件编码器 极小化重构代价 ,并受唯一一条边缘约束——聚合后验 须等于先验 。将该硬约束松弛为惩罚 即得 WAE 目标。最优传输视角使之精确的,正是这条约束,而非某种近似。
值得点明这一步省了什么。直接对成对图像之间的耦合 做优化,需要在整个 乘积空间上搜索,规模随像素数爆炸。隐空间分解把这个搜索压成了”编码器 + 解码器 + 一条隐空间约束”——前两者是普通的自编码器前向,后者是一个低维(隐维度)上的分布匹配。代价从图像空间的传输降到隐空间的匹配,正是 WAE 可训练的原因。
确定性与随机编码器,及锐利之源
由于仅聚合 受约束,编码器 可为确定性——一个点映射 ——而不违背目标;随机编码器虽被允许,却非必需。VAE 则相反,依赖一个随机的逐样本后验,其对先验的 KL 项作用于每个 之上。这股逐样本之力把每个后验向先验膨胀,使不同输入的编码相互重叠,而解码器在从这些重叠编码重构时只得以模糊的平均加以折中。只匹配聚合便消除了这股逐样本压力:只要均值匹配 ,不同输入便可保持分离乃至不重叠的编码,解码器遂得以放手给出锐利重构。这正是 WAE 样本通常更锐利的机理。
用一幅小图把”模糊从何而来”坐实。设两个截然不同的输入 、。VAE 的逐样本 KL 把 和 都各自往先验中心吹胀,二者的高概率区开始交叠;落在交叠区的某个 ,解码器既被要求解出 又被要求解出 ,平方误差下的最优折中就是二者的平均——视觉上就是模糊。WAE 不施加这股逐样本之力, 与 可以分得很开、互不交叠,每个 只对应一个目标,解码器无须折中,于是锐利。
有两种常用估计。WAE-MMD 用固定核的最大均值差异——一个闭式、基于样本的惩罚,不需额外网络。给定核 ,MMD 把两团样本经核映入再生核希尔伯特空间,比较二者的均值嵌入:,三项都用小批量样本对的均值估计,当两分布相同时取零。常用核如逆多二次核 ,比高斯核尾部更重,对远离原点的离群编码更敏感。WAE-GAN 在隐空间训练一个判别器以对抗方式估计散度,更灵活,但重新引入极小极大不稳定性——判别器滞后于移动中的 时,交给编码器的梯度便带偏差。
其对抗变体与对抗自编码器密切相关,后者同样通过判别器把聚合后验匹配到先验。二者皆可视为更广义的基于传输的匹配的特例——EVIA 以熵正则最优传输对此加以发展。
在 Cryo-ET 重建中的位置
Cryo-ET 重建没有可供模仿的真值体积,只有被缺失楔割裂的层析图。可用的监督是一个关于”真实结构长什么样”的先验,而”把一个分布匹配到先验”恰是 WAE 在隐空间求解的问题。把判别器换成闭式、基于传输的匹配这一步,正是 CryoGEN-II 相对 CryoGEN-I 所走的同一步:CryoGEN-I 以一个判别器作点估计复原器,继承了”深入”框中所述的极小极大不稳定;CryoGEN-II 走 WAE/OT 路线,用稳定的最优传输目标换下那位会动的裁判,给出一个稳定的单一答案。把聚合匹配再推进一步——EVIA 的熵正则传输——便支撑起 CryoWGEN,它不再只给一个复原体积,而是把它扩成一族后验样本,从而显式暴露缺失楔究竟把哪些细节留作未定。