熵变分推断自编码 EVIA
用熵正则最优传输匹配聚合后验,得到玻尔兹曼后验与软重心编码器 —— WAE 的随机化推广
EVIA(Entropic Variational Inference Auto-encoding,熵变分推断自编码)是一类自编码算法:它用**熵正则最优传输**来匹配聚合后验与先验。可以把它看作 WAE 的推广 —— WAE 以最优传输代价匹配分布,EVIA 在该代价上再加一项熵,从而把”逐点确定性的编码器”换成”对每个输入给出一族潜变量的玻尔兹曼后验”。
γ→0:后验坍缩为单点 —— 即 WAE / CryoGEN-II 的确定性映射;γ>0:一族编码,刻画缺失楔形带来的不确定性。
一句话概括三者的关系:VAE 逐样本地把每个 q(z∣x) 拉向先验;WAE 只约束聚合后验 qZ=∫q(z∣x)pX(x)dx 而放任编码器收缩成一张确定性映射;EVIA 同样只约束聚合后验,却用一个温度 γ 把编码器”撑开”,让它在确定映射(γ→0)与弥散分布(γ 大)之间连续可调。这条温度旋钮正是后文所有结构的来源。
直觉
以最优传输匹配分布时,若不加正则,最优解往往退化成一张确定性映射(Monge 映射)—— 编码器对每个 x 只吐一个 z。但推断本应是分布性的:同一个 x 可以对应多个合理的潜表示。EVIA 在传输代价里加一项熵,像一道势垒,逼迫解保持”摊开”,于是后验重新变成处处为正、可采样的分布。
把这件事放到缺失楔形修复上看就更具体:一张倾斜系列重构出的层析图,因为没有采到高角度投影,沿缺失方向的信息是真的丢了。一个确定性编码器只能挑出”一个”最可能的填充,把推断的不确定性藏起来;而 EVIA 给出的是”一族”与观测一致的填充,温度 γ 直接对应”我们对没看到的方向有多不确定”。
熵正则与玻尔兹曼后验
设数据 x、潜变量 z、解码器 A:z↦x,参考耦合 κ、温度 γ>0。EVIA 的原始目标是带熵罚的最优传输:
π∈Π(px,qz)minE(x,z)∼π[∥x−A(z)∥2]+γKL(π∥κ).
逐项读这个式子:π∈Π(px,qz) 是以数据边缘 px 和潜分布边缘 qz 为约束的所有联合耦合;第一项 E∥x−A(z)∥2 是传输代价,要求被配到一起的 (x,z) 经解码后能重构出 x;第二项 γKL(π∥κ) 是相对参考耦合 κ 的熵罚,温度 γ 是它的权重。γ 越大,越偏好接近 κ、越”摊开”的耦合;γ→0 时熵罚消失,目标退回纯传输,最优耦合塌成确定映射。把它和上一节 WAE 的目标比较:WAE 是 γ=0 的特例,EVIA 只是给同一个传输问题加了温度。
深入
引入先验势 w(z)(对应聚合后验的边缘约束;在 Cryo-ET 中由对抗学得的能量评判器 Dψ=−Eϕ 实现),再以数据拟合权重 λ 定义效用 G(z;x)=w(z)−2λ∥x−A(z)∥2。由吉布斯变分原理(Donsker–Varadhan),固定 x 时最优条件分布取吉布斯(玻尔兹曼)形式:
q⋆(z∣x)∝κ(z∣x)exp(γG(z;x)),处处为正。这与熵正则最优传输的玻尔兹曼耦合 π⋆∝κe−c/γ 同源,区别仅在多了对抗项 w。γ→0 时退回 WAE 的确定性硬传输。
逐项的物理意义:效用 G 把两股力写在一起 —— w(z) 奖励”看起来像真分布”的潜码(高能量评判分),−2λ∥x−A(z)∥2 惩罚重构不上 x 的潜码;λ 调两者的相对话语权。指数里的 G/γ 是统计力学里熟悉的”负能量除以温度”:γ 小,分布尖锐地压在效用最高的 z 上,逼近一个 argmax;γ 大,分布被抹平,接近参考 κ。w 这一项把单纯的传输匹配换成了能量基模型式的密度匹配,正是它把 EVIA 接到了能量基模型与对抗训练上。
温度 γ 如何控制后验的宽度与重构的不确定性 —— 拖动温度看:
能量 E(x)后验 q(x|y) ∝ e^(−E/γ)
后验宽 —— 一族重构 → 缺失楔形不确定性(CryoWGEN)
温度 γ 直接决定后验的宽度。把数据一致性写成能量 E(x)(琥珀井),后验就是井里的玻尔兹曼分布 q(x|y) ∝ e^(−E(x)/γ)(紫)。γ→0 时它塌成井底的一根尖峰 —— 单一确定重构,正是 WAE / CryoGEN-II;γ 变大,它在井里摊开成一族重构,这个宽度就是缺失楔形留下的不确定性,也就是 CryoWGEN 报告的东西。底部的紫色刻度是从后验抽出的样本重构,随 γ 增大而散开。
往两个极端拨这个旋钮:γ→0 时玻尔兹曼分布坍缩到效用最高的单点,EVIA 变成 WAE 的确定性编码器,给出”最佳猜测”的单一重构;γ 很大时后验摊回参考 κ,编码器几乎不看数据。Cryo-ET 里有意义的工作区在两者之间:γ 取得让后验恰好覆盖缺失楔形所允许的那一族解,既不假装确定,也不退化成噪声。
软重心编码器
最优编码器不是某个采样,而是后验下潜变量的条件期望——一个软重心投影:
T⋆(x)=Eq⋆(⋅∣x)[z]≈m∑ωm(x)z(m),ωm(x)=∑jexp(G(z(j);x)/γ)exp(G(z(m);x)/γ),
其中 {z(m)} 取自参考分布。权重是一个 softmax,因此该映射平滑可微,并随 γ→0 收敛到经典硬最优传输映射。
具体怎么算:从参考分布抽一批候选潜码 z(1),…,z(M),给每个算效用 G(z(m);x),做一个温度为 γ 的 softmax 得到权重 ωm,再把候选按权重加权平均。这就是”软”——不是硬选效用最高的那个 z,而是按它们的吉布斯权重取重心。两个极端再次自洽:γ→0 时 softmax 趋于 one-hot,重心塌到单个 argmax,恢复硬最优传输映射;γ 大时权重趋于均匀,T⋆(x) 退回候选的简单平均、几乎不依赖 x。因为整条链路(效用、softmax、加权和)都可微,编码器能直接端到端反传训练。
两种实现:SGLD 与 amortized
把条件先验设为各向同性高斯 κ(z∣x)=N(zˉ(x),β−1I),待最小化的有效势是一个可解的 Log-Sum-Exp:
Ψ(x)=−log∫exp{w(z)−2λ∥x−A(z)∥2−2β∥z−zˉ∥2}dz.
读这个有效势:高斯先验把 κ(z∣x)∝exp(−2β∥z−zˉ∥2) 直接并进指数,于是积分里集齐了三项——能量评判 w(z)、重构罚 −2λ∥x−A(z)∥2、把 z 拉回先验均值 zˉ(x) 的高斯罚(强度 β)。前面取负对数,Ψ(x) 就是这族解的”自由能”;它对参数的梯度正是训练所需的信号。困难只在那个对 z 的积分,两种实现就是对它的两种处理。
- EVIA-SGLD(MCMC):用朗之万动力学按梯度迭代采负样本,z←z+η∇z[⋯]+2ηξ,只需能量梯度、更通用。其中 η 是步长、ξ∼N(0,I) 是每步注入的高斯噪声——正是这点噪声让迭代采的是整族后验、而非滑向单个极小,因而 SGLD 给出的是一族后验样本。
- EVIA-amortized:训一个编码器 qϕ 一步预测 z、解码器 pθ 取代 A,端到端一致性目标 Lϕ,θ=Ex∥pθ(qϕ(x))−x∥2+Lϕ+Lθ,更快。把每张图都要跑的内层 MCMC 摊销进一次前向传播,代价是只逼近条件期望(软重心)而非给出整族样本。
权衡很直接:SGLD 每个样本都要跑一段朗之万链,慢,但保留了完整的后验不确定性;amortized 用一次前向换掉内层采样,快得多,但交付的是后验的点估计(重心)。这条 SGLD 与 amortized 的分界,正对应到 Cryo-ET 落地时 CryoWGEN-II(朗之万、给出一族后验解)与单答案变体之间的取舍。
在自编码器谱系中的位置
| 算法 | 后验匹配方式 | 后验形态 |
|---|
| VAE | 逐样本 KL | 高斯 qϕ(z∣x) |
| WAE | 聚合后验的最优传输 | 常为确定性编码器 |
| AAE | 对抗(密度比) | 由判别器隐式定义 |
| EVIA | 熵正则最优传输 | 玻尔兹曼后验(处处为正) |
读这张表的一条主线是”后验被约束得多紧”:VAE 把每个样本都钉在先验附近,最严;WAE/AAE 只约束聚合后验、放开单样本,靠不同手段(闭式 MMD vs. 对抗判别器)估同一个散度;EVIA 同样只约束聚合,但用温度把”硬”传输连续地软化成处处为正的玻尔兹曼后验,恰好把前三者收进同一族中——γ→0 即 WAE,加上对抗能量项 w 即接上 AAE 那条对抗匹配的思路。
EVIA 把缺失楔形修复奠基为一个分布化的反问题:观测(缺角的层析图)约束不出唯一解,正确的输出本就是一族与数据一致的体积,而非一张图。在 Cryo-ET 上,能量评判 w=−Eϕ 由对抗训练学得,SGLD/amortized 两条实现分别对应”采一族后验”与”取后验重心”。具体落地见 CryoWGEN;其朗之万版本给出一族后验解,见 CryoWGEN-II。
← 生成与分布匹配