CryoWGEN-I:Monte-Carlo 采样

在传输代价上加一项熵 → 玻尔兹曼后验;用 Monte-Carlo 给出一族重构、捕捉缺失楔形的不确定性

CryoGEN-II 用最优传输做全局分布匹配,稳定地修好了 CryoGEN-I 的 GAN 不稳定,但它对每个观测只给一个确定性重构。CryoWGEN-I 是谱系里的下一步:它是通用工具 EVIA(熵变分推断自编码)在缺失楔形修复上的实例,在传输代价上加一项熵,把单一答案换成一答案,从而把”哪些细节是被数据约束的、哪些是被缺失楔形放任的”读出来。本页讲第一种实现——Monte-Carlo 采样;更忠实的迭代采样见 CryoWGEN-II

直觉

缺失楔形修复是病态的:同一张被破坏的观测 yy 本应对应许多个都说得通的干净体 xx——倾转范围缺得越多,能填进那个楔形又不与已测数据矛盾的体就越多。给一个确定答案,等于在这一族里悄悄挑了一个、再把其余的可能性扔掉。CryoWGEN 不挑,而是直接报告这个分布。做法只有一处改动:在最优传输代价里加一项,逼迫解保持”摊开”而不是塌缩到单点。熵的权重 γ\gamma 就是温度——温度越高,这一族越宽。

观测 yπ* ∝ e^{-c/γ}q*(x|y):一族候选重构重构 = 后验均值
CryoGEN-II 给单一确定的重构;CryoWGEN 给整个后验 —— 均值是重构,散布刻画缺失楔形留下的不确定性。

一、从 CryoGEN-II 到熵正则

精确求解 CryoGEN-II 的最优传输在高维下代价高昂,而且它的解是的:传输计划 π\pi 把每个 yy 几乎确定地送到某个 xx。CryoWGEN 在这个计划上加一项熵正则,得到熵正则最优传输

Wc,γ(py,qx)=infπΠ(py,qx){E(y,x)π[c(y,TM(x))]+γKL(πκ)}\mathcal{W}_{c,\gamma}(p_y,q_x)=\inf_{\pi\in\Pi(p_y,q_x)}\Big\{\mathbb{E}_{(y,x)\sim\pi}\big[c\big(y,\mathcal{T}_M(x)\big)\big]+\gamma\,\mathrm{KL}(\pi\,\|\,\kappa)\Big\}

逐项读:π\piyyxx 的联合传输计划,被约束在边缘为 py,qxp_y,q_x 的耦合集合 Π(py,qx)\Pi(p_y,q_x) 里;c(y,TM(x))c(y,\mathcal{T}_M(x)) 是把候选体 xx 经退化算子 TM\mathcal{T}_M(施加缺失楔形)投回观测域后、与真实观测 yy 的不匹配代价;κ\kappa 是参考耦合;KL(πκ)\mathrm{KL}(\pi\|\kappa) 度量 π\pi 偏离参考分布的程度,它就是那项熵——越想塌缩到单点,这项罚得越重。温度 γ>0\gamma>0 是两者的兑换率。

这一项熵带来三个具体好处:

π(y,x)    κ(y,x)exp ⁣(c(y,TM(x))γ),\pi^\star(y,x)\;\propto\;\kappa(y,x)\,\exp\!\Big(-\frac{c\big(y,\mathcal{T}_M(x)\big)}{\gamma}\Big),

代价 cc 越低的 (y,x)(y,x) 配对被指数地赋予越高的概率,而 γ\gamma 决定这条指数有多陡。这个 π\pi^\star 不是事后才能写出的——它正是训练 E-step 要采样的后验分布,所以”求最优传输”与”从后验采样”是同一件事。

γ0\gamma\to0 时熵项消失,π\pi^\star 退回 CryoGEN-II 的确定性硬传输——所以 CryoWGEN 不是另起炉灶,而是 CryoGEN-II 的”加温”版:升温散成一族,降温收回那一个点。

温度 γ\gamma 如何控制后验的宽度与重构的不确定性——拖动温度看:

能量最低 = MAP样本重构
能量 E(x)后验 q(x|y) ∝ e^(−E/γ)

后验宽 —— 一族重构 → 缺失楔形不确定性(CryoWGEN)

温度 γ 直接决定后验的宽度。把数据一致性写成能量 E(x)(琥珀井),后验就是井里的玻尔兹曼分布 q(x|y) ∝ e^(−E(x)/γ)(紫)。γ→0 时它塌成井底的一根尖峰 —— 单一确定重构,正是 WAE / CryoGEN-II;γ 变大,它在井里摊开成一族重构,这个宽度就是缺失楔形留下的不确定性,也就是 CryoWGEN 报告的东西。底部的紫色刻度是从后验抽出的样本重构,随 γ 增大而散开。

深入

若把编码器训练成输出该玻尔兹曼后验的条件均值 E[q(xy)]\mathbb{E}[q(x\mid y)],编码器目标恰好与一次 Entropy-SGD 更新一致:Entropy-SGD 的局部熵把损失景观抹平一圈再下降,落点不是某个尖锐极小,而是邻域的”软重心”。于是编码器给出一个类似 MAP、但被熵抹平过的点估计;与此同时,后验 q(xy)q(x\mid y) 整体仍刻画着重构的不确定性,其聚合 q(xy)p(y)dy\int q(x\mid y)\,p(y)\,dy 依然贴近真实先验 p(x)p(x)——也就是说,单看均值你得到一个稳的答案,看整族你得到不确定性,两者不矛盾。这条等价(熵正则 OT 与 Langevin 式 E-step)在论文附录中给出。

二、Monte-Carlo 采样实现后验

有了闭式后验 πκexp(c/γ)\pi^\star\propto\kappa\,\exp(-c/\gamma),剩下的问题只是怎么从它采样。CryoWGEN-I 用最直接的办法——Monte-Carlo 重加权

  1. 从参考分布抽一批配对候选 (y,x)(y,x)
  2. 给每个候选乘上玻尔兹曼因子 exp ⁣(c(y,TM(x))/γ)\exp\!\big(-c(y,\mathcal{T}_M(x))/\gamma\big) 作为权重——与观测越吻合(cc 越小)的候选权重越大;
  3. 用这组加权样本估计后验本身,及其条件均值 E[q(xy)]\mathbb{E}[q(x\mid y)]

它概念简单:不需要内层优化,一次抽样加一次指数加权就够。而且这套流程可以摊销 (amortize) 进一个编码器——训练编码器直接输出加权均值,推理时就不必每来一张观测都重抽一批,省去运行时的采样开销。

三、效果与局限

CryoWGEN-I 真正交付的是从单点到分布的转变。对同一张观测,它给的不是”这就是答案”,而是一族都与已测数据相容的重构;楔形里那些没被测到的方向,这一族会沿着它们散开,散开的宽度就把不确定性显式地标了出来——读者能直接看出哪些结构是被数据钉死的、哪些是模型在缺失区域里的合理填充。这正是熵正则相对 CryoGEN-II 单一确定答案的增益。

它的局限恰好指向下一步。Monte-Carlo 的重加权需要对先验 pxp_x显式访问来抽取被重加权的样本;而且它的独立采样(以及摊销后的近似)可能不够精确——靠在参考分布上撒点再加权,当后验集中而参考又撒得不准时,落在高概率区的有效样本会很少,估计随之变粗。要把后验采得更准,就要让样本自己被梯度引导着走向高概率区,而不是被动地撒了再挑——这正是 CryoWGEN-II 改用迭代 Langevin(SGLD)采样的动机。


通用算法见生成模型 · EVIA;上游的确定性重构见 CryoGEN-II,更忠实的采样见 CryoWGEN-II

← Cryo-ET 重构