CryoWGEN-I：Monte-Carlo 采样

在传输代价上加一项熵 → 玻尔兹曼后验；用 Monte-Carlo 给出一族重构、捕捉缺失楔形的不确定性

CryoGEN-II 用最优传输做全局分布匹配，稳定地修好了 CryoGEN-I 的 GAN 不稳定，但它对每个观测只给一个确定性重构。CryoWGEN-I 是谱系里的下一步：它是通用工具 EVIA（熵变分推断自编码）在缺失楔形修复上的实例，在传输代价上加一项熵，把单一答案换成一族答案，从而把”哪些细节是被数据约束的、哪些是被缺失楔形放任的”读出来。本页讲第一种实现——Monte-Carlo 采样；更忠实的迭代采样见 CryoWGEN-II。

直觉

缺失楔形修复是病态的：同一张被破坏的观测 $y$ 本应对应许多个都说得通的干净体 $x$ ——倾转范围缺得越多，能填进那个楔形又不与已测数据矛盾的体就越多。给一个确定答案，等于在这一族里悄悄挑了一个、再把其余的可能性扔掉。CryoWGEN 不挑，而是直接报告这个分布。做法只有一处改动：在最优传输代价里加一项熵，逼迫解保持”摊开”而不是塌缩到单点。熵的权重 $\gamma$ 就是温度——温度越高，这一族越宽。

CryoGEN-II 给单一确定的重构；CryoWGEN 给整个后验 —— 均值是重构，散布刻画缺失楔形留下的不确定性。

一、从 CryoGEN-II 到熵正则

精确求解 CryoGEN-II 的最优传输在高维下代价高昂，而且它的解是硬的：传输计划 $\pi$ 把每个 $y$ 几乎确定地送到某个 $x$ 。CryoWGEN 在这个计划上加一项熵正则，得到熵正则最优传输：

\mathcal{W}_{c,\gamma}(p_y,q_x)=\inf_{\pi\in\Pi(p_y,q_x)}\Big\{\mathbb{E}_{(y,x)\sim\pi}\big[c\big(y,\mathcal{T}_M(x)\big)\big]+\gamma\,\mathrm{KL}(\pi\,\|\,\kappa)\Big\}

逐项读： $\pi$ 是 $y$ 与 $x$ 的联合传输计划，被约束在边缘为 $p_y,q_x$ 的耦合集合 $\Pi(p_y,q_x)$ 里； $c(y,\mathcal{T}_M(x))$ 是把候选体 $x$ 经退化算子 $\mathcal{T}_M$ （施加缺失楔形）投回观测域后、与真实观测 $y$ 的不匹配代价； $\kappa$ 是参考耦合； $\mathrm{KL}(\pi\|\kappa)$ 度量 $\pi$ 偏离参考分布的程度，它就是那项熵——越想塌缩到单点，这项罚得越重。温度 $\gamma>0$ 是两者的兑换率。

这一项熵带来三个具体好处：

(i) 严格凸、解唯一。 加了 $\mathrm{KL}$ 后目标对 $\pi$ 严格凸，不再有 CryoGEN-I 那种 GAN 式的多解与不稳定，优化有唯一的全局解。
(ii) 最优耦合有闭式的吉布斯（玻尔兹曼）密度。

\pi^\star(y,x)\;\propto\;\kappa(y,x)\,\exp\!\Big(-\frac{c\big(y,\mathcal{T}_M(x)\big)}{\gamma}\Big),

代价 $c$ 越低的 $(y,x)$ 配对被指数地赋予越高的概率，而 $\gamma$ 决定这条指数有多陡。这个 $\pi^\star$ 不是事后才能写出的——它正是训练 E-step 要采样的后验分布，所以”求最优传输”与”从后验采样”是同一件事。

(iii) 无需对抗训练。 这个闭式后验可用 Sinkhorn 迭代或 Langevin 动力学直接求解，绕开了 CryoGEN-I 里 GAN 那种生成器/判别器对抗的不稳定来源。

$\gamma\to0$ 时熵项消失， $\pi^\star$ 退回 CryoGEN-II 的确定性硬传输——所以 CryoWGEN 不是另起炉灶，而是 CryoGEN-II 的”加温”版：升温散成一族，降温收回那一个点。

温度 $\gamma$ 如何控制后验的宽度与重构的不确定性——拖动温度看：

能量 E(x)后验 q(x|y) ∝ e^(−E/γ)

后验宽 —— 一族重构　→ 缺失楔形不确定性（CryoWGEN）

温度 γγ = 0.45

γ→0：单一重构γ 大：一族重构

温度 γ 直接决定后验的宽度。把数据一致性写成能量 E(x)（琥珀井），后验就是井里的玻尔兹曼分布 q(x|y) ∝ e^(−E(x)/γ)（紫）。γ→0 时它塌成井底的一根尖峰 —— 单一确定重构，正是 WAE / CryoGEN-II；γ 变大，它在井里摊开成一族重构，这个宽度就是缺失楔形留下的不确定性，也就是 CryoWGEN 报告的东西。底部的紫色刻度是从后验抽出的样本重构，随 γ 增大而散开。

深入

若把编码器训练成输出该玻尔兹曼后验的条件均值 $\mathbb{E}[q(x\mid y)]$ ，编码器目标恰好与一次 Entropy-SGD 更新一致：Entropy-SGD 的局部熵把损失景观抹平一圈再下降，落点不是某个尖锐极小，而是邻域的”软重心”。于是编码器给出一个类似 MAP、但被熵抹平过的点估计；与此同时，后验 $q(x\mid y)$ 整体仍刻画着重构的不确定性，其聚合 $\int q(x\mid y)\,p(y)\,dy$ 依然贴近真实先验 $p(x)$ ——也就是说，单看均值你得到一个稳的答案，看整族你得到不确定性，两者不矛盾。这条等价（熵正则 OT 与 Langevin 式 E-step）在论文附录中给出。

二、Monte-Carlo 采样实现后验

有了闭式后验 $\pi^\star\propto\kappa\,\exp(-c/\gamma)$ ，剩下的问题只是怎么从它采样。CryoWGEN-I 用最直接的办法——Monte-Carlo 重加权：

从参考分布抽一批配对候选 $(y,x)$ ；
给每个候选乘上玻尔兹曼因子 $\exp\!\big(-c(y,\mathcal{T}_M(x))/\gamma\big)$ 作为权重——与观测越吻合（ $c$ 越小）的候选权重越大；
用这组加权样本估计后验本身，及其条件均值 $\mathbb{E}[q(x\mid y)]$ 。

它概念简单：不需要内层优化，一次抽样加一次指数加权就够。而且这套流程可以摊销 (amortize) 进一个编码器——训练编码器直接输出加权均值，推理时就不必每来一张观测都重抽一批，省去运行时的采样开销。

三、效果与局限

CryoWGEN-I 真正交付的是从单点到分布的转变。对同一张观测，它给的不是”这就是答案”，而是一族都与已测数据相容的重构；楔形里那些没被测到的方向，这一族会沿着它们散开，散开的宽度就把不确定性显式地标了出来——读者能直接看出哪些结构是被数据钉死的、哪些是模型在缺失区域里的合理填充。这正是熵正则相对 CryoGEN-II 单一确定答案的增益。

它的局限恰好指向下一步。Monte-Carlo 的重加权需要对先验 $p_x$ 的显式访问来抽取被重加权的样本；而且它的独立采样（以及摊销后的近似）可能不够精确——靠在参考分布上撒点再加权，当后验集中而参考又撒得不准时，落在高概率区的有效样本会很少，估计随之变粗。要把后验采得更准，就要让样本自己被梯度引导着走向高概率区，而不是被动地撒了再挑——这正是 CryoWGEN-II 改用迭代 Langevin（SGLD）采样的动机。

通用算法见生成模型 · EVIA；上游的确定性重构见 CryoGEN-II，更忠实的采样见 CryoWGEN-II。

← Cryo-ET 重构