CryoWGEN-II：迭代 Langevin 采样

用 Langevin / SGLD 直接、迭代地采样玻尔兹曼后验 —— 同一族重构，更逼真、更收紧

CryoWGEN 在最优传输代价上加一项熵，得到一个玻尔兹曼后验，从而对单个观测给出一族重构、捕捉缺失楔形修复固有的不确定性。这族后验有两种采样路线：CryoWGEN-I 用 Monte-Carlo 摊销估计，本页的 CryoWGEN-II 用 Langevin / SGLD 直接迭代采样。二者建立在同一套熵变分基础上，只在如何从后验取样上不同；CryoWGEN-II 牺牲速度换精度，得到更逼真、更收紧的样本。

直觉

CryoWGEN-I 先从一个参考分布抽一批候选，再按玻尔兹曼因子重加权。重加权是一次性的：抽到哪批就用哪批，若候选恰好落在后验质量稀薄处，再怎么加权也救不回来。CryoWGEN-II 反过来——它不挑选已有候选，而是让每个候选体沿后验的梯度往里走，一步步被引导到高概率区，同时注入噪声以免塌进单一模态。换句话说，I 是”猜一批再打分”，II 是”带着分数迭代地往对的方向修”。

目标分布 p(x)样本直方图

步长 η: 0.040

数百个粒子从均匀分布出发，按朗之万动力学沿对数密度的梯度漂移、并叠加随机噪声，逐渐聚到两个峰上。步长越大越快，但太大会越过细节、采样失真。只需要梯度、无需归一化常数。

一、为什么改用 Langevin

Monte-Carlo 的独立采样精度可能不足：它一次性从参考分布抽样再重加权，候选与真实后验之间的差距全靠权重弥补，落在后验尾部的样本几乎没有贡献，有效样本数随维度迅速下降。CryoWGEN-II 改用 Langevin 动力学（SGLD）直接、迭代地瞄准玻尔兹曼后验：每个候选体经过多步梯度引导的精修，逐步被拉向高概率区，得到更高质量、更贴近后验的样本，代价是更大的计算量。

漂移项把候选拉向后验的高概率区，注入的高斯噪声则防止迭代塌缩到单一模态——这正是采样（要遍历整个一族）区别于求极大值（只找一个点）的关键。

符号对照

下文沿用 EVIA 的抽象记号——数据 $x$ 、潜变量 $z$ 、解码器 $\mathcal{A}$ 。在 Cryo-ET 中它们实例化为：观测 $y$ 、干净体 $x$ 、退化算子 $\mathcal{T}_M\circ R$ （先随机旋转、再施加缺失楔形）；其中 $z,\mathcal{A}$ 生活在 EVIA 的抽象潜空间， $w,\lambda,\beta$ 分别为见证势、数据拟合权重与条件先验精度。

二、有效势与 SGLD 更新

要直接采样，需要一个可对其求梯度的标量势。把条件先验设为各向同性高斯 $\kappa(z\mid x)=\mathcal{N}(\bar z(x),\beta^{-1}I)$ 后，待最小化的有效势是一个可解的 Log-Sum-Exp：

\Psi(x;\beta,\bar z)=-\log\!\int\exp\!\Big\{w(z)-\tfrac{\lambda}{2}\|x-\mathcal{A}(z)\|_2^2-\tfrac{\beta}{2}\|z-\bar z\|_2^2\Big\}\,dz.

被积的指数里有三项，各自负责一件事：见证势 $w(z)$ 给出该潜码本身有多可信；数据拟合项 $-\tfrac{\lambda}{2}\|x-\mathcal{A}(z)\|_2^2$ 惩罚解码 $\mathcal{A}(z)$ 偏离观测 $x$ 的程度，权重 $\lambda$ 越大越逼着重构对齐数据；条件先验项 $-\tfrac{\beta}{2}\|z-\bar z\|_2^2$ 把 $z$ 拴在中心 $\bar z(x)$ 附近，精度 $\beta$ 越大这根弹簧越硬。外层对 $z$ 积分再取 $-\log$ ，就是 Log-Sum-Exp：它是这些竞争项的一个软组合，因而处处可微、可被梯度采样。

深入

$\Psi$ 含一个对 $z$ 的积分，无法闭式求值；但它的梯度可以用 SGLD 的负样本估计——每个负样本本身就是一条按下式演化的 Langevin 链：

z\;\leftarrow\;z+\eta\,\nabla_z\!\Big[w(z)-\tfrac{\lambda}{2}\|x-\mathcal{A}(z)\|_2^2-\tfrac{\beta}{2}\|z-\bar z\|_2^2\Big]+\sqrt{2\eta}\,\xi,\quad \xi\sim\mathcal{N}(0,I).

读法是漂移加噪：方括号里正是被积指数，对 $z$ 求梯度即得指向高概率方向的漂移；步长 $\eta$ 控制每步走多远，末项 $\sqrt{2\eta}\,\xi$ 注入与步长匹配的高斯噪声，使链遍历整个后验而非停在一个模态。多步迭代后， $z$ 的分布趋于该玻尔兹曼后验，其样本即用于估计 $\Psi$ 的梯度并驱动 $x$ 的精修。这与 Langevin / SGLD 一节的带噪梯度上升是同一机制，区别只在这里的目标密度由上述有效势给定。

三、CryoWGEN-I 与 CryoWGEN-II 对照

同一张观测下的四个方法。CryoGEN（琥珀）各只给一个体，CryoWGEN（紫）给的是一整族——拖动倾转滑块，看这一族如何随缺失增大而散开：CryoWGEN-I 用 Monte-Carlo 粗采样，CryoWGEN-II 用 Langevin 细采样：

CryoGEN · 一条曲线 —— 给一个确定答案（点估计）

CryoGEN-IMAP —— 单个解；GAN 式能量面有偏差、还过度自信

CryoGEN-II全局分布匹配（最优传输）—— 更稳的单个解，但仍留有 GAN 一系的偏差

CryoWGEN · 一族曲线 —— 给一族答案、带不确定性（分布）

CryoWGEN-IMonte-Carlo —— 熵正则的平滑能量面，一族更贴真值（较粗）

CryoWGEN-IILangevin —— 同一平滑能量面，采样最忠实、带子最紧

真实结构CryoGEN（一条）CryoWGEN（一族）

缺失楔形严重程度

数据足缺失多

真实结构是两个峰（灰色虚线）。缺失楔形让两峰之间的空隙变得说不准——四个方法对这个空隙的回答各不相同。CryoGEN 给一个确定答案，但它学的是 GAN 式的能量面，会留有偏差：CryoGEN-I（MAP）偏差最大、还过度自信；CryoGEN-II 用最优传输把训练稳住、把整体分布对齐，偏差更小，但仍是单一确定解。CryoWGEN 换用熵正则（EVIA），学到的能量面更平滑——重构更贴近真值，而且不再只给一个答案，而是给一族：CryoWGEN-I 用 Monte-Carlo（较粗、散得开），CryoWGEN-II 用 Langevin（采样最忠实、带子最紧）。带子的宽度，就是缺失楔形留下的、可以读出的不确定性。拖动滑块——缺失越多，空隙越说不准。

	CryoWGEN-I	CryoWGEN-II
采样方式	Monte-Carlo（可摊销）	迭代 Langevin (SGLD)
与后验的关系	重加权估计玻尔兹曼后验	多步梯度精修，更忠实逼近
权衡	简单、快、精度较低	较慢、精度较高

二者建立在同一套熵变分基础上，只在如何从玻尔兹曼后验采样上不同：I 摊销、快、粗，II 迭代、慢、细。

四、效果与局限

把”重加权一批固定候选”换成”逐步把每个候选精修到后验里”，CryoWGEN-II 拿到了更高保真、更收紧的样本：它们更忠实地瞄准玻尔兹曼后验，这一族在高概率区贴得更紧、在尾部也更可信，对不确定性的刻画因此比 Monte-Carlo 更准。代价是计算量更大——每个样本不再是一次抽取与加权，而是一整条多步的 Langevin 链。

也正因如此，二者并非谁取代谁：它们共享同一套熵变分基础，只在采样方式上分流。需要快、可摊销时用 CryoWGEN-I；需要更贴近后验、能承受更高算力时用 CryoWGEN-II。从单点 MAP 到一整族后验的完整演化谱系，见方法总览。

采样机制见推断 · 朗之万动力学与 SGLD；姊妹采样路线见 CryoWGEN-I；完整谱系见方法总览。

← Cryo-ET 重构