CryoWGEN-II:迭代 Langevin 采样
用 Langevin / SGLD 直接、迭代地采样玻尔兹曼后验 —— 同一族重构,更逼真、更收紧
CryoWGEN 在最优传输代价上加一项熵,得到一个玻尔兹曼后验,从而对单个观测给出一族重构、捕捉缺失楔形修复固有的不确定性。这族后验有两种采样路线:CryoWGEN-I 用 Monte-Carlo 摊销估计,本页的 CryoWGEN-II 用 Langevin / SGLD 直接迭代采样。二者建立在同一套熵变分基础上,只在如何从后验取样上不同;CryoWGEN-II 牺牲速度换精度,得到更逼真、更收紧的样本。
CryoWGEN-I 先从一个参考分布抽一批候选,再按玻尔兹曼因子重加权。重加权是一次性的:抽到哪批就用哪批,若候选恰好落在后验质量稀薄处,再怎么加权也救不回来。CryoWGEN-II 反过来——它不挑选已有候选,而是让每个候选体沿后验的梯度往里走,一步步被引导到高概率区,同时注入噪声以免塌进单一模态。换句话说,I 是”猜一批再打分”,II 是”带着分数迭代地往对的方向修”。
数百个粒子从均匀分布出发,按朗之万动力学沿对数密度的梯度漂移、并叠加随机噪声,逐渐聚到两个峰上。步长越大越快,但太大会越过细节、采样失真。只需要梯度、无需归一化常数。
一、为什么改用 Langevin
Monte-Carlo 的独立采样精度可能不足:它一次性从参考分布抽样再重加权,候选与真实后验之间的差距全靠权重弥补,落在后验尾部的样本几乎没有贡献,有效样本数随维度迅速下降。CryoWGEN-II 改用 Langevin 动力学(SGLD)直接、迭代地瞄准玻尔兹曼后验:每个候选体经过多步梯度引导的精修,逐步被拉向高概率区,得到更高质量、更贴近后验的样本,代价是更大的计算量。
漂移项把候选拉向后验的高概率区,注入的高斯噪声则防止迭代塌缩到单一模态——这正是采样(要遍历整个一族)区别于求极大值(只找一个点)的关键。
下文沿用 EVIA 的抽象记号——数据 、潜变量 、解码器 。在 Cryo-ET 中它们实例化为:观测 、干净体 、退化算子 (先随机旋转、再施加缺失楔形);其中 生活在 EVIA 的抽象潜空间, 分别为见证势、数据拟合权重与条件先验精度。
二、有效势与 SGLD 更新
要直接采样,需要一个可对其求梯度的标量势。把条件先验设为各向同性高斯 后,待最小化的有效势是一个可解的 Log-Sum-Exp:
被积的指数里有三项,各自负责一件事:见证势 给出该潜码本身有多可信;数据拟合项 惩罚解码 偏离观测 的程度,权重 越大越逼着重构对齐数据;条件先验项 把 拴在中心 附近,精度 越大这根弹簧越硬。外层对 积分再取 ,就是 Log-Sum-Exp:它是这些竞争项的一个软组合,因而处处可微、可被梯度采样。
含一个对 的积分,无法闭式求值;但它的梯度可以用 SGLD 的负样本估计——每个负样本本身就是一条按下式演化的 Langevin 链:
读法是漂移加噪:方括号里正是被积指数,对 求梯度即得指向高概率方向的漂移;步长 控制每步走多远,末项 注入与步长匹配的高斯噪声,使链遍历整个后验而非停在一个模态。多步迭代后, 的分布趋于该玻尔兹曼后验,其样本即用于估计 的梯度并驱动 的精修。这与 Langevin / SGLD 一节的带噪梯度上升是同一机制,区别只在这里的目标密度由上述有效势给定。
三、CryoWGEN-I 与 CryoWGEN-II 对照
同一张观测下的四个方法。CryoGEN(琥珀)各只给一个体,CryoWGEN(紫)给的是一整族——拖动倾转滑块,看这一族如何随缺失增大而散开:CryoWGEN-I 用 Monte-Carlo 粗采样,CryoWGEN-II 用 Langevin 细采样:
真实结构是两个峰(灰色虚线)。缺失楔形让两峰之间的空隙变得说不准——四个方法对这个空隙的回答各不相同。CryoGEN 给一个确定答案,但它学的是 GAN 式的能量面,会留有偏差:CryoGEN-I(MAP)偏差最大、还过度自信;CryoGEN-II 用最优传输把训练稳住、把整体分布对齐,偏差更小,但仍是单一确定解。CryoWGEN 换用熵正则(EVIA),学到的能量面更平滑——重构更贴近真值,而且不再只给一个答案,而是给一族:CryoWGEN-I 用 Monte-Carlo(较粗、散得开),CryoWGEN-II 用 Langevin(采样最忠实、带子最紧)。带子的宽度,就是缺失楔形留下的、可以读出的不确定性。拖动滑块——缺失越多,空隙越说不准。
| CryoWGEN-I | CryoWGEN-II | |
|---|---|---|
| 采样方式 | Monte-Carlo(可摊销) | 迭代 Langevin (SGLD) |
| 与后验的关系 | 重加权估计玻尔兹曼后验 | 多步梯度精修,更忠实逼近 |
| 权衡 | 简单、快、精度较低 | 较慢、精度较高 |
二者建立在同一套熵变分基础上,只在如何从玻尔兹曼后验采样上不同:I 摊销、快、粗,II 迭代、慢、细。
四、效果与局限
把”重加权一批固定候选”换成”逐步把每个候选精修到后验里”,CryoWGEN-II 拿到了更高保真、更收紧的样本:它们更忠实地瞄准玻尔兹曼后验,这一族在高概率区贴得更紧、在尾部也更可信,对不确定性的刻画因此比 Monte-Carlo 更准。代价是计算量更大——每个样本不再是一次抽取与加权,而是一整条多步的 Langevin 链。
也正因如此,二者并非谁取代谁:它们共享同一套熵变分基础,只在采样方式上分流。需要快、可摊销时用 CryoWGEN-I;需要更贴近后验、能承受更高算力时用 CryoWGEN-II。从单点 MAP 到一整族后验的完整演化谱系,见方法总览。
采样机制见推断 · 朗之万动力学与 SGLD;姊妹采样路线见 CryoWGEN-I;完整谱系见方法总览。