CryoWGEN-II:迭代 Langevin 采样

用 Langevin / SGLD 直接、迭代地采样玻尔兹曼后验 —— 同一族重构,更逼真、更收紧

CryoWGEN 在最优传输代价上加一项熵,得到一个玻尔兹曼后验,从而对单个观测给出一族重构、捕捉缺失楔形修复固有的不确定性。这族后验有两种采样路线:CryoWGEN-I 用 Monte-Carlo 摊销估计,本页的 CryoWGEN-II 用 Langevin / SGLD 直接迭代采样。二者建立在同一套熵变分基础上,只在如何从后验取样上不同;CryoWGEN-II 牺牲速度换精度,得到更逼真、更收紧的样本。

直觉

CryoWGEN-I 先从一个参考分布抽一批候选,再按玻尔兹曼因子重加权。重加权是一次性的:抽到哪批就用哪批,若候选恰好落在后验质量稀薄处,再怎么加权也救不回来。CryoWGEN-II 反过来——它不挑选已有候选,而是让每个候选体沿后验的梯度往里走,一步步被引导到高概率区,同时注入噪声以免塌进单一模态。换句话说,I 是”猜一批再打分”,II 是”带着分数迭代地往对的方向修”。

目标分布 p(x)样本直方图

数百个粒子从均匀分布出发,按朗之万动力学沿对数密度的梯度漂移、并叠加随机噪声,逐渐聚到两个峰上。步长越大越快,但太大会越过细节、采样失真。只需要梯度、无需归一化常数。

一、为什么改用 Langevin

Monte-Carlo 的独立采样精度可能不足:它一次性从参考分布抽样再重加权,候选与真实后验之间的差距全靠权重弥补,落在后验尾部的样本几乎没有贡献,有效样本数随维度迅速下降。CryoWGEN-II 改用 Langevin 动力学(SGLD)直接、迭代地瞄准玻尔兹曼后验:每个候选体经过多步梯度引导的精修,逐步被拉向高概率区,得到更高质量、更贴近后验的样本,代价是更大的计算量。

漂移项把候选拉向后验的高概率区,注入的高斯噪声则防止迭代塌缩到单一模态——这正是采样(要遍历整个一族)区别于求极大值(只找一个点)的关键。

符号对照

下文沿用 EVIA 的抽象记号——数据 xx、潜变量 zz、解码器 A\mathcal{A}。在 Cryo-ET 中它们实例化为:观测 yy、干净体 xx、退化算子 TMR\mathcal{T}_M\circ R(先随机旋转、再施加缺失楔形);其中 z,Az,\mathcal{A} 生活在 EVIA 的抽象潜空间,w,λ,βw,\lambda,\beta 分别为见证势、数据拟合权重与条件先验精度。

二、有效势与 SGLD 更新

要直接采样,需要一个可对其求梯度的标量势。把条件先验设为各向同性高斯 κ(zx)=N(zˉ(x),β1I)\kappa(z\mid x)=\mathcal{N}(\bar z(x),\beta^{-1}I) 后,待最小化的有效势是一个可解的 Log-Sum-Exp:

Ψ(x;β,zˉ)=log ⁣exp ⁣{w(z)λ2xA(z)22β2zzˉ22}dz.\Psi(x;\beta,\bar z)=-\log\!\int\exp\!\Big\{w(z)-\tfrac{\lambda}{2}\|x-\mathcal{A}(z)\|_2^2-\tfrac{\beta}{2}\|z-\bar z\|_2^2\Big\}\,dz.

被积的指数里有三项,各自负责一件事:见证势 w(z)w(z) 给出该潜码本身有多可信;数据拟合项 λ2xA(z)22-\tfrac{\lambda}{2}\|x-\mathcal{A}(z)\|_2^2 惩罚解码 A(z)\mathcal{A}(z) 偏离观测 xx 的程度,权重 λ\lambda 越大越逼着重构对齐数据;条件先验项 β2zzˉ22-\tfrac{\beta}{2}\|z-\bar z\|_2^2zz 拴在中心 zˉ(x)\bar z(x) 附近,精度 β\beta 越大这根弹簧越硬。外层对 zz 积分再取 log-\log,就是 Log-Sum-Exp:它是这些竞争项的一个组合,因而处处可微、可被梯度采样。

深入

Ψ\Psi 含一个对 zz 的积分,无法闭式求值;但它的梯度可以用 SGLD 的负样本估计——每个负样本本身就是一条按下式演化的 Langevin 链:

z    z+ηz ⁣[w(z)λ2xA(z)22β2zzˉ22]+2ηξ,ξN(0,I).z\;\leftarrow\;z+\eta\,\nabla_z\!\Big[w(z)-\tfrac{\lambda}{2}\|x-\mathcal{A}(z)\|_2^2-\tfrac{\beta}{2}\|z-\bar z\|_2^2\Big]+\sqrt{2\eta}\,\xi,\quad \xi\sim\mathcal{N}(0,I).

读法是漂移加噪:方括号里正是被积指数,对 zz 求梯度即得指向高概率方向的漂移;步长 η\eta 控制每步走多远,末项 2ηξ\sqrt{2\eta}\,\xi 注入与步长匹配的高斯噪声,使链遍历整个后验而非停在一个模态。多步迭代后,zz 的分布趋于该玻尔兹曼后验,其样本即用于估计 Ψ\Psi 的梯度并驱动 xx 的精修。这与 Langevin / SGLD 一节的带噪梯度上升是同一机制,区别只在这里的目标密度由上述有效势给定。

三、CryoWGEN-I 与 CryoWGEN-II 对照

同一张观测下的四个方法。CryoGEN(琥珀)各只给一个体,CryoWGEN(紫)给的是一整族——拖动倾转滑块,看这一族如何随缺失增大而散开:CryoWGEN-I 用 Monte-Carlo 粗采样,CryoWGEN-II 用 Langevin 细采样:

CryoGEN · 一条曲线 —— 给一个确定答案(点估计)
CryoGEN-IMAP —— 单个解;GAN 式能量面有偏差、还过度自信
CryoGEN-II全局分布匹配(最优传输)—— 更稳的单个解,但仍留有 GAN 一系的偏差
CryoWGEN · 一族曲线 —— 给一族答案、带不确定性(分布)
CryoWGEN-IMonte-Carlo —— 熵正则的平滑能量面,一族更贴真值(较粗)
CryoWGEN-IILangevin —— 同一平滑能量面,采样最忠实、带子最紧
真实结构CryoGEN(一条)CryoWGEN(一族)

真实结构是两个峰(灰色虚线)。缺失楔形让两峰之间的空隙变得说不准——四个方法对这个空隙的回答各不相同。CryoGEN 给一个确定答案,但它学的是 GAN 式的能量面,会留有偏差:CryoGEN-I(MAP)偏差最大、还过度自信;CryoGEN-II 用最优传输把训练稳住、把整体分布对齐,偏差更小,但仍是单一确定解。CryoWGEN 换用熵正则(EVIA),学到的能量面更平滑——重构更贴近真值,而且不再只给一个答案,而是给一族:CryoWGEN-I 用 Monte-Carlo(较粗、散得开),CryoWGEN-II 用 Langevin(采样最忠实、带子最紧)。带子的宽度,就是缺失楔形留下的、可以读出的不确定性。拖动滑块——缺失越多,空隙越说不准。

CryoWGEN-ICryoWGEN-II
采样方式Monte-Carlo(可摊销)迭代 Langevin (SGLD)
与后验的关系重加权估计玻尔兹曼后验多步梯度精修,更忠实逼近
权衡简单、快、精度较低较慢、精度较高

二者建立在同一套熵变分基础上,只在如何从玻尔兹曼后验采样上不同:I 摊销、快、粗,II 迭代、慢、细。

四、效果与局限

把”重加权一批固定候选”换成”逐步把每个候选精修到后验里”,CryoWGEN-II 拿到了更高保真、更收紧的样本:它们更忠实地瞄准玻尔兹曼后验,这一族在高概率区贴得更紧、在尾部也更可信,对不确定性的刻画因此比 Monte-Carlo 更准。代价是计算量更大——每个样本不再是一次抽取与加权,而是一整条多步的 Langevin 链。

也正因如此,二者并非谁取代谁:它们共享同一套熵变分基础,只在采样方式上分流。需要快、可摊销时用 CryoWGEN-I;需要更贴近后验、能承受更高算力时用 CryoWGEN-II。从单点 MAP 到一整族后验的完整演化谱系,见方法总览


采样机制见推断 · 朗之万动力学与 SGLD;姊妹采样路线见 CryoWGEN-I;完整谱系见方法总览

← Cryo-ET 重构