CryoWGEN-I:Monte-Carlo 采样
在传输代价上加一项熵 → 玻尔兹曼后验;用 Monte-Carlo 给出一族重构、捕捉缺失楔形的不确定性
CryoGEN-II 用最优传输做全局分布匹配,稳定地修好了 CryoGEN-I 的 GAN 不稳定,但它对每个观测只给一个确定性重构。CryoWGEN-I 是谱系里的下一步:它是通用工具 EVIA(熵变分推断自编码)在缺失楔形修复上的实例,在传输代价上加一项熵,把单一答案换成一族答案,从而把”哪些细节是被数据约束的、哪些是被缺失楔形放任的”读出来。本页讲第一种实现——Monte-Carlo 采样;更忠实的迭代采样见 CryoWGEN-II。
缺失楔形修复是病态的:同一张被破坏的观测 本应对应许多个都说得通的干净体 ——倾转范围缺得越多,能填进那个楔形又不与已测数据矛盾的体就越多。给一个确定答案,等于在这一族里悄悄挑了一个、再把其余的可能性扔掉。CryoWGEN 不挑,而是直接报告这个分布。做法只有一处改动:在最优传输代价里加一项熵,逼迫解保持”摊开”而不是塌缩到单点。熵的权重 就是温度——温度越高,这一族越宽。
一、从 CryoGEN-II 到熵正则
精确求解 CryoGEN-II 的最优传输在高维下代价高昂,而且它的解是硬的:传输计划 把每个 几乎确定地送到某个 。CryoWGEN 在这个计划上加一项熵正则,得到熵正则最优传输:
逐项读: 是 与 的联合传输计划,被约束在边缘为 的耦合集合 里; 是把候选体 经退化算子 (施加缺失楔形)投回观测域后、与真实观测 的不匹配代价; 是参考耦合; 度量 偏离参考分布的程度,它就是那项熵——越想塌缩到单点,这项罚得越重。温度 是两者的兑换率。
这一项熵带来三个具体好处:
- (i) 严格凸、解唯一。 加了 后目标对 严格凸,不再有 CryoGEN-I 那种 GAN 式的多解与不稳定,优化有唯一的全局解。
- (ii) 最优耦合有闭式的吉布斯(玻尔兹曼)密度。
代价 越低的 配对被指数地赋予越高的概率,而 决定这条指数有多陡。这个 不是事后才能写出的——它正是训练 E-step 要采样的后验分布,所以”求最优传输”与”从后验采样”是同一件事。
- (iii) 无需对抗训练。 这个闭式后验可用 Sinkhorn 迭代或 Langevin 动力学直接求解,绕开了 CryoGEN-I 里 GAN 那种生成器/判别器对抗的不稳定来源。
时熵项消失, 退回 CryoGEN-II 的确定性硬传输——所以 CryoWGEN 不是另起炉灶,而是 CryoGEN-II 的”加温”版:升温散成一族,降温收回那一个点。
温度 如何控制后验的宽度与重构的不确定性——拖动温度看:
后验宽 —— 一族重构 → 缺失楔形不确定性(CryoWGEN)
温度 γ 直接决定后验的宽度。把数据一致性写成能量 E(x)(琥珀井),后验就是井里的玻尔兹曼分布 q(x|y) ∝ e^(−E(x)/γ)(紫)。γ→0 时它塌成井底的一根尖峰 —— 单一确定重构,正是 WAE / CryoGEN-II;γ 变大,它在井里摊开成一族重构,这个宽度就是缺失楔形留下的不确定性,也就是 CryoWGEN 报告的东西。底部的紫色刻度是从后验抽出的样本重构,随 γ 增大而散开。
若把编码器训练成输出该玻尔兹曼后验的条件均值 ,编码器目标恰好与一次 Entropy-SGD 更新一致:Entropy-SGD 的局部熵把损失景观抹平一圈再下降,落点不是某个尖锐极小,而是邻域的”软重心”。于是编码器给出一个类似 MAP、但被熵抹平过的点估计;与此同时,后验 整体仍刻画着重构的不确定性,其聚合 依然贴近真实先验 ——也就是说,单看均值你得到一个稳的答案,看整族你得到不确定性,两者不矛盾。这条等价(熵正则 OT 与 Langevin 式 E-step)在论文附录中给出。
二、Monte-Carlo 采样实现后验
有了闭式后验 ,剩下的问题只是怎么从它采样。CryoWGEN-I 用最直接的办法——Monte-Carlo 重加权:
- 从参考分布抽一批配对候选 ;
- 给每个候选乘上玻尔兹曼因子 作为权重——与观测越吻合( 越小)的候选权重越大;
- 用这组加权样本估计后验本身,及其条件均值 。
它概念简单:不需要内层优化,一次抽样加一次指数加权就够。而且这套流程可以摊销 (amortize) 进一个编码器——训练编码器直接输出加权均值,推理时就不必每来一张观测都重抽一批,省去运行时的采样开销。
三、效果与局限
CryoWGEN-I 真正交付的是从单点到分布的转变。对同一张观测,它给的不是”这就是答案”,而是一族都与已测数据相容的重构;楔形里那些没被测到的方向,这一族会沿着它们散开,散开的宽度就把不确定性显式地标了出来——读者能直接看出哪些结构是被数据钉死的、哪些是模型在缺失区域里的合理填充。这正是熵正则相对 CryoGEN-II 单一确定答案的增益。
它的局限恰好指向下一步。Monte-Carlo 的重加权需要对先验 的显式访问来抽取被重加权的样本;而且它的独立采样(以及摊销后的近似)可能不够精确——靠在参考分布上撒点再加权,当后验集中而参考又撒得不准时,落在高概率区的有效样本会很少,估计随之变粗。要把后验采得更准,就要让样本自己被梯度引导着走向高概率区,而不是被动地撒了再挑——这正是 CryoWGEN-II 改用迭代 Langevin(SGLD)采样的动机。
通用算法见生成模型 · EVIA;上游的确定性重构见 CryoGEN-II,更忠实的采样见 CryoWGEN-II。