能量模型 (EBM)
为每个配置赋予一个未归一化能量,并通过玻尔兹曼形式定义概率密度的一类概率模型。
要描述「哪些 更可能出现」,最直接的办法是写下一条概率密度 。但密度必须处处非负且积分为一,这两条约束让人很难自由地「设计」一个密度。能量模型换一个出发点:先给每个配置 打一个分数——能量 ,分数越低越「合意」——再机械地把分数转成概率。 这样建模者只需关心相对优劣,归一化的事交给公式去办。本页接下来说明这个转换怎么做、代价在哪里,以及为什么这种「只比较、不归一化」的结构恰好契合 Cryo-ET 重构。
能量模型(EBM)通过一个标量能量函数 在配置 上定义概率密度。这里 是我们要建模的对象(在 Cryo-ET 中即一个三维密度体), 是能量函数自身的参数(例如一个神经网络的权重)。能量越低,概率越高:
能量越低,概率越高:两个势阱底部对应密度的两个峰。温度 T 越高,exp(−E/T) 越平,密度趋向均匀,两峰之间的差异被抹平。
能量函数的局部极小对应密度的众数,势阱越深则该处概率质量越集中。温度参数 把指数族 整体缩放:低温下密度锐化、几乎全部集中在最深的阱中,高温下则趋于平坦、各配置概率趋同。配分函数 仅起整体归一化作用,并不改变密度的形状。
逐符号来看: 是配置 的概率密度; 是赋给该配置的标量能量; 把「低能量」单调地映成「大权重」; 是对所有可能 求和(积分)得到的归一化常数,它保证 。注意指数前的负号——它使得能量最低处概率最高,与物理中粒子倾向于落入低能态一致。
这就是玻尔兹曼–吉布斯形式。模型对 不施加任何结构约束 —— 任何把 映到实数的函数,经归一化后都给出一个合法密度 —— 这使 EBM 成为极其灵活的一族模型。举一个最小例子:取 ,代入上式就还原出均值 、方差 的高斯分布,此时 恰好可解。高斯之所以「简单」,正是因为它的能量是二次型;一旦把 换成一个深层网络,密度可以有任意多个、形状任意的势阱,而代价就藏在 里。
困难在于配分函数 。当 维度很高时该积分不可解——一个 体素的密度体就是约两百万维,对它做积分没有任何闭式或可数值穷举的办法——因此 无法以闭式求值,似然亦然。EBM 的实用化建立在一个观察之上:许多关心的量并不需要 。
能量总是只在比较中起作用。两个状态之间的概率比值为
其中 被约去。比如 ,则 的概率是 的 倍——这个结论完全不依赖那个算不出来的 。采样、排序与基于梯度的搜索都依赖能量差,而非绝对概率。换句话说,能量的整体平移 不改变任何分布,因为常数 在比值中、也在 中被同样地吸收掉。
对数密度关于 的梯度,即得分(score),同样不含 :
推导一行就够:,而 不依赖 ,对 求梯度即为零,于是只剩 。得分是一个向量场,在每个 处指向「概率上升最快」的方向,也就是「能量下降最快」的方向。正因如此,朗之万动力学这类基于梯度的采样器才能与 EBM 兼容:它们只需在每一点问能量函数「往哪个方向走能量更低」,而这恰是反向传播能直接给出的量。
极大似然训练需要 ,这是一个模型分布下的期望,需要从 采样。把它代入对数似然的梯度,得到一个直观的「拔河」形式
第一项压低数据点的能量,第二项抬高当前模型自己生成的样本的能量;两者平衡时模型分布与数据分布相符。难点在第二项的期望——它需要从 采样,而这正是配分函数难题换了个面孔。对比散度(contrastive divergence)用从数据出发的短马尔可夫链近似该期望,以偏差换取可负担的计算量。另一些方法则完全绕开 :得分匹配(score matching)不去碰似然,而是直接把模型得分 拟合到数据得分,目标函数里只出现 因而与 无关;噪声对比估计则把密度估计化为一个对已知噪声分布的二分类问题,让分类器在区分「真数据」与「噪声」的过程中间接学到未归一化的密度。
EBM 为本站若干重构方法提供概率骨架:能量先验 在无需求值 的情况下刻画哪些三维结构是合理的——平滑、连通、符合已知生物学的体被赋予低能量,碎裂或带伪影的体被赋予高能量。重构时把这条先验与数据似然相乘,CryoGEN 即采用此思路:CryoGEN-I 在该能量地形上求一个最低点(MAP 点估计),而 CryoWGEN 不止步于单点,转而从这条后验里采样一族解——其内循环正是上面提到的、只需得分 的朗之万采样。相关的「只比较、不归一化」思想亦见于最优传输及熵正则传输中的吉布斯耦合,那里同样把一个未归一化的指数权重作为建模的核心对象。