贝叶斯推断

以概率描述未知量,并经由贝叶斯定理用观测数据更新先验信念得到后验。

贝叶斯推断把所有未知量都视作随机变量,并用概率分布刻画对它们的不确定性。设 θ\theta 为待估的参数或隐状态,xx 为观测数据。建模需指定两个成分:先验 p(θ)p(\theta) 编码在观测之前对 θ\theta 的信念,似然 p(xθ)p(x\mid\theta) 描述给定 θ\theta 时数据的生成机制。

直觉

把推断想成”在所有可能的真相上分配信念”。一开始你按先验分配——某些 θ\theta 看起来更合理,分得更多权重。每来一个观测,就问”如果真相是这个 θ\theta,我看到当前数据的可能性有多大”,并按这个可能性重新加权。和数据相符的 θ\theta 权重升高,相矛盾的下降。重新归一化后的权重分布就是后验。整个过程不是挑出一个答案,而是把信念的”形状”从先验改造成后验。

一个与 Cryo-ET 直接相关的例子 —— 只测到二维结构的一个坐标,另一坐标像缺失楔形一样测不到。看先验与似然如何合成后验,以及 MAP 点估计与完整后验之别:

MAP
先验 p(x)似然(观测)后验 ∝ 先验 × 似然

后验宽 —— 不确定,一族解

贝叶斯推断把「从含噪观测反推干净结构」写成一次更新:先验 p(x)(琥珀,能量先验,说什么结构合理)乘以似然(蓝,这张观测说了什么),得到后验(紫,更新后的信念)。MAP(琥珀竖线)是后验的峰 —— CryoGEN-I 只报告它;而整条紫色曲线(峰加宽度)才是 CryoWGEN 报告的东西。缺失楔形让这个方向的观测变弱、似然变平,于是后验变宽:同一个缺口对应一族都说得通的解。把滑块拉到「数据足」,后验收紧到 MAP 上。

后验:用贝叶斯定理更新信念

观测到 xx 之后,对 θ\theta 的信念由后验 p(θx)p(\theta\mid x) 给出,并由贝叶斯定理得到:

p(θx)=p(xθ)p(θ)p(x),p(x)=p(xθ)p(θ)dθ.p(\theta\mid x)=\frac{p(x\mid\theta)\,p(\theta)}{p(x)}, \qquad p(x)=\int p(x\mid\theta)\,p(\theta)\,d\theta.

逐项来读:分子 p(xθ)p(θ)p(x\mid\theta)\,p(\theta) 是”先验信念 p(θ)p(\theta)“乘以”该 θ\theta 解释数据的似然 p(xθ)p(x\mid\theta)“;分母 p(x)p(x) 称为证据或边缘似然,它对所有 θ\theta 边缘化(即把 θ\theta 积掉),使后验在 θ\theta 上归一化为一个合法概率分布。由于 p(x)p(x) 不依赖 θ\theta,它只是一个常数因子,常将关系写作

p(θx)    p(xθ)p(θ),p(\theta\mid x)\;\propto\;p(x\mid\theta)\,p(\theta),

即后验 \propto 似然 ×\times 先验。符号 \propto(正比于)提醒我们:要得到真正的概率,最后还需除以 p(x)p(x) 把面积归一化。这个被忽略的常数在做点估计时无关紧要,但在比较两个不同模型时,p(x)p(x) 本身就是衡量模型拟合优度的量。

直觉

先验给出起点,似然给出数据带来的证据,后验则是二者的折中。当数据充分时,似然主导,后验趋于集中;当数据稀少时,先验的影响保留得更久。

一个能算到底的例子:Beta-二项共轭

一个经典的解析示例是 Beta-二项共轭:估计一枚硬币成功概率 pp 时,取 Beta(a,b)(a,b) 先验并观测 nn 次试验中的 kk 次成功,似然为二项形式 pk(1p)nkp^{k}(1-p)^{n-k},后验仍是 Beta 分布 Beta(a+k,b+nk)(a+k,\,b+n-k)。后验均值 (a+k)/(a+b+n)(a+k)/(a+b+n) 介于先验均值与数据频率 k/nk/n 之间,随样本量增大而向 k/nk/n 靠拢。

代入具体数字更直观。取均匀先验 Beta(1,1)(1,1)(即对 pp 一无所知),观测 n=10n=10 次中 k=7k=7 次成功:后验为 Beta(8,4)(8,4),后验均值 8/120.678/12\approx0.67,已经被数据从先验均值 0.50.5 拉向频率 0.70.7,但因样本少而未完全到达。若改为强先验 Beta(20,20)(20,20)(坚信硬币近乎公平),同样的数据只得到 Beta(27,23)(27,23),均值 27/50=0.5427/50=0.54——先验把估计拽回 0.50.5 附近。把 a,ba,b 读作”虚拟样本”:先验相当于事先见过 aa 次成功、bb 次失败,真实数据则在此基础上累加。这正是先验强弱如何与数据量博弈的精确写照。

当先验与似然属于配对的分布族,使后验与先验同族时,称该先验为共轭先验,此时后验可解析求得,更新只是改写几个参数。共轭性是少数能避开积分的特例;多数真实模型的 p(x)p(x) 无法解析,需借助 MAP 点估计变分推断Langevin 采样来近似。

预测与不确定性

对新观测 x~\tilde{x} 的预测由预测分布给出,它对后验加权平均:

p(x~x)=p(x~θ)p(θx)dθ.p(\tilde{x}\mid x)=\int p(\tilde{x}\mid\theta)\,p(\theta\mid x)\,d\theta.

这一步是贝叶斯方法与点估计的关键分野:不是先选定一个 θ^\hat\theta 再预测,而是让每个可能的 θ\theta 都按其后验概率 p(θx)p(\theta\mid x) 投票。被积式 p(x~θ)p(\tilde{x}\mid\theta) 是给定该 θ\theta 时新数据的似然。当后验很宽(参数不确定)时,预测分布也随之展宽,从而自动把参数不确定性传递到预测中——点估计做不到这一点。

深入

后验不只给出一个点,它给出整套不确定性结构。两类常用的概括量值得区分。可信区间(credible interval)直接来自后验:[,u][\ell,u] 是 95% 可信区间当且仅当 up(θx)dθ=0.95\int_\ell^u p(\theta\mid x)\,d\theta=0.95,其字面含义就是”θ\theta 落在此区间的后验概率为 0.95”——这正是频率学派置信区间常被误读成的那种解释,而在贝叶斯框架下它是定义本身。

证据 p(x)p(x) 看似只是归一化常数,却是模型比较的核心。对两个模型 M1,M2M_1,M_2,其证据之比 p(xM1)/p(xM2)p(x\mid M_1)/p(x\mid M_2) 称为贝叶斯因子。它自带”奥卡姆剃刀”:一个过于灵活的模型把先验概率摊薄到大量数据集上,对任一具体 xxp(x)p(x) 反而偏低,于是简单且拟合够好的模型在证据上胜出。这把”拟合优度”与”模型复杂度”统一在同一个量里,无需额外的惩罚项。

在做决策时,贝叶斯框架还提供清晰的最优性准则:给定损失函数 L(θ,θ^)L(\theta,\hat\theta),最优估计是最小化后验期望损失 Ep(θx)[L(θ,θ^)]\mathbb{E}_{p(\theta\mid x)}[L(\theta,\hat\theta)]θ^\hat\theta。平方损失给出后验均值,绝对损失给出后验中位数,0-1 损失给出后验众数(即 MAP)。不同的点估计其实对应着不同的损失假设。

在 Cryo-ET 重构中的位置

在低温电子断层成像中,重构可表述为贝叶斯反问题:未知的三维密度对应 θ\theta倾斜序列投影对应 xx,由 CTF 与噪声决定的成像模型给出似然,而对密度的结构假设充当先验。这里先验不是可有可无的装饰:投影只覆盖有限角度(缺失楔形),似然在某些方向上几乎不提供信息,后验在这些方向上仍宽——正是先验填补了数据沉默之处。上面的演示用二维的一个缺失坐标把这一机制压缩成可视的形式。

后验最优值的求解与正则化策略在 MAP、最大似然与 EM 中讨论。四类方法可按它们如何对待这个后验来区分:CryoGEN-I 取后验众数(MAP 点估计);CryoGEN-II 经 WAE/OT 给出一个稳定的单一答案;CryoWGEN-ICryoWGEN-II 则不满足于单点,而是用 EVIA(分别为 Monte-Carlo 与 Langevin)刻画整族后验样本,把”密度有多不确定”也一并交付。

← 概率与统计