贝叶斯推断

以概率描述未知量，并经由贝叶斯定理用观测数据更新先验信念得到后验。

贝叶斯推断把所有未知量都视作随机变量，并用概率分布刻画对它们的不确定性。设 $\theta$ 为待估的参数或隐状态， $x$ 为观测数据。建模需指定两个成分：先验 $p(\theta)$ 编码在观测之前对 $\theta$ 的信念，似然 $p(x\mid\theta)$ 描述给定 $\theta$ 时数据的生成机制。

直觉

把推断想成”在所有可能的真相上分配信念”。一开始你按先验分配——某些 $\theta$ 看起来更合理，分得更多权重。每来一个观测，就问”如果真相是这个 $\theta$ ，我看到当前数据的可能性有多大”，并按这个可能性重新加权。和数据相符的 $\theta$ 权重升高，相矛盾的下降。重新归一化后的权重分布就是后验。整个过程不是挑出一个答案，而是把信念的”形状”从先验改造成后验。

一个与 Cryo-ET 直接相关的例子 —— 只测到二维结构的一个坐标，另一坐标像缺失楔形一样测不到。看先验与似然如何合成后验，以及 MAP 点估计与完整后验之别：

先验 p(x)似然（观测）后验 ∝ 先验 × 似然

后验宽 —— 不确定，一族解

缺失楔形严重程度↑ 宽 / wide

数据足（似然锐利）缺失多（似然平坦）

贝叶斯推断把「从含噪观测反推干净结构」写成一次更新：先验 p(x)（琥珀，能量先验，说什么结构合理）乘以似然（蓝，这张观测说了什么），得到后验（紫，更新后的信念）。MAP（琥珀竖线）是后验的峰 —— CryoGEN-I 只报告它；而整条紫色曲线（峰加宽度）才是 CryoWGEN 报告的东西。缺失楔形让这个方向的观测变弱、似然变平，于是后验变宽：同一个缺口对应一族都说得通的解。把滑块拉到「数据足」，后验收紧到 MAP 上。

后验：用贝叶斯定理更新信念

观测到 $x$ 之后，对 $\theta$ 的信念由后验 $p(\theta\mid x)$ 给出，并由贝叶斯定理得到：

p(\theta\mid x)=\frac{p(x\mid\theta)\,p(\theta)}{p(x)}, \qquad p(x)=\int p(x\mid\theta)\,p(\theta)\,d\theta.

逐项来读：分子 $p(x\mid\theta)\,p(\theta)$ 是”先验信念 $p(\theta)$ “乘以”该 $\theta$ 解释数据的似然 $p(x\mid\theta)$ “；分母 $p(x)$ 称为证据或边缘似然，它对所有 $\theta$ 边缘化（即把 $\theta$ 积掉），使后验在 $\theta$ 上归一化为一个合法概率分布。由于 $p(x)$ 不依赖 $\theta$ ，它只是一个常数因子，常将关系写作

p(\theta\mid x)\;\propto\;p(x\mid\theta)\,p(\theta),

即后验 $\propto$ 似然 $\times$ 先验。符号 $\propto$ （正比于）提醒我们：要得到真正的概率，最后还需除以 $p(x)$ 把面积归一化。这个被忽略的常数在做点估计时无关紧要，但在比较两个不同模型时， $p(x)$ 本身就是衡量模型拟合优度的量。

直觉

先验给出起点，似然给出数据带来的证据，后验则是二者的折中。当数据充分时，似然主导，后验趋于集中；当数据稀少时，先验的影响保留得更久。

一个能算到底的例子：Beta-二项共轭

一个经典的解析示例是 Beta-二项共轭：估计一枚硬币成功概率 $p$ 时，取 Beta $(a,b)$ 先验并观测 $n$ 次试验中的 $k$ 次成功，似然为二项形式 $p^{k}(1-p)^{n-k}$ ，后验仍是 Beta 分布 Beta $(a+k,\,b+n-k)$ 。后验均值 $(a+k)/(a+b+n)$ 介于先验均值与数据频率 $k/n$ 之间，随样本量增大而向 $k/n$ 靠拢。

代入具体数字更直观。取均匀先验 Beta $(1,1)$ （即对 $p$ 一无所知），观测 $n=10$ 次中 $k=7$ 次成功：后验为 Beta $(8,4)$ ，后验均值 $8/12\approx0.67$ ，已经被数据从先验均值 $0.5$ 拉向频率 $0.7$ ，但因样本少而未完全到达。若改为强先验 Beta $(20,20)$ （坚信硬币近乎公平），同样的数据只得到 Beta $(27,23)$ ，均值 $27/50=0.54$ ——先验把估计拽回 $0.5$ 附近。把 $a,b$ 读作”虚拟样本”：先验相当于事先见过 $a$ 次成功、 $b$ 次失败，真实数据则在此基础上累加。这正是先验强弱如何与数据量博弈的精确写照。

当先验与似然属于配对的分布族，使后验与先验同族时，称该先验为共轭先验，此时后验可解析求得，更新只是改写几个参数。共轭性是少数能避开积分的特例；多数真实模型的 $p(x)$ 无法解析，需借助 MAP 点估计、变分推断或 Langevin 采样来近似。

预测与不确定性

对新观测 $\tilde{x}$ 的预测由预测分布给出，它对后验加权平均：

p(\tilde{x}\mid x)=\int p(\tilde{x}\mid\theta)\,p(\theta\mid x)\,d\theta.

这一步是贝叶斯方法与点估计的关键分野：不是先选定一个 $\hat\theta$ 再预测，而是让每个可能的 $\theta$ 都按其后验概率 $p(\theta\mid x)$ 投票。被积式 $p(\tilde{x}\mid\theta)$ 是给定该 $\theta$ 时新数据的似然。当后验很宽（参数不确定）时，预测分布也随之展宽，从而自动把参数不确定性传递到预测中——点估计做不到这一点。

深入

后验不只给出一个点，它给出整套不确定性结构。两类常用的概括量值得区分。可信区间（credible interval）直接来自后验： $[\ell,u]$ 是 95% 可信区间当且仅当 $\int_\ell^u p(\theta\mid x)\,d\theta=0.95$ ，其字面含义就是” $\theta$ 落在此区间的后验概率为 0.95”——这正是频率学派置信区间常被误读成的那种解释，而在贝叶斯框架下它是定义本身。

证据 $p(x)$ 看似只是归一化常数，却是模型比较的核心。对两个模型 $M_1,M_2$ ，其证据之比 $p(x\mid M_1)/p(x\mid M_2)$ 称为贝叶斯因子。它自带”奥卡姆剃刀”：一个过于灵活的模型把先验概率摊薄到大量数据集上，对任一具体 $x$ 的 $p(x)$ 反而偏低，于是简单且拟合够好的模型在证据上胜出。这把”拟合优度”与”模型复杂度”统一在同一个量里，无需额外的惩罚项。

在做决策时，贝叶斯框架还提供清晰的最优性准则：给定损失函数 $L(\theta,\hat\theta)$ ，最优估计是最小化后验期望损失 $\mathbb{E}_{p(\theta\mid x)}[L(\theta,\hat\theta)]$ 的 $\hat\theta$ 。平方损失给出后验均值，绝对损失给出后验中位数，0-1 损失给出后验众数（即 MAP）。不同的点估计其实对应着不同的损失假设。

在 Cryo-ET 重构中的位置

在低温电子断层成像中，重构可表述为贝叶斯反问题：未知的三维密度对应 $\theta$ ，倾斜序列投影对应 $x$ ，由 CTF 与噪声决定的成像模型给出似然，而对密度的结构假设充当先验。这里先验不是可有可无的装饰：投影只覆盖有限角度（缺失楔形），似然在某些方向上几乎不提供信息，后验在这些方向上仍宽——正是先验填补了数据沉默之处。上面的演示用二维的一个缺失坐标把这一机制压缩成可视的形式。

后验最优值的求解与正则化策略在 MAP、最大似然与 EM 中讨论。四类方法可按它们如何对待这个后验来区分：CryoGEN-I 取后验众数（MAP 点估计）；CryoGEN-II 经 WAE/OT 给出一个稳定的单一答案；CryoWGEN-I 与 CryoWGEN-II 则不满足于单点，而是用 EVIA（分别为 Monte-Carlo 与 Langevin）刻画整族后验样本，把”密度有多不确定”也一并交付。

← 概率与统计