贝叶斯推断
以概率描述未知量,并经由贝叶斯定理用观测数据更新先验信念得到后验。
贝叶斯推断把所有未知量都视作随机变量,并用概率分布刻画对它们的不确定性。设 为待估的参数或隐状态, 为观测数据。建模需指定两个成分:先验 编码在观测之前对 的信念,似然 描述给定 时数据的生成机制。
把推断想成”在所有可能的真相上分配信念”。一开始你按先验分配——某些 看起来更合理,分得更多权重。每来一个观测,就问”如果真相是这个 ,我看到当前数据的可能性有多大”,并按这个可能性重新加权。和数据相符的 权重升高,相矛盾的下降。重新归一化后的权重分布就是后验。整个过程不是挑出一个答案,而是把信念的”形状”从先验改造成后验。
一个与 Cryo-ET 直接相关的例子 —— 只测到二维结构的一个坐标,另一坐标像缺失楔形一样测不到。看先验与似然如何合成后验,以及 MAP 点估计与完整后验之别:
后验宽 —— 不确定,一族解
贝叶斯推断把「从含噪观测反推干净结构」写成一次更新:先验 p(x)(琥珀,能量先验,说什么结构合理)乘以似然(蓝,这张观测说了什么),得到后验(紫,更新后的信念)。MAP(琥珀竖线)是后验的峰 —— CryoGEN-I 只报告它;而整条紫色曲线(峰加宽度)才是 CryoWGEN 报告的东西。缺失楔形让这个方向的观测变弱、似然变平,于是后验变宽:同一个缺口对应一族都说得通的解。把滑块拉到「数据足」,后验收紧到 MAP 上。
后验:用贝叶斯定理更新信念
观测到 之后,对 的信念由后验 给出,并由贝叶斯定理得到:
逐项来读:分子 是”先验信念 “乘以”该 解释数据的似然 “;分母 称为证据或边缘似然,它对所有 边缘化(即把 积掉),使后验在 上归一化为一个合法概率分布。由于 不依赖 ,它只是一个常数因子,常将关系写作
即后验 似然 先验。符号 (正比于)提醒我们:要得到真正的概率,最后还需除以 把面积归一化。这个被忽略的常数在做点估计时无关紧要,但在比较两个不同模型时, 本身就是衡量模型拟合优度的量。
先验给出起点,似然给出数据带来的证据,后验则是二者的折中。当数据充分时,似然主导,后验趋于集中;当数据稀少时,先验的影响保留得更久。
一个能算到底的例子:Beta-二项共轭
一个经典的解析示例是 Beta-二项共轭:估计一枚硬币成功概率 时,取 Beta 先验并观测 次试验中的 次成功,似然为二项形式 ,后验仍是 Beta 分布 Beta。后验均值 介于先验均值与数据频率 之间,随样本量增大而向 靠拢。
代入具体数字更直观。取均匀先验 Beta(即对 一无所知),观测 次中 次成功:后验为 Beta,后验均值 ,已经被数据从先验均值 拉向频率 ,但因样本少而未完全到达。若改为强先验 Beta(坚信硬币近乎公平),同样的数据只得到 Beta,均值 ——先验把估计拽回 附近。把 读作”虚拟样本”:先验相当于事先见过 次成功、 次失败,真实数据则在此基础上累加。这正是先验强弱如何与数据量博弈的精确写照。
当先验与似然属于配对的分布族,使后验与先验同族时,称该先验为共轭先验,此时后验可解析求得,更新只是改写几个参数。共轭性是少数能避开积分的特例;多数真实模型的 无法解析,需借助 MAP 点估计、变分推断或 Langevin 采样来近似。
预测与不确定性
对新观测 的预测由预测分布给出,它对后验加权平均:
这一步是贝叶斯方法与点估计的关键分野:不是先选定一个 再预测,而是让每个可能的 都按其后验概率 投票。被积式 是给定该 时新数据的似然。当后验很宽(参数不确定)时,预测分布也随之展宽,从而自动把参数不确定性传递到预测中——点估计做不到这一点。
后验不只给出一个点,它给出整套不确定性结构。两类常用的概括量值得区分。可信区间(credible interval)直接来自后验: 是 95% 可信区间当且仅当 ,其字面含义就是” 落在此区间的后验概率为 0.95”——这正是频率学派置信区间常被误读成的那种解释,而在贝叶斯框架下它是定义本身。
证据 看似只是归一化常数,却是模型比较的核心。对两个模型 ,其证据之比 称为贝叶斯因子。它自带”奥卡姆剃刀”:一个过于灵活的模型把先验概率摊薄到大量数据集上,对任一具体 的 反而偏低,于是简单且拟合够好的模型在证据上胜出。这把”拟合优度”与”模型复杂度”统一在同一个量里,无需额外的惩罚项。
在做决策时,贝叶斯框架还提供清晰的最优性准则:给定损失函数 ,最优估计是最小化后验期望损失 的 。平方损失给出后验均值,绝对损失给出后验中位数,0-1 损失给出后验众数(即 MAP)。不同的点估计其实对应着不同的损失假设。
在 Cryo-ET 重构中的位置
在低温电子断层成像中,重构可表述为贝叶斯反问题:未知的三维密度对应 ,倾斜序列投影对应 ,由 CTF 与噪声决定的成像模型给出似然,而对密度的结构假设充当先验。这里先验不是可有可无的装饰:投影只覆盖有限角度(缺失楔形),似然在某些方向上几乎不提供信息,后验在这些方向上仍宽——正是先验填补了数据沉默之处。上面的演示用二维的一个缺失坐标把这一机制压缩成可视的形式。
后验最优值的求解与正则化策略在 MAP、最大似然与 EM 中讨论。四类方法可按它们如何对待这个后验来区分:CryoGEN-I 取后验众数(MAP 点估计);CryoGEN-II 经 WAE/OT 给出一个稳定的单一答案;CryoWGEN-I 与 CryoWGEN-II 则不满足于单点,而是用 EVIA(分别为 Monte-Carlo 与 Langevin)刻画整族后验样本,把”密度有多不确定”也一并交付。