MAP、最大似然与 EM

点估计的两条路线——最大似然与最大后验，及含隐变量模型的期望最大化算法。

完整的后验 $p(\theta\mid x)$ 给出对参数 $\theta$ 的全部不确定性，但很多时候我们只想要一个具体的数值答案：一组权重、一个三维密度、一套姿态参数。把整个分布压成单个 $\theta$ 的过程叫点估计，下面两种准则覆盖了绝大多数实践。

直觉

把后验想成参数空间上的一片地形，高度等于该参数的可信度。点估计就是问”最高峰在哪里”。最大似然只看数据塑造出的地形；最大后验在动手之前先按先验把地形整体抬高或压低一遍，再找峰顶。两者找的都是峰顶（众数），而不是地形的重心（后验均值）——当地形不对称时这两者会分开。

最大似然估计（MLE）取使观测数据最可能的参数：

\hat\theta_{\text{MLE}}=\arg\max_{\theta}\;p(x\mid\theta).

这里 $p(x\mid\theta)$ 是似然：把它看作 $\theta$ 的函数（ $x$ 固定为已观测值），它衡量在该参数下生成出这批数据的概率。实践中几乎总是最大化对数似然 $\log p(x\mid\theta)$ ，因为独立样本的联合似然是连乘，取对数后变成求和 $\sum_i \log p(x_i\mid\theta)$ ，数值上不会下溢，求导也更干净。一个熟悉的例子：对 $n$ 个独立高斯样本做 MLE，得到的 $\hat\mu$ 正是样本均值， $\hat\sigma^2$ 是样本方差（除以 $n$ ）——很多课本里的”自然估计量”其实就是某个模型的 MLE。

高斯混合模型是 EM 的经典范例：每个样本由哪个分量生成是隐变量，对其责任的软分配给出闭式的 E 步与 M 步。在一个固定的一维双分量数据集上逐步执行 EM，每次迭代后对数似然单调不减。

数据直方图分量 1分量 2混合密度

迭代次数: 0对数似然: -327.258均值: -0.50, 0.80权重: 0.50, 0.50

每点 “迭代一步”，E 步按当前两个高斯计算每个样本的归属责任，M 步据此更新均值、方差与权重。对数似然单调不减，直至收敛到局部极大。

最大后验估计（MAP）在似然之外纳入先验，取后验的众数：

\hat\theta_{\text{MAP}}=\arg\max_{\theta}\;p(x\mid\theta)\,p(\theta).

这里 $p(\theta)$ 是观测前对 $\theta$ 的先验。注意分母——贝叶斯定理里的证据 $p(x)$ ——不依赖 $\theta$ ，因此在 $\arg\max$ 中可以丢掉，这就是 MAP 只需 $p(x\mid\theta)\,p(\theta)$ 而不必计算难算的归一化积分的原因。

两者关系密切：MAP 在对数域中等于 MLE 加上一个 $\log p(\theta)$ 项。该项使先验充当正则项——例如高斯先验对应 $L_2$ 惩罚，拉普拉斯先验对应 $L_1$ 惩罚。当先验趋于平坦时，MAP 退化为 MLE。这一视角把贝叶斯框架与正则化的频率主义优化联系起来，详见贝叶斯推断。

深入

为什么高斯先验恰好是 $L_2$ 惩罚？设 $p(\theta)\propto\exp\!\big(-\tfrac{1}{2\tau^2}\lVert\theta\rVert^2\big)$ ，则 $\log p(\theta)=-\tfrac{1}{2\tau^2}\lVert\theta\rVert^2+\text{常数}$ 。把它代入 $\arg\max[\log p(x\mid\theta)+\log p(\theta)]$ ，常数项不影响极值，剩下的正是”对数似然减去 $\lVert\theta\rVert^2$ 的惩罚”，惩罚强度 $1/\tau^2$ 就是岭回归里的 $\lambda$ 。先验越紧（ $\tau$ 越小），惩罚越重，估计越被拉向零。拉普拉斯先验 $\propto\exp(-\lVert\theta\rVert_1/b)$ 同理给出 $L_1$ 惩罚，其在零点不可导的尖峰正是它倾向产生稀疏解的根源。换句话说，“加正则项”与”设先验”在 MAP 下是同一件事的两种说法。

把这一点放到 Cryo-ET：CryoGEN-I 正是一个以学习得到的能量先验作为 $\log p(\theta)$ 项的 MAP 估计——该先验是一个 EBM（能量模型）而非手工设计的 $L_2$ / $L_1$ 惩罚。它给出的是单个最优密度（点估计、即后验众数），这正是四方法分类法里 MAP 一档的定位；与之相对，后续方法转向分布层面的答案（见下文链接）。

许多模型含有隐变量 $z$ ，其似然需对隐变量边缘化：

p(x\mid\theta)=\int p(x,z\mid\theta)\,dz.

这里 $z$ 是没有被直接观测、但参与了数据生成的量——在混合模型里是”每个样本来自哪个分量”，在成像里可以是每张投影对应的未知姿态。该积分把所有可能的 $z$ 加总掉，通常使 $\log p(x\mid\theta)$ 难以直接优化：对数套在积分外面，无法逐项求导。

期望最大化（EM）算法以迭代方式回避这一困难，交替执行两步：

E 步：在当前参数 $\theta^{(t)}$ 下计算隐变量的后验 $p(z\mid x,\theta^{(t)})$ ，并据此构造完整数据对数似然的期望

Q(\theta\mid\theta^{(t)})=\mathbb{E}_{p(z\mid x,\theta^{(t)})}\!\big[\log p(x,z\mid\theta)\big].

M 步：对该期望最大化， $\theta^{(t+1)}=\arg\max_{\theta}Q(\theta\mid\theta^{(t)})$ 。

直观地说：完整数据对数似然 $\log p(x,z\mid\theta)$ 把 $z$ 当作已知时很好优化（混合模型里就退化成”每个分量各自拟合分给它的样本”）。麻烦只在于 $z$ 未知。EM 的办法是先用当前参数猜出 $z$ 的软分配（E 步给出”责任”，即每个样本属于各分量的概率），再当作真值去更新参数（M 步），然后反复。在上面的演示里，每次迭代后那条对数似然曲线只升不降，正是下面这条保证的体现。

每次迭代都不会降低观测数据似然，故 EM 收敛到似然的局部极大。注意是”局部”——EM 对初始化敏感，不同起点可能落到不同的峰，实践中常多次随机初始化取最好的一次。

深入

为什么”升 $Q$ 就能升真似然”？关键恒等式是

\log p(x\mid\theta)=Q(\theta\mid\theta^{(t)})-\mathbb{E}_{p(z\mid x,\theta^{(t)})}\!\big[\log p(z\mid x,\theta)\big],

右端第二项是一个负熵形式。把 $\theta$ 从 $\theta^{(t)}$ 移到 $\theta^{(t+1)}$ 时， $Q$ 按 M 步定义不减；而第二项的变化等于一个 KL 散度 $\mathrm{KL}\big(p(z\mid x,\theta^{(t)})\,\Vert\,p(z\mid x,\theta^{(t+1)})\big)\ge 0$ ，方向恰好也帮忙。两者相加即得 $\log p(x\mid\theta^{(t+1)})\ge\log p(x\mid\theta^{(t)})$ 。等价地，EM 是在一个证据下界上的坐标上升：E 步把辅助分布取为精确后验使界紧贴真似然，M 步对参数最大化该界。当精确后验不可得时，E 步退化为受限分布族上的近似优化，这便是变分推断；KL 与熵的语言见熵与 KL 散度。

在含隐姿态或隐密度的成像模型中，这一框架支撑了诸多迭代重构与对齐流程：每张二维投影对应的未知三维取向是隐变量 $z$ ，三维密度是参数 $\theta$ ，E 步对取向做软对齐、M 步据此更新密度，正是 EM 的形状，参见亚断层平均。从这里出发，Cryo-ET 的重构方法在”给出什么样的答案”上分道：MAP 给单个众数（CryoGEN-I），更稳的单一答案走 WAE/OT 路线（CryoGEN-II），而 CryoWGEN 则进一步给出一族后验样本而非一个点。

← 概率与统计