MAP、最大似然与 EM

点估计的两条路线——最大似然与最大后验,及含隐变量模型的期望最大化算法。

完整的后验 p(θx)p(\theta\mid x) 给出对参数 θ\theta 的全部不确定性,但很多时候我们只想要一个具体的数值答案:一组权重、一个三维密度、一套姿态参数。把整个分布压成单个 θ\theta 的过程叫点估计,下面两种准则覆盖了绝大多数实践。

直觉

把后验想成参数空间上的一片地形,高度等于该参数的可信度。点估计就是问”最高峰在哪里”。最大似然只看数据塑造出的地形;最大后验在动手之前先按先验把地形整体抬高或压低一遍,再找峰顶。两者找的都是峰顶(众数),而不是地形的重心(后验均值)——当地形不对称时这两者会分开。

最大似然估计(MLE)取使观测数据最可能的参数:

θ^MLE=argmaxθ  p(xθ).\hat\theta_{\text{MLE}}=\arg\max_{\theta}\;p(x\mid\theta).

这里 p(xθ)p(x\mid\theta)似然:把它看作 θ\theta 的函数(xx 固定为已观测值),它衡量在该参数下生成出这批数据的概率。实践中几乎总是最大化对数似然 logp(xθ)\log p(x\mid\theta),因为独立样本的联合似然是连乘,取对数后变成求和 ilogp(xiθ)\sum_i \log p(x_i\mid\theta),数值上不会下溢,求导也更干净。一个熟悉的例子:对 nn 个独立高斯样本做 MLE,得到的 μ^\hat\mu 正是样本均值,σ^2\hat\sigma^2 是样本方差(除以 nn)——很多课本里的”自然估计量”其实就是某个模型的 MLE。

高斯混合模型是 EM 的经典范例:每个样本由哪个分量生成是隐变量,对其责任的软分配给出闭式的 E 步与 M 步。在一个固定的一维双分量数据集上逐步执行 EM,每次迭代后对数似然单调不减。

-6-30360.330
数据直方图分量 1分量 2混合密度
迭代次数: 0对数似然: -327.258均值: -0.50, 0.80权重: 0.50, 0.50

每点 “迭代一步”,E 步按当前两个高斯计算每个样本的归属责任,M 步据此更新均值、方差与权重。对数似然单调不减,直至收敛到局部极大。

最大后验估计(MAP)在似然之外纳入先验,取后验的众数:

θ^MAP=argmaxθ  p(xθ)p(θ).\hat\theta_{\text{MAP}}=\arg\max_{\theta}\;p(x\mid\theta)\,p(\theta).

这里 p(θ)p(\theta) 是观测前对 θ\theta先验。注意分母——贝叶斯定理里的证据 p(x)p(x)——不依赖 θ\theta,因此在 argmax\arg\max 中可以丢掉,这就是 MAP 只需 p(xθ)p(θ)p(x\mid\theta)\,p(\theta) 而不必计算难算的归一化积分的原因。

两者关系密切:MAP 在对数域中等于 MLE 加上一个 logp(θ)\log p(\theta) 项。该项使先验充当正则项——例如高斯先验对应 L2L_2 惩罚,拉普拉斯先验对应 L1L_1 惩罚。当先验趋于平坦时,MAP 退化为 MLE。这一视角把贝叶斯框架与正则化的频率主义优化联系起来,详见贝叶斯推断

深入

为什么高斯先验恰好是 L2L_2 惩罚?设 p(θ)exp ⁣(12τ2θ2)p(\theta)\propto\exp\!\big(-\tfrac{1}{2\tau^2}\lVert\theta\rVert^2\big),则 logp(θ)=12τ2θ2+常数\log p(\theta)=-\tfrac{1}{2\tau^2}\lVert\theta\rVert^2+\text{常数}。把它代入 argmax[logp(xθ)+logp(θ)]\arg\max[\log p(x\mid\theta)+\log p(\theta)],常数项不影响极值,剩下的正是”对数似然减去 θ2\lVert\theta\rVert^2 的惩罚”,惩罚强度 1/τ21/\tau^2 就是岭回归里的 λ\lambda。先验越紧(τ\tau 越小),惩罚越重,估计越被拉向零。拉普拉斯先验 exp(θ1/b)\propto\exp(-\lVert\theta\rVert_1/b) 同理给出 L1L_1 惩罚,其在零点不可导的尖峰正是它倾向产生稀疏解的根源。换句话说,“加正则项”与”设先验”在 MAP 下是同一件事的两种说法。

把这一点放到 Cryo-ET:CryoGEN-I 正是一个以学习得到的能量先验作为 logp(θ)\log p(\theta) 项的 MAP 估计——该先验是一个 EBM(能量模型)而非手工设计的 L2L_2/L1L_1 惩罚。它给出的是单个最优密度(点估计、即后验众数),这正是四方法分类法里 MAP 一档的定位;与之相对,后续方法转向分布层面的答案(见下文链接)。

许多模型含有隐变量 zz,其似然需对隐变量边缘化:

p(xθ)=p(x,zθ)dz.p(x\mid\theta)=\int p(x,z\mid\theta)\,dz.

这里 zz 是没有被直接观测、但参与了数据生成的量——在混合模型里是”每个样本来自哪个分量”,在成像里可以是每张投影对应的未知姿态。该积分把所有可能的 zz 加总掉,通常使 logp(xθ)\log p(x\mid\theta) 难以直接优化:对数套在积分外面,无法逐项求导。

期望最大化(EM)算法以迭代方式回避这一困难,交替执行两步:

Q(θθ(t))=Ep(zx,θ(t)) ⁣[logp(x,zθ)].Q(\theta\mid\theta^{(t)})=\mathbb{E}_{p(z\mid x,\theta^{(t)})}\!\big[\log p(x,z\mid\theta)\big].

直观地说:完整数据对数似然 logp(x,zθ)\log p(x,z\mid\theta)zz 当作已知时很好优化(混合模型里就退化成”每个分量各自拟合分给它的样本”)。麻烦只在于 zz 未知。EM 的办法是先用当前参数猜出 zz 的软分配(E 步给出”责任”,即每个样本属于各分量的概率),再当作真值去更新参数(M 步),然后反复。在上面的演示里,每次迭代后那条对数似然曲线只升不降,正是下面这条保证的体现。

每次迭代都不会降低观测数据似然,故 EM 收敛到似然的局部极大。注意是”局部”——EM 对初始化敏感,不同起点可能落到不同的峰,实践中常多次随机初始化取最好的一次。

深入

为什么”升 QQ 就能升真似然”?关键恒等式是

logp(xθ)=Q(θθ(t))Ep(zx,θ(t)) ⁣[logp(zx,θ)],\log p(x\mid\theta)=Q(\theta\mid\theta^{(t)})-\mathbb{E}_{p(z\mid x,\theta^{(t)})}\!\big[\log p(z\mid x,\theta)\big],

右端第二项是一个负熵形式。把 θ\thetaθ(t)\theta^{(t)} 移到 θ(t+1)\theta^{(t+1)} 时,QQ 按 M 步定义不减;而第二项的变化等于一个 KL 散度 KL(p(zx,θ(t))p(zx,θ(t+1)))0\mathrm{KL}\big(p(z\mid x,\theta^{(t)})\,\Vert\,p(z\mid x,\theta^{(t+1)})\big)\ge 0,方向恰好也帮忙。两者相加即得 logp(xθ(t+1))logp(xθ(t))\log p(x\mid\theta^{(t+1)})\ge\log p(x\mid\theta^{(t)})。等价地,EM 是在一个证据下界上的坐标上升:E 步把辅助分布取为精确后验使界紧贴真似然,M 步对参数最大化该界。当精确后验不可得时,E 步退化为受限分布族上的近似优化,这便是变分推断;KL 与熵的语言见熵与 KL 散度

在含隐姿态或隐密度的成像模型中,这一框架支撑了诸多迭代重构与对齐流程:每张二维投影对应的未知三维取向是隐变量 zz,三维密度是参数 θ\theta,E 步对取向做软对齐、M 步据此更新密度,正是 EM 的形状,参见亚断层平均。从这里出发,Cryo-ET 的重构方法在”给出什么样的答案”上分道:MAP 给单个众数(CryoGEN-I),更稳的单一答案走 WAE/OT 路线(CryoGEN-II),而 CryoWGEN 则进一步给出一族后验样本而非一个点。

← 概率与统计