MAP、最大似然与 EM 点估计的两条路线——最大似然与最大后验,及含隐变量模型的期望最大化算法。
建议先了解 贝叶斯推断 完整的后验 p ( θ ∣ x ) p(\theta\mid x) p ( θ ∣ x ) 给出对参数 θ \theta θ 的全部不确定性,但很多时候我们只想要一个具体的数值答案:一组权重、一个三维密度、一套姿态参数。把整个分布压成单个 θ \theta θ 的过程叫点估计 ,下面两种准则覆盖了绝大多数实践。
直觉
把后验想成参数空间上的一片地形,高度等于该参数的可信度。点估计就是问”最高峰在哪里”。最大似然只看数据塑造出的地形;最大后验在动手之前先按先验把地形整体抬高或压低一遍,再找峰顶。两者找的都是峰顶(众数),而不是地形的重心(后验均值)——当地形不对称时这两者会分开。
最大似然估计 (MLE)取使观测数据最可能的参数:
θ ^ MLE = arg max θ p ( x ∣ θ ) . \hat\theta_{\text{MLE}}=\arg\max_{\theta}\;p(x\mid\theta). θ ^ MLE = arg θ max p ( x ∣ θ ) .
这里 p ( x ∣ θ ) p(x\mid\theta) p ( x ∣ θ ) 是似然 :把它看作 θ \theta θ 的函数(x x x 固定为已观测值),它衡量在该参数下生成出这批数据的概率。实践中几乎总是最大化对数似然 log p ( x ∣ θ ) \log p(x\mid\theta) log p ( x ∣ θ ) ,因为独立样本的联合似然是连乘,取对数后变成求和 ∑ i log p ( x i ∣ θ ) \sum_i \log p(x_i\mid\theta) ∑ i log p ( x i ∣ θ ) ,数值上不会下溢,求导也更干净。一个熟悉的例子:对 n n n 个独立高斯样本做 MLE,得到的 μ ^ \hat\mu μ ^ 正是样本均值,σ ^ 2 \hat\sigma^2 σ ^ 2 是样本方差(除以 n n n )——很多课本里的”自然估计量”其实就是某个模型的 MLE。
高斯混合模型是 EM 的经典范例:每个样本由哪个分量生成是隐变量,对其责任的软分配给出闭式的 E 步与 M 步。在一个固定的一维双分量数据集上逐步执行 EM,每次迭代后对数似然单调不减。
-6 -3 0 3 6 0.33 0 数据直方图 分量 1 分量 2 混合密度
迭代次数: 0 对数似然: -327.258 均值: -0.50 , 0.80 权重: 0.50 , 0.50
迭代一步 重置
每点 “迭代一步”,E 步按当前两个高斯计算每个样本的归属责任,M 步据此更新均值、方差与权重。对数似然单调不减,直至收敛到局部极大。
最大后验估计 (MAP)在似然之外纳入先验,取后验的众数:
θ ^ MAP = arg max θ p ( x ∣ θ ) p ( θ ) . \hat\theta_{\text{MAP}}=\arg\max_{\theta}\;p(x\mid\theta)\,p(\theta). θ ^ MAP = arg θ max p ( x ∣ θ ) p ( θ ) .
这里 p ( θ ) p(\theta) p ( θ ) 是观测前对 θ \theta θ 的先验 。注意分母——贝叶斯定理里的证据 p ( x ) p(x) p ( x ) ——不依赖 θ \theta θ ,因此在 arg max \arg\max arg max 中可以丢掉,这就是 MAP 只需 p ( x ∣ θ ) p ( θ ) p(x\mid\theta)\,p(\theta) p ( x ∣ θ ) p ( θ ) 而不必计算难算的归一化积分的原因。
两者关系密切:MAP 在对数域中等于 MLE 加上一个 log p ( θ ) \log p(\theta) log p ( θ ) 项。该项使先验充当正则项 ——例如高斯先验对应 L 2 L_2 L 2 惩罚,拉普拉斯先验对应 L 1 L_1 L 1 惩罚。当先验趋于平坦时,MAP 退化为 MLE。这一视角把贝叶斯框架与正则化的频率主义优化联系起来,详见贝叶斯推断 。
深入
为什么高斯先验恰好是 L 2 L_2 L 2 惩罚?设 p ( θ ) ∝ exp ( − 1 2 τ 2 ∥ θ ∥ 2 ) p(\theta)\propto\exp\!\big(-\tfrac{1}{2\tau^2}\lVert\theta\rVert^2\big) p ( θ ) ∝ exp ( − 2 τ 2 1 ∥ θ ∥ 2 ) ,则 log p ( θ ) = − 1 2 τ 2 ∥ θ ∥ 2 + 常数 \log p(\theta)=-\tfrac{1}{2\tau^2}\lVert\theta\rVert^2+\text{常数} log p ( θ ) = − 2 τ 2 1 ∥ θ ∥ 2 + 常数 。把它代入 arg max [ log p ( x ∣ θ ) + log p ( θ ) ] \arg\max[\log p(x\mid\theta)+\log p(\theta)] arg max [ log p ( x ∣ θ ) + log p ( θ )] ,常数项不影响极值,剩下的正是”对数似然减去 ∥ θ ∥ 2 \lVert\theta\rVert^2 ∥ θ ∥ 2 的惩罚”,惩罚强度 1 / τ 2 1/\tau^2 1/ τ 2 就是岭回归里的 λ \lambda λ 。先验越紧(τ \tau τ 越小),惩罚越重,估计越被拉向零。拉普拉斯先验 ∝ exp ( − ∥ θ ∥ 1 / b ) \propto\exp(-\lVert\theta\rVert_1/b) ∝ exp ( − ∥ θ ∥ 1 / b ) 同理给出 L 1 L_1 L 1 惩罚,其在零点不可导的尖峰正是它倾向产生稀疏解的根源。换句话说,“加正则项”与”设先验”在 MAP 下是同一件事的两种说法。
把这一点放到 Cryo-ET:CryoGEN-I 正是一个以学习得到的能量先验 作为 log p ( θ ) \log p(\theta) log p ( θ ) 项的 MAP 估计——该先验是一个 EBM(能量模型)而非手工设计的 L 2 L_2 L 2 /L 1 L_1 L 1 惩罚。它给出的是单个最优密度(点估计、即后验众数),这正是四方法分类法里 MAP 一档的定位;与之相对,后续方法转向分布层面的答案(见下文链接)。
许多模型含有隐变量 z z z ,其似然需对隐变量边缘化:
p ( x ∣ θ ) = ∫ p ( x , z ∣ θ ) d z . p(x\mid\theta)=\int p(x,z\mid\theta)\,dz. p ( x ∣ θ ) = ∫ p ( x , z ∣ θ ) d z .
这里 z z z 是没有被直接观测、但参与了数据生成的量——在混合模型里是”每个样本来自哪个分量”,在成像里可以是每张投影对应的未知姿态。该积分把所有可能的 z z z 加总掉,通常使 log p ( x ∣ θ ) \log p(x\mid\theta) log p ( x ∣ θ ) 难以直接优化:对数套在积分外面,无法逐项求导。
期望最大化 (EM)算法以迭代方式回避这一困难,交替执行两步:
E 步 :在当前参数 θ ( t ) \theta^{(t)} θ ( t ) 下计算隐变量的后验 p ( z ∣ x , θ ( t ) ) p(z\mid x,\theta^{(t)}) p ( z ∣ x , θ ( t ) ) ,并据此构造完整数据对数似然的期望
Q ( θ ∣ θ ( t ) ) = E p ( z ∣ x , θ ( t ) ) [ log p ( x , z ∣ θ ) ] . Q(\theta\mid\theta^{(t)})=\mathbb{E}_{p(z\mid x,\theta^{(t)})}\!\big[\log p(x,z\mid\theta)\big]. Q ( θ ∣ θ ( t ) ) = E p ( z ∣ x , θ ( t ) ) [ log p ( x , z ∣ θ ) ] .
M 步 :对该期望最大化,θ ( t + 1 ) = arg max θ Q ( θ ∣ θ ( t ) ) \theta^{(t+1)}=\arg\max_{\theta}Q(\theta\mid\theta^{(t)}) θ ( t + 1 ) = arg max θ Q ( θ ∣ θ ( t ) ) 。
直观地说:完整数据对数似然 log p ( x , z ∣ θ ) \log p(x,z\mid\theta) log p ( x , z ∣ θ ) 把 z z z 当作已知时很好优化(混合模型里就退化成”每个分量各自拟合分给它的样本”)。麻烦只在于 z z z 未知。EM 的办法是先用当前参数猜出 z z z 的软分配(E 步给出”责任”,即每个样本属于各分量的概率),再当作真值去更新参数(M 步),然后反复。在上面的演示里,每次迭代后那条对数似然曲线只升不降,正是下面这条保证的体现。
每次迭代都不会降低观测数据似然,故 EM 收敛到似然的局部极大。注意是”局部”——EM 对初始化敏感,不同起点可能落到不同的峰,实践中常多次随机初始化取最好的一次。
深入
为什么”升 Q Q Q 就能升真似然”?关键恒等式是
log p ( x ∣ θ ) = Q ( θ ∣ θ ( t ) ) − E p ( z ∣ x , θ ( t ) ) [ log p ( z ∣ x , θ ) ] , \log p(x\mid\theta)=Q(\theta\mid\theta^{(t)})-\mathbb{E}_{p(z\mid x,\theta^{(t)})}\!\big[\log p(z\mid x,\theta)\big], log p ( x ∣ θ ) = Q ( θ ∣ θ ( t ) ) − E p ( z ∣ x , θ ( t ) ) [ log p ( z ∣ x , θ ) ] , 右端第二项是一个负熵形式。把 θ \theta θ 从 θ ( t ) \theta^{(t)} θ ( t ) 移到 θ ( t + 1 ) \theta^{(t+1)} θ ( t + 1 ) 时,Q Q Q 按 M 步定义不减;而第二项的变化等于一个 KL 散度 K L ( p ( z ∣ x , θ ( t ) ) ∥ p ( z ∣ x , θ ( t + 1 ) ) ) ≥ 0 \mathrm{KL}\big(p(z\mid x,\theta^{(t)})\,\Vert\,p(z\mid x,\theta^{(t+1)})\big)\ge 0 KL ( p ( z ∣ x , θ ( t ) ) ∥ p ( z ∣ x , θ ( t + 1 ) ) ) ≥ 0 ,方向恰好也帮忙。两者相加即得 log p ( x ∣ θ ( t + 1 ) ) ≥ log p ( x ∣ θ ( t ) ) \log p(x\mid\theta^{(t+1)})\ge\log p(x\mid\theta^{(t)}) log p ( x ∣ θ ( t + 1 ) ) ≥ log p ( x ∣ θ ( t ) ) 。等价地,EM 是在一个证据下界 上的坐标上升:E 步把辅助分布取为精确后验使界紧贴真似然,M 步对参数最大化该界。当精确后验不可得时,E 步退化为受限分布族上的近似优化,这便是变分推断 ;KL 与熵的语言见熵与 KL 散度 。
在含隐姿态或隐密度的成像模型中,这一框架支撑了诸多迭代重构与对齐流程:每张二维投影对应的未知三维取向是隐变量 z z z ,三维密度是参数 θ \theta θ ,E 步对取向做软对齐、M 步据此更新密度,正是 EM 的形状,参见亚断层平均 。从这里出发,Cryo-ET 的重构方法在”给出什么样的答案”上分道:MAP 给单个众数(CryoGEN-I ),更稳的单一答案走 WAE/OT 路线(CryoGEN-II ),而 CryoWGEN 则进一步给出一族后验样本而非一个点。
← 概率与统计