熵与 KL 散度

以香农熵、交叉熵与 KL 散度度量不确定性与分布间的差异，并联系最大似然估计。

把一个分布看作”对结果的不确定程度”。如果一枚硬币几乎总是朝上，你对下一次抛掷几乎确定，不确定性很低；如果它公平，你对每次结果都最难猜，不确定性最高。香农熵就是把这种”难猜程度”量化为一个数。本页从熵出发，引出交叉熵与 KL 散度——后者度量两个分布的差异，是几乎所有概率建模目标函数（包括重构方法）背后的共同语言。

香农熵度量一个分布所携带的不确定性。对离散分布 $p$ ，

H(p)=-\sum_{i}p(i)\log p(i),

其中 $p(i)$ 是第 $i$ 个结果的概率， $-\log p(i)$ 是该结果发生时的”惊讶度”（概率越小越惊讶），整个求和即惊讶度的期望。熵当概率均匀分布时取最大值，当全部质量集中于一处时取零。它给出对来自 $p$ 的样本进行无损编码所需的平均码长下界。

举一个具体例子：以 2 为底的对数下，公平硬币 $p=(\tfrac12,\tfrac12)$ 的熵为 $-\tfrac12\log_2\tfrac12-\tfrac12\log_2\tfrac12=1$ 比特——平均每次抛掷需要 1 个比特才能编码。偏置硬币 $p=(0.9,0.1)$ 的熵为 $-0.9\log_2 0.9-0.1\log_2 0.1\approx 0.47$ 比特，不到一半：结果更可预测，平均需要的比特更少。完全确定的硬币 $p=(1,0)$ 熵为零，无需任何比特。

p = N(0, 1)（固定）q = N(μ, σ²)（可调）

KL(p∥q)2.459

KL(q∥p)1.227

不对称比2.00

q 的均值 μ: 1.50q 的标准差 σ: 0.70

前向 KL(p∥q) 在 q 几乎无质量而 p 有质量之处迅速增大；反向 KL(q∥p) 则相反。两者一般不相等，故 KL 不是距离。

上图以两个一维高斯分布说明 KL 散度的不对称性：参考分布 $p$ 固定为标准正态， $q$ 的均值与标准差可调。当 $q$ 在 $p$ 仍有质量的尾部塌缩为零时，前向 KL 急剧增大；交换两分布的角色一般给出不同的数值，二者只在 $p=q$ 时同为零。这种由积分中对数比项主导的非对称行为，正是连续分布上 KL 与交叉熵的核心特征。

交叉熵衡量用为分布 $q$ 设计的编码去编码来自 $p$ 的样本所需的平均码长：

H(p,q)=-\sum_{i}p(i)\log q(i).

这里结果按 $p$ 的频率出现（因此用 $p(i)$ 加权），但码长按 $q$ 设计（因此是 $-\log q(i)$ ）。若编码所用的 $q$ 与真实的 $p$ 不符，平均码长必然变长——多出来的部分正是下面的 KL 散度。

二者之差即 KL 散度：

\mathrm{KL}(p\,\Vert\,q)=\sum_{i}p(i)\log\frac{p(i)}{q(i)}=H(p,q)-H(p).

它度量”误用 $q$ 而非真实 $p$ 的编码”所付出的额外码长。由吉布斯不等式， $\mathrm{KL}(p\Vert q)\ge 0$ ，且当且仅当 $p=q$ 时取等。KL 散度不对称：一般 $\mathrm{KL}(p\Vert q)\neq\mathrm{KL}(q\Vert p)$ ，故它不是距离度量。

举例说明非对称性。设 $p=(0.5,0.5)$ 、 $q=(0.9,0.1)$ 。以 2 为底， $\mathrm{KL}(p\Vert q)=0.5\log_2\frac{0.5}{0.9}+0.5\log_2\frac{0.5}{0.1}\approx 0.74$ 比特，而 $\mathrm{KL}(q\Vert p)=0.9\log_2\frac{0.9}{0.5}+0.1\log_2\frac{0.1}{0.5}\approx 0.53$ 比特。两个方向都为正、都在 $p=q$ 时才为零，但数值不同——交换两个分布会改变结果。

直觉

前向 KL $\mathrm{KL}(p\Vert q)$ 对 $p$ 有质量而 $q$ 几乎为零之处施加重罚，迫使 $q$ 覆盖 $p$ 的全部支撑，倾向于”求全”。反向 KL $\mathrm{KL}(q\Vert p)$ 则惩罚 $q$ 落在 $p$ 之外，倾向于锁定单一众数而”求精”。

深入

非对称性来自被加权的对象不同。前向 KL 在 $p$ 之下取期望：凡 $p(i)>0$ 而 $q(i)\to 0$ 之处， $\log\frac{p(i)}{q(i)}\to+\infty$ 被 $p(i)$ 放大，故 $q$ 不敢在 $p$ 的任何支撑上留空——这是”求全”的来源。反向 KL 在 $q$ 之下取期望：凡 $q(i)>0$ 而 $p(i)\to 0$ 之处受罚，故 $q$ 宁可只覆盖 $p$ 的一个峰而不外溢——这是”求精”的来源。当 $p$ 是多峰分布时，最小化前向 KL 的 $q$ 会摊开以覆盖各峰（甚至在峰之间的低密度区放置质量），最小化反向 KL 的 $q$ 则会缩进单一峰内。两个目标在生成式建模中给出截然不同的解，选择哪一个取决于你要”覆盖所有模式”还是”得到一个清晰的样本”。

KL 散度与最大似然估计直接相连。最大化模型在数据上的对数似然，等价于最小化数据经验分布 $\hat p$ 与模型 $q_\theta$ 之间的前向 KL：

\arg\max_{\theta}\,\mathbb{E}_{\hat p}[\log q_\theta] =\arg\min_{\theta}\,\mathrm{KL}(\hat p\,\Vert\,q_\theta),

其中 $\hat p$ 是把每个观测样本各赋等权得到的经验分布， $q_\theta$ 是参数为 $\theta$ 的模型分布。等式成立是因为 $\mathrm{KL}(\hat p\Vert q_\theta)=H(\hat p,q_\theta)-H(\hat p)$ ，而 $H(\hat p)$ 与 $\theta$ 无关，对参数优化只是常数。这把最大似然与信息论的分布匹配统一起来：训练一个最大似然模型，就是在让模型分布去匹配数据的经验分布。

KL 散度始终有定义，但当 $q$ 在 $p$ 有质量处几乎为零时会发散为 $+\infty$ （支撑不相交时即取 $+\infty$ ，给不出有用梯度）；这在训练初期模型分布与数据分布尚未对齐时尤为常见，正是 CryoGEN-II 转而用最优传输而非 KL 来匹配分布的缘由。Wasserstein 距离以最优传输代价度量分布差异，即便支撑不重叠也保持有限并随几何位移平滑变化，因而在变分推断与生成式建模中常作为 KL 的替代。

这些量在 Cryo-ET 重构中无处不在。最大似然/最大后验目标（MAP、最大似然与 EM）本质上是在最小化数据与正向成像模型预测之间的前向 KL；EM 的 E 步用一个辅助分布逼近隐变量后验，其紧致条件正是辅助分布与真实后验之间的 KL 为零。变分推断显式最小化反向 KL，把”求精”的众数寻求行为带入近似后验。而当 KL 因分布不重叠而退化、给不出梯度时，最优传输接管——这条 KL 与 Wasserstein 之间的取舍，直接对应于四种重构方法里点估计（KL 系）与 OT 系（CryoGEN-II）之间的分界。

← 概率与统计