熵与 KL 散度
以香农熵、交叉熵与 KL 散度度量不确定性与分布间的差异,并联系最大似然估计。
把一个分布看作”对结果的不确定程度”。如果一枚硬币几乎总是朝上,你对下一次抛掷几乎确定,不确定性很低;如果它公平,你对每次结果都最难猜,不确定性最高。香农熵就是把这种”难猜程度”量化为一个数。本页从熵出发,引出交叉熵与 KL 散度——后者度量两个分布的差异,是几乎所有概率建模目标函数(包括重构方法)背后的共同语言。
香农熵度量一个分布所携带的不确定性。对离散分布 p,
H(p)=−i∑p(i)logp(i),
其中 p(i) 是第 i 个结果的概率,−logp(i) 是该结果发生时的”惊讶度”(概率越小越惊讶),整个求和即惊讶度的期望。熵当概率均匀分布时取最大值,当全部质量集中于一处时取零。它给出对来自 p 的样本进行无损编码所需的平均码长下界。
举一个具体例子:以 2 为底的对数下,公平硬币 p=(21,21) 的熵为 −21log221−21log221=1 比特——平均每次抛掷需要 1 个比特才能编码。偏置硬币 p=(0.9,0.1) 的熵为 −0.9log20.9−0.1log20.1≈0.47 比特,不到一半:结果更可预测,平均需要的比特更少。完全确定的硬币 p=(1,0) 熵为零,无需任何比特。
p = N(0, 1)(固定)q = N(μ, σ²)(可调)
KL(p∥q)2.459
KL(q∥p)1.227
不对称比2.00
前向 KL(p∥q) 在 q 几乎无质量而 p 有质量之处迅速增大;反向 KL(q∥p) 则相反。两者一般不相等,故 KL 不是距离。
上图以两个一维高斯分布说明 KL 散度的不对称性:参考分布 p 固定为标准正态,q 的均值与标准差可调。当 q 在 p 仍有质量的尾部塌缩为零时,前向 KL 急剧增大;交换两分布的角色一般给出不同的数值,二者只在 p=q 时同为零。这种由积分中对数比项主导的非对称行为,正是连续分布上 KL 与交叉熵的核心特征。
交叉熵衡量用为分布 q 设计的编码去编码来自 p 的样本所需的平均码长:
H(p,q)=−i∑p(i)logq(i).
这里结果按 p 的频率出现(因此用 p(i) 加权),但码长按 q 设计(因此是 −logq(i))。若编码所用的 q 与真实的 p 不符,平均码长必然变长——多出来的部分正是下面的 KL 散度。
二者之差即 KL 散度:
KL(p∥q)=i∑p(i)logq(i)p(i)=H(p,q)−H(p).
它度量”误用 q 而非真实 p 的编码”所付出的额外码长。由吉布斯不等式,KL(p∥q)≥0,且当且仅当 p=q 时取等。KL 散度不对称:一般 KL(p∥q)=KL(q∥p),故它不是距离度量。
举例说明非对称性。设 p=(0.5,0.5)、q=(0.9,0.1)。以 2 为底,
KL(p∥q)=0.5log20.90.5+0.5log20.10.5≈0.74 比特,
而 KL(q∥p)=0.9log20.50.9+0.1log20.50.1≈0.53 比特。两个方向都为正、都在 p=q 时才为零,但数值不同——交换两个分布会改变结果。
直觉
前向 KL KL(p∥q) 对 p 有质量而 q 几乎为零之处施加重罚,迫使 q 覆盖 p 的全部支撑,倾向于”求全”。反向 KL KL(q∥p) 则惩罚 q 落在 p 之外,倾向于锁定单一众数而”求精”。
深入
非对称性来自被加权的对象不同。前向 KL 在 p 之下取期望:凡 p(i)>0 而 q(i)→0 之处,logq(i)p(i)→+∞ 被 p(i) 放大,故 q 不敢在 p 的任何支撑上留空——这是”求全”的来源。反向 KL 在 q 之下取期望:凡 q(i)>0 而 p(i)→0 之处受罚,故 q 宁可只覆盖 p 的一个峰而不外溢——这是”求精”的来源。当 p 是多峰分布时,最小化前向 KL 的 q 会摊开以覆盖各峰(甚至在峰之间的低密度区放置质量),最小化反向 KL 的 q 则会缩进单一峰内。两个目标在生成式建模中给出截然不同的解,选择哪一个取决于你要”覆盖所有模式”还是”得到一个清晰的样本”。
KL 散度与最大似然估计直接相连。最大化模型在数据上的对数似然,等价于最小化数据经验分布 p^ 与模型 qθ 之间的前向 KL:
argθmaxEp^[logqθ]=argθminKL(p^∥qθ),
其中 p^ 是把每个观测样本各赋等权得到的经验分布,qθ 是参数为 θ 的模型分布。等式成立是因为 KL(p^∥qθ)=H(p^,qθ)−H(p^),而 H(p^) 与 θ 无关,对参数优化只是常数。这把最大似然与信息论的分布匹配统一起来:训练一个最大似然模型,就是在让模型分布去匹配数据的经验分布。
KL 散度始终有定义,但当 q 在 p 有质量处几乎为零时会发散为 +∞(支撑不相交时即取 +∞,给不出有用梯度);这在训练初期模型分布与数据分布尚未对齐时尤为常见,正是 CryoGEN-II 转而用最优传输而非 KL 来匹配分布的缘由。Wasserstein 距离以最优传输代价度量分布差异,即便支撑不重叠也保持有限并随几何位移平滑变化,因而在变分推断与生成式建模中常作为 KL 的替代。
这些量在 Cryo-ET 重构中无处不在。最大似然/最大后验目标(MAP、最大似然与 EM)本质上是在最小化数据与正向成像模型预测之间的前向 KL;EM 的 E 步用一个辅助分布逼近隐变量后验,其紧致条件正是辅助分布与真实后验之间的 KL 为零。变分推断显式最小化反向 KL,把”求精”的众数寻求行为带入近似后验。而当 KL 因分布不重叠而退化、给不出梯度时,最优传输接管——这条 KL 与 Wasserstein 之间的取舍,直接对应于四种重构方法里点估计(KL 系)与 OT 系(CryoGEN-II)之间的分界。
← 概率与统计