CryoGEN-I:能量先验下的 MAP 估计

把每张退化断层图重构成最可能的那一个干净体 —— 用能量先验与 $P_Y$ proxy,全程无需真值

CryoGEN-I 是 CryoGEN 谱系的起点:它把一张被噪声和缺失楔形破坏的断层图 yy,重构成它最可能对应的那一个干净体 xx —— 一个 MAP(最大后验)点估计,全程不需要真值标签。它给出整条谱系最简单、也最严谨的地基;后续 CryoGEN-II 把”逐张最优”升级为全局分布匹配,CryoWGEN 再把单点答案换成一整族重构。

直觉

CryoGEN-I 问的是最朴素的问题:对每一张 yy,最可能的那一个重构 xx 是什么? 这是一个 MAP 问题。难点不在”求解”,而在那个看不见的先验 p(x)p(x):我们既没有干净体的标签,也写不出”什么样的 xx 才像真实结构”的密度公式。

破局靠一个观察:若一个猜测的重构 xx 合理,那么把它随机转一个角度、再用缺失楔形算子退化一次,得到的结果应当看起来就像一张真实拍到的断层图;若退化后的结果不像任何真实数据,则该 xx 必然有误。真实数据十分充足 —— 因此可以拿”像不像真实观测”当作监督信号。这就是 CryoGEN 的 PYP_Y proxy 思想。

x候选干净体R 旋转T_M 缺失楔形T_M ∘ R(x)退化后的候选y真实观测判别器 D像真实观测吗?

成像模型:把无监督变成观测空间里的匹配

整条 CryoGEN 谱系都建立在同一个退化模型上:

y=TM(x)+ϵn,ϵnN(0,σn2I)y = \mathcal{T}_M(x) + \epsilon_n, \qquad \epsilon_n \sim \mathcal{N}(0, \sigma_n^2 I)

逐项看:xx 是我们想要的、各向同性的干净体;TM\mathcal{T}_M缺失楔形算子,在傅里叶空间挖掉倾转范围之外的那块楔形 —— 正是它造成了断层图沿缺失方向的各向异性拉伸;ϵn\epsilon_n 是方差 σn2\sigma_n^2 的高斯噪声;yy 是我们手里唯一拥有的、被破坏的观测。

关键在再配上一个随机旋转 RR。复合算子 TMR\mathcal{T}_M \circ R 在”干净重构空间 X\mathcal{X}“和”真实观测空间 Y\mathcal{Y}“之间架起一座桥:任取一个候选 xx,先随机转向、再施加缺失楔形,就把它投到了观测空间里 —— 那里有海量真实数据可以比对。无监督学习能成立,根基就在这座桥上:它把”没有标签的重构问题”翻译成”观测空间里能不能对得上真实分布”的匹配问题。

X 域与 Y 域的两域玩具示例

两域玩具示例:左为重构空间 X,E-step 采样铺开、网络 gθ 把它们收敛到各模式中心;右为观测空间 Y 里成对的真实样本。训练以 EM 方式交替进行 —— E-step 采样候选重构、M-step 更新网络参数,判别器(D-step)提供对抗先验。

能量先验:用一个标量函数把”合理”学出来

MAP 需要先验 p(x)p(x),而我们写不出它。CryoGEN-I 的做法是把它参数化成一个能量函数 Eϕ(x)E_\phi(x) —— 一个对体 xx 打分的标量网络,能量越低 = 越合理。能量与概率的桥梁是玻尔兹曼形式:

p(x)=1Zexp ⁣(Eϕ(x))p(x) = \frac{1}{Z}\exp\!\big(-E_\phi(x)\big)

Eϕ(x)E_\phi(x) 是参数为 ϕ\phi 的能量;指数把”低能量”翻译成”高概率”;Z=eEϕ(x)dxZ=\int e^{-E_\phi(x)}\,dx 是配分函数,它对所有 xx 积分、把密度归一。能量的局部极小对应密度的众数 —— 想直观看一个能量函数如何塑造它的密度、势阱深浅又如何决定概率质量集中在哪里,可以拖动下面这个一维示例:

能量x−55
能量 E(x)密度 p(x) ∝ exp(−E(x)/T)

能量越低,概率越高:两个势阱底部对应密度的两个峰。温度 T 越高,exp(−E/T) 越平,密度趋向均匀,两峰之间的差异被抹平。

深入

ZZ 是高维积分、不可解。但 MAP 的好处恰在于:它只比较不同 xx 的能量、从不需要算出 ZZ —— 因为 ZZ 对所有 xx 是同一个常数,求 argmin\arg\min 时直接抵消。

EϕE_\phi 怎么训?这里 PYP_Y proxy 第二次发挥作用:能量可以完全在观测空间训练。训练一个判别器去区分”真实观测 yy“和”退化后的重构 TMR(x)\mathcal{T}_M\circ R(x)“;判别器学会的边界,隐式地就是一个区分合理/不合理 xx 的能量 —— 不合理的 xx 退化后不像真实数据,会被推向高能量。整个先验从未碰过一个真值标签。

MAP 目标:数据保真与能量先验的平衡

把两块拼起来,最终的 MAP 估计是一个带先验正则的优化:

x=argminx  12σn2TM(x)y22  +  Eϕ(x)x^* = \arg\min_{x}\; \frac{1}{2\sigma_n^2}\big\|\mathcal{T}_M(x)-y\big\|_2^2 \;+\; E_\phi(x)

第一项是数据保真:把候选 xx 退化(TM(x)\mathcal{T}_M(x))后必须对得上手里的观测 yy,偏差以 1/σn21/\sigma_n^2 加权 —— 噪声越小、这一项越严苛。第二项是能量先验:在所有同样能解释观测的 xx 里,把解拉向能量低、即更像真实结构的那一个。缺失楔形抹掉的信息正是靠第二项补回来的 —— 数据保真对楔形内那块缺失频率无话可说,先验替它做了选择。

深入

为什么这一项配比是对的?对高斯噪声 ϵnN(0,σn2I)\epsilon_n\sim\mathcal{N}(0,\sigma_n^2 I),似然 p(yx)exp ⁣(12σn2TM(x)y22)p(y\mid x)\propto\exp\!\big(-\tfrac{1}{2\sigma_n^2}\|\mathcal{T}_M(x)-y\|_2^2\big)。把它与先验 p(x)eEϕ(x)p(x)\propto e^{-E_\phi(x)} 相乘、取负对数,常数项(含 ZZσn\sigma_n)与 xx 无关、可丢弃,剩下的正是上式两项之和。所以 CryoGEN-I 不是凑出来的两项相加,而是对数后验 logp(xy)-\log p(x\mid y) 的精确形式 —— 第一项来自似然,第二项来自能量先验。

效果与局限

CryoGEN-I 给出的是一个锐利的单点重构:缺失楔形被先验补回、噪声被压低,且这一切不依赖任何真值。作为整条谱系的地基,它把”无监督重构”这件看似不可能的事,落实成了一个目标明确、推导干净的 MAP 问题。

但它有两个互相缠绕的局限。其一是过度自信:对每个输入只吐出一个点估计 xx^*,既学不到能生成分布的模型、也无法刻画缺失楔形本应留下的不确定性 —— 同一张 yy 其实对应许多个都说得通的 xx,CryoGEN-I 却只挑一个、且不告诉你它有多不确定。其二是训练不稳:能量靠对抗式 min–max 学出,这类目标易震荡、易模式坍缩。

想退一步用变分推断、直接惩罚 KL(q(xy)p(x))\mathrm{KL}(q(x\mid y)\,\|\,p(x)),又走不通 —— 因为 EBM 先验 p(x)eEϕ(x)p(x)\propto e^{-E_\phi(x)} 只是隐式定义,没有可解的密度与配分函数,KL 根本算不出来。这正是 CryoGEN-II 改走最优传输的缘由:它绕开 KL 与对抗博弈,用一个稳定的、单势函数的目标做全局分布匹配 —— 仍是每个观测一个确定性答案,但更一致、更少伪影。


下一步见 CryoGEN-II:最优传输下的分布匹配;先验背后的能量模型见能量模型 (EBM);整条演化谱系见方法总览

← Cryo-ET 重构