子断层平均

在三维中平均同一重复颗粒的众多拷贝,提升信噪比,把断层成像推向亚纳米分辨率。

子断层平均 (subtomogram averaging, STA) 从断层图中同一分子的众多嘈杂拷贝里恢复出高分辨结构。在剂量受限的重构中,单个颗粒淹没于噪声、又被缺失楔形扭曲,因此任何单个拷贝都解析不出精细细节。但一张断层图可能包含同一复合物的成百上千个实例。每个被提取为一个小三维子体——子断层 (subtomogram)——再把它们对齐到共同参考并求平均。

之所以能这样做,关键前提是这些拷贝全等:它们是同一个分子机器的多个副本,只是落在断层图里的位置不同、绕着自己随机的轴转了不同角度。把每个拷贝旋转、平移到同一姿态后,它们携带的真实结构信号应当逐体素重合;唯一不重合的,是各自独立的噪声。STA 就是利用这一点,把一个本来要靠单颗粒高剂量成像才能拿到的结构,从原位、低剂量的拥挤断层图里”拼”出来。

为什么平均能提分辨率

平均之所以有效,是因为信号在各拷贝间共享、而噪声彼此独立。设第 ii 个对齐后的子断层在某体素处为 xi=s+nix_i = s + n_i,其中 ss 是各拷贝共有的真实信号、nin_i 是该拷贝独立的零均值噪声。对 NN 个颗粒取平均:

xˉ=1Ni=1Nxi=s+1Ni=1Nni.\bar{x} = \frac{1}{N}\sum_{i=1}^{N} x_i = s + \frac{1}{N}\sum_{i=1}^{N} n_i .

这里 xˉ\bar{x} 是平均后的体素值,ss 原封不动地保留下来——因为它在每份里都一样,平均不改变常数。噪声项却是 NN 个独立随机量之和再除以 NN:若每份噪声方差为 σ2\sigma^2,则平均后的噪声方差降为 σ2/N\sigma^2/N,标准差降为 σ/N\sigma/\sqrt{N}。信号幅度不变、噪声标准差缩小 N\sqrt{N} 倍,于是信噪比约提升 N\sqrt{N}(见信噪比)。

这条 N\sqrt{N} 律决定了 STA 的代价结构:分辨率随颗粒数亚线性增长。从 100 份提到 400 份,信噪比只翻一倍;要再翻一倍,得攒到 1600 份。因此合并上千个子断层能把一个结构从不可见提升到亚纳米分辨率,但每往前推进一档,所需颗粒数都成倍上涨——这也是为什么颗粒挑选的产率和纯度对最终分辨率如此要紧。

颗粒须先被定位——见颗粒挑选——再迭代对齐:每个子断层的朝向与位置对当前平均做精修,重建平均,循环往复直至收敛。第一轮往往从一个粗糙的低分辨参考(甚至一个球或一个低通滤波过的初始平均)起步,逐轮把对齐角度和平移量收紧;随着平均变清晰,它又反过来让下一轮对齐更准。这个”平均更好→对齐更准→平均更好”的正反馈,是 STA 收敛的核心,但也意味着若初始参考带有偏倚,平均可能锁死在错误结构上(参考偏倚)。

直觉

一份模糊的拷贝几乎什么都说明不了。同一物体的一千份模糊拷贝,配准后叠起来,随机噪声相互抵消、真实结构彼此加强——与长曝光同理,只是在三维中、跨许多独立颗粒地完成。

叠加越多份独立拷贝,噪声按 1/√N 衰减、信号浮现:

单份拷贝
N 份平均

每一份子断层都是同一个信号叠加上独立噪声。平均 N 份,信号不变,而噪声标准差按 1/√N 衰减 —— 这正是子断层平均能从极低信噪比的拷贝中恢复出近原子分辨率结构的原因。

缺失楔形如何被填平

缺失楔形在这一过程中也大体被克服。由于颗粒在细胞内取向随机,每一个所带的缺信息楔形都指向不同的方向。当子断层被旋转到对齐时,它们的楔形在傅里叶空间中四散开来,众多份只部分采样的数据并到一起,就能补上任何单个颗粒都覆盖不到的空缺。

具体看:每个颗粒在傅里叶空间里都缺一块楔形(倾转角受限留下的空洞,沿该颗粒在断层图里的取向)。把子断层旋转到共同姿态做对齐,等价于把它各自的楔形也一起转动——于是 1000 个随机取向的颗粒,它们的楔形指向 1000 个不同方向。在共同坐标系里,某个频率分量哪怕被多数颗粒漏掉,只要有少数颗粒的姿态恰好让它落在已采样区,平均就能恢复它。取向越随机、越均匀地铺满球面,傅里叶空间被覆盖得越完整。反过来,若颗粒取向有偏好(比如膜蛋白都垂直于膜),某些方向的楔形永远补不上,平均里就会残留各向异性的拖影。

规范的 STA 会按各自的缺失楔形掩模给每份贡献加权,使平均不致被不均匀的采样带偏。直观地说:在某个频率分量上,只把那些真正采到了它的颗粒计入分母,没采到的不参与该处平均——这样平均才不会被一堆”零”稀释。

深入

把平均放回傅里叶空间看更清楚。设第 ii 个颗粒的子断层傅里叶变换为 Xi(k)X_i(\mathbf{k}),其缺失楔形用二值(或软)掩模 Mi(k)[0,1]M_i(\mathbf{k})\in[0,1] 表示——采到的频率处 Mi=1M_i=1,楔形空洞处 Mi=0M_i=0加权平均在每个频率 k\mathbf{k} 上独立进行:

Xˉ(k)=i=1NMi(k)Xi(k)i=1NMi(k).\bar{X}(\mathbf{k}) = \frac{\sum_{i=1}^{N} M_i(\mathbf{k})\, X_i(\mathbf{k})}{\sum_{i=1}^{N} M_i(\mathbf{k})} .

分子是只对采到了 k\mathbf{k} 的颗粒求和,分母是该频率处的有效采样数 iMi(k)\sum_i M_i(\mathbf{k})。其中 Xˉ(k)\bar{X}(\mathbf{k}) 是平均后的频谱,Xi(k)X_i(\mathbf{k}) 是第 ii 个对齐后子断层的频谱,Mi(k)M_i(\mathbf{k}) 标记它是否在该频率有数据。若某个 k\mathbf{k} 被所有颗粒漏掉,则分母为零、该处仍无信息——这正是为什么取向必须足够多样。把每个频率的有效采样数 iMi(k)\sum_i M_i(\mathbf{k}) 沿球面画出来,就是 STA 流程里常用来诊断采样是否均匀的采样密度图。实务中还会乘上对齐准确度的权重和每份的剂量/CTF 加权,但骨架就是这个”按掩模归一化的傅里叶空间平均”。

用 FSC 衡量分辨率

分辨率用傅里叶壳相关 (FSC) 来评估:把数据集对半分开,各自算出一个独立的平均,再按空间频率测两者的相关。两个半集平均的傅里叶变换分别为 F1(k)F_1(\mathbf{k})F2(k)F_2(\mathbf{k}),在每个频率壳(模长 k|\mathbf{k}| 相同的球壳)上计算

FSC(k)=k=kF1(k)F2(k)k=kF1(k)2  k=kF2(k)2.\mathrm{FSC}(k) = \frac{\sum_{|\mathbf{k}|=k} F_1(\mathbf{k})\,\overline{F_2(\mathbf{k})}}{\sqrt{\sum_{|\mathbf{k}|=k} |F_1(\mathbf{k})|^2 \;\sum_{|\mathbf{k}|=k} |F_2(\mathbf{k})|^2}} .

这里 F1,F2F_1,F_2 是两个独立半集平均的频谱,F2\overline{F_2} 取复共轭,求和遍历半径为 kk 的整个球壳。FSC 是个介于 0 和 1 之间的相关系数:在低频两半几乎一致、FSC1\mathrm{FSC}\approx 1;到了噪声主导的高频,两半互不相关、FSC\mathrm{FSC} 跌向 0。FSC 跌到某个固定阈值以下的那个频率,就定义了所报告的分辨率。把两半独立处理是要点——若两半共用同一参考做对齐,噪声会被人为相关起来,使 FSC 虚高、分辨率被高估,这种伪影称为过拟合或”噪声成相”。

成熟的 STA 流程包括 RELION 以及专门的断层软件包;而催生平均这一手段的低信噪比条件,同样在催生 CryoWGEN 这类学习型复原。两条路径互补:STA 靠”多份冗余”在傅里叶空间填洞、压噪,前提是你已经定位并对齐了成千上万个全等拷贝;学习型方法则直接在单张断层图上复原缺失楔形与噪声,让上游的颗粒挑选分割和对齐都更稳——更干净的输入意味着更准的姿态、更少的参考偏倚、最终更高的 FSC 分辨率。把四方法谱系放进来看:MAP(CryoGEN-I)给出点估计,WAE/OT(CryoGEN-II)给出稳定的单一答案,EVIA-蒙特卡洛(CryoWGEN-I)与 EVIA-朗之万(CryoWGEN-II)则给出后验解的族;它们改善的是进入 STA 之前那张体积的质量,而非取代逐颗粒平均本身。

← 结构分析