信噪比与剂量

为何 Cryo-ET 图像由噪声主导，剂量如何限制信号，以及平均如何恢复结构

一张原始 Cryo-ET 图像看上去几乎全是雪花噪声 —— 真实结构淹没其中。能否看见它，取决于两件事：信号相对噪声有多强，以及我们能把多少张图叠加平均。

直觉

把成像想成在嘈杂房间里听一个人小声说话。一次只听几个字，几乎什么也分辨不出 —— 背景噪声盖过了人声。但如果让同一句话重复成千上万遍、每次都对齐后叠起来，人声每次都说同样的内容（信号一致地累加），而背景每次都不一样（噪声此消彼长、互相抵消）。叠得越多，那句话就越清晰。Cryo-ET 面对的正是这个局面：单张图里信号弱到肉眼看不见，但结构是固定的、噪声是随机的，所以”对齐 + 叠加”能把藏在噪声下的结构一点点逼出来。

什么是信噪比

信噪比 (SNR) 衡量一次测量中有多少是真实信号、多少是随机起伏。对幅度（标准差）为 $\sigma_s$ 的信号叠加标准差为 $\sigma_n$ 的加性噪声，

\text{SNR} = \frac{\sigma_s}{\sigma_n},

常以分贝 $20\log_{10}(\text{SNR})$ 表示。逐符号读： $\sigma_s$ 是信号的起伏幅度（图像里真实特征的明暗变化有多大）， $\sigma_n$ 是噪声的起伏幅度（同一处由随机因素带来的明暗抖动有多大），二者之比就告诉你”真东西”相对”杂讯”有几倍。 $\text{SNR}=1$ 意味着信号和噪声一样大； $\text{SNR}=10$ （即 $20\,\text{dB}$ ）意味着信号是噪声的十倍。

在 Cryo-ET 中，原始图像的 SNR 极低，往往远小于一 —— 实测常落在 $0.01$ 到 $0.1$ 量级，也就是说噪声比信号大十到上百倍。因此单个特征肉眼不可见，结构只有在大量处理之后才浮现。这与日常摄影（SNR 通常远大于一、一眼就能看清）是两个世界，也是为什么 Cryo-ET 的整条流程几乎都在围绕”如何从极低 SNR 里把信号抠出来”展开。

平均如何把噪声压下去 —— 调节平均次数 N：

单次测量真实信号N 次平均

平均次数N = 16　· √N = 4.0×

1256

真实信号固定不变，每次测量都叠加一份独立噪声。平均 N 次，信号不动，而噪声的标准差按 √N 收缩——于是信噪比按 √N 增长。这正是子断层平均能从单张几乎纯噪声的图像里恢复出结构的原因。

剂量为何是根源

根本原因是辐射损伤。生物样品会被电子束破坏，故总电子剂量必须保持很低 —— 一组倾转序列要把有限的预算（常为每平方埃几十个电子）分摊到所有图像上。比如一套 41 张的倾转序列、总预算 $\sim 100\ e^-/\text{Å}^2$ ，平摊下来每张只有约 $2.5\ e^-/\text{Å}^2$ ，每张图本身就极度欠曝、噪声极大。电子探测是一个计数过程，故每像素记录到的电子数 $N$ 服从泊松统计：信号正比于 $N$ ，而噪声（标准差）正比于 $\sqrt{N}$ ，给出

\text{SNR} \propto \frac{N}{\sqrt{N}} = \sqrt{N}.

这里 $N$ 是某像素上记录到的电子计数（正比于投在该处的剂量）。泊松分布的一个性质是方差等于均值，所以涨落的标准差是 $\sqrt{N}$ —— 这就是把噪声写成 $\sqrt{N}$ 的来历。

深入

为什么是泊松、为什么 SNR 只长 $\sqrt N$ ？把成像看成往每个像素里”扔电子”：在一段曝光内到达该像素的电子是彼此独立的稀有事件，这类计数过程严格服从泊松分布 $P(k)=\frac{N^k e^{-N}}{k!}$ ，其均值与方差都等于 $N$ 。于是单次测量的相对涨落是 $\sqrt{N}/N = 1/\sqrt{N}$ —— 计数越多，相对噪声越小，但只按平方根速度变小。这是”散粒噪声”(shot noise) 的统一规律，与探测器好坏无关，是电子计数本身的统计极限。

由此引出 Cryo-ET 的核心矛盾：要把 SNR 翻一倍，需要把剂量翻四倍（ $\sqrt{N}$ 翻倍意味着 $N$ 要 $\times 4$ ）；而辐射损伤大致随剂量线性累积。两条曲线一个走平方根、一个走线性，注定在某个剂量处交叉 —— 再加剂量，损伤带来的结构破坏已超过 SNR 的微弱增益，得不偿失。这就是为什么不能靠”多打电子”解决问题，而必须靠”多份样品平均”绕过它。实践中常把总剂量分成若干”帧”逐帧采集（剂量分次曝光），再按各帧的剂量做剂量加权：早期帧高频信息尚未被破坏、按全权计入，后期帧高频已损、只在低频参与，从而在不浪费低频信号的前提下保住高频。

因此 SNR 只随剂量的平方根增长，而损伤大致线性累积。这一矛盾界定了 Cryo-ET 的核心权衡：更高剂量买来更干净的图像，却破坏了正在测量的结构本身。出路不在单张图，而在副本数量 —— 下面这条 $\sqrt{M}$ 规律。

平均为何有效

直觉

单张图像几乎全是噪声，但噪声是随机的而信号是固定的。把 $M$ 份对齐且独立的副本相加，信号乘以 $M$ ，噪声标准差只乘以 $\sqrt{M}$ ，故平均使 SNR 提高 $\sqrt{M}$ 倍。这正是为何要把同一分子的成千上万份副本对齐并合并。

把数字代进去看这个增益有多关键：若单张图 $\text{SNR}\approx 0.05$ ，要达到肉眼可辨（约 $\text{SNR}\approx 5$ ）需要把 SNR 提高 100 倍，即 $\sqrt{M}=100$ 、 $M=10{,}000$ 份副本。这正是子断层平均动辄要合并上万个粒子的原因 —— 不是工程上图省事，而是 $\sqrt{M}$ 这条统计规律硬性要求的副本量。反过来， $\sqrt{M}$ 的平方根也意味着收益递减：从 $1$ 万份加到 $4$ 万份只把 SNR 再翻一倍，所以分辨率的每一步提升都要付出成倍的粒子代价。

需要强调”对齐且独立”这两个前提。独立：各副本的噪声必须互不相关，否则相加时噪声不会相消（极端情形下若噪声完全相同，平均一点也压不下去）。对齐：信号必须先精确配准到同一姿态再相加，否则信号自己会互相错位、模糊掉 —— 配准误差会直接吃掉本该到手的 $\sqrt{M}$ 增益，这也是为什么子断层平均里姿态估计（角度/平移）的精度如此关键。

SNR 随频率下降

SNR 不是一个单独的数，它随空间频率变化。由于衬度传递函数的振荡与零点、以及随剂量累积的辐射损伤对高频衰减最严重，图像里越精细的特征 SNR 越低。把 SNR 看成频率的函数 $\text{SNR}(k)$ ：低频（粗大轮廓）那里信号强、SNR 可能尚可，到高频（精细细节）SNR 迅速跌到一以下。

这给出一个可操作的分辨率定义：重构的有效分辨率，大致就由 $\text{SNR}(k)$ 降到约为一的那个频率所决定 —— 在那之后信号已被噪声盖过，再多频率也是噪声。实践中用两个半数据集的傅里叶壳层相关 (FSC) 来逐频率测量这种相关性，FSC 曲线跌破阈值处即报告为分辨率。所以”提高分辨率”在 SNR 语言里就是”把 $\text{SNR}(k)$ 降到一的那个频率往高频推”，而推它的两条路正是下面两类方法。

与重构的联系

把可用信号推向那个极限，有两条互补的路径。其一是滤波做噪声抑制：按 $\text{SNR}(k)$ 给各频率重新加权（维纳滤波就是这么干的），在信号强的频段多留、在被噪声主导的频段压制，从而抬高整体可见性 —— 但它只能重排已有信号，造不出零点处或被损伤抹掉的信息。其二是 CryoGEN 这类生成式方法做学习型复原：把 CTF（频率方向的退化）、缺失楔形（角度方向的退化）和低 SNR 一起写进成像模型，用学到的结构先验去填补单纯滤波填不了的部分。两条路都在同一个目标下展开 —— 把 $\text{SNR}(k)$ 降到一的频率往更高处推，等价于把分辨率往更精细处推。而 $\sqrt{M}$ 这条最基础的统计规律，正是子断层平均能从各自淹没于噪声的副本中恢复高分辨结构的根据。

← 信号处理