even/odd 拆分

把数据切成两半噪声独立、信号相同的副本 —— FSC 评分辨率、也支撑自监督去噪

直觉

把同一份采集的数据分成两堆,让两堆里的信号一模一样、噪声彼此独立。“信号”指你真正想看的东西——分子、膜、复合物的真实密度;“噪声”指叠在上面的随机起伏,主要来自电子计数的随机性(散粒噪声),同一个样品拍两次,噪声每次都不一样。最常见的切法有两种:按帧切,偶数帧进一半、奇数帧进另一半(见 剂量分帧);或者按倾角切,偶数倾角一半、奇数倾角一半。两半看到的是同一个分子、同一段结构,但落在上面的噪声是两次独立的随机抽样。有了这对”同信号、异噪声”的副本,很多原本做不了的事就能做了——量分辨率、做去噪,都靠它。

这一步在做什么:输入、输出、用什么做

为什么要有这一步

后面两件大事都需要”两个除了噪声以外完全一样”的副本:一是给重构结果打分辨率分,二是训练去噪/复原网络而不需要干净的真值。整条管线里只有 even/odd 拆分能稳定地造出这种副本,所以它是 自监督训练 的数据前提。

为什么必须”独立”

判断分辨率也好、训练去噪网络也好,核心都是一句话:共享的东西经得起比较,独立的东西经不起

两半的真实信号 ss 相同,噪声 n1n_1n2n_2 相互独立且均值为零。把两半做相关或求平均时:

关键在于这种独立不能造假。如果两半在拆分前共用了同一步处理——比如先把整套数据平均、去噪,再切两半——噪声就被人为地关联起来,下面两件事都会失真:相关会虚高,去噪网络会学到噪声本身。所以拆分必须在数据最”原始”的一端就做好,让两条处理链从头到尾互不接触。一句口诀:拆分要趁早,两链不相碰

用途一:FSC 量分辨率

子断层平均的金标准分辨率,来自傅里叶壳层相关 (Fourier Shell Correlation, FSC)。做法是把同一批颗粒随机分成两组,各自独立地完成对齐、平均,得到两张半图 (half-maps);再在傅里叶空间里,把两张半图按频率分成一层层同心壳层,逐壳计算复相关系数:

FSC(k)=kF1(k)F2(k)kF1(k)2kF2(k)2\mathrm{FSC}(k) = \frac{\sum_{k} F_1(k)\,\overline{F_2(k)}}{\sqrt{\sum_{k}|F_1(k)|^2 \cdot \sum_{k}|F_2(k)|^2}}

这里 kk 是空间频率(壳层半径,越大对应越细的结构),F1F_1F2F_2 是两张半图的傅里叶变换。低频处两半几乎一致,FSC 接近 1;频率越高,信号越弱、噪声越占主导,两半越对不上,FSC 掉向 0。曲线跌破某个阈值的那个频率,倒过来换成实空间尺度(埃),就是报告的分辨率——它回答的是”这张图能可信地分辨到多细”。

深入

阈值用 0.143 还是 0.5,取决于半图是否”金标准独立”。0.143 配的是从头到尾独立处理的两半——这正是 even/odd 拆分要保证的;用它衡量的是真实可信的分辨率。一旦两半在对齐时偷看了对方(例如共用同一个参考做对齐),独立性被破坏,高频相关会被人为抬高,FSC 给出过于乐观的分辨率——这就是所谓的过拟合 / 噪声放大。严格的半图独立,是 FSC 数字可信的前提。

用途二:自监督去噪

同一对半图还能直接用来训练去噪网络,且不需要任何干净的真值——这一点对 Cryo-ET 尤其重要,因为我们根本拿不到”干净的”断层图当答案。

思路来自 Noise2Noise:让网络拿一半去预测另一半。两半的干净信号相同,所以网络只要输出那个共享信号,就能同时接近两个目标;而两半的噪声相互独立,网络无法从一半的噪声去预测另一半的噪声——硬学只会被独立噪声拉向四面八方、得不偿失。在 L2 这类损失下,最优解恰好是两半的条件期望,也就是把独立噪声平均掉之后剩下的共享干净结构。于是网络学会了去噪,全程没碰过一张干净图。

深入

这正是 cryoCAREDeepDeWedge 这类学习型复原方法的数据底座:用 even/odd(按帧或按倾角)重构出两个独立的断层图,一个当输入、一个当目标去训练。这也正是本站 运行训练 那一步要喂给网络的东西——所谓”成对数据”,就是这里造出的 half1 / half2。把这套独立噪声配对的思想推到生成模型层面,就接到了我们自己的重构方法——CryoWGEN 也是在”同信号、异噪声”的成对观测上学习,把缺失楔形与噪声一并交给学到的先验去推断。换句话说,even/odd 拆分既是分辨率的尺子,又是这一类自监督复原的燃料

实践上的取舍

拆分最干净——两半来自同一次曝光的不同电子,几何完全一致,只是剂量各半、单半信噪比更低(见 SNR)。按倾角拆分则每半都缺掉一半的角度采样,缺失楔形更宽、单半重构更差,但胜在实现简单、且天然适合在断层图层面配对。无论哪种切法,“拆分要趁早、两链不相碰”这条铁律都不变——这是 even/odd 一切用途共同的前提。


上一步:剂量分帧与对齐 · 下一步:运行自监督训练

← 软件与数据处理