数据处理总览：从原始帧到三维结构

一张端到端的路线图 —— 从一堆原始电影帧，到一个你能看、能分割的三维结构，每一步用什么、产出什么

直觉

你手里一开始有什么：一批倾转序列 (tilt series)。每个序列是对同一块冰里同一个样品、在一系列倾角下拍的一组图像；而每个倾角下拍的并不是一张照片，是一段电影 (movie)——几十帧低剂量快照。你最后想要什么：一个去过噪、补过缺失楔形的三维体 (volume)，能直接拖进 ChimeraX 看清楚，能在里面把膜、细胞器、大分子勾画出来。

这一页就是连接这两端的路线图。中间是一条固定的流水线：原始电影帧 → 运动校正 → CTF 与剂量处理 → 倾转序列对齐 → 反投影重构 → 偶/奇拆分 → 自监督训练 → 可视化与分割。下面把每一步拆开讲：输入什么、产出什么、用哪个工具、为什么需要它，并链到展开的那一篇。

这条流水线长什么样

一句话串起来：

倾转序列（每个倾角一段电影）→ 运动校正 → CTF / 剂量 / 去卷积 → 倾转序列对齐 → 加权反投影重构 → 偶/奇拆分 → 自监督训练（补缺失楔形 + 去噪） → ChimeraX / IMOD 可视化与分割。

每一步都把上一步的产物当输入，吐出一个更接近”能用”的中间产物。下面逐项展开。

1 · 采集：拿到倾转序列

输入：显微镜里的样品（一薄层玻璃化的冰，里头嵌着你的分子或细胞）。
产出：一批倾转序列，每个序列是同一视野在若干倾角（典型 ±60° 上下，每隔几度一张）下的曝光，每次曝光都是一段电影。
工具 / 出处：电镜的自动采集软件（如 SerialEM）。原理见倾转序列。
为什么：电子束会破坏样品，单一视角又只能给出一张被压扁的二维投影。倾转着多拍几个角度，才有可能反推出三维结构——这正是后面重构那一步要做的事。倾角不能转满 ±90°，缺的那段就是缺失楔形的根源。

2 · 运动校正：把每段电影对齐求和

输入：每个倾角下的那段电影（一摞帧）。
产出：每段电影 → 一张清晰、对齐好的图（micrograph）。
工具：MotionCor2、IMOD 的 alignframes、或 RELION 自带的运动校正。
为什么：曝光期间样品在动（束致运动 + 样品台漂移）。直接把帧相加会把运动永久糊进图里；拍成电影、先估出帧间位移再对齐求和，就把”动”留在了帧与帧之间、消掉了。详见电影帧与运动校正。

3 · CTF 估计 / 校正、剂量加权、去卷积

输入：运动校正后的图。
产出：相位翻转纠正过、按剂量与频率重新加权过的图（有时还做一次去卷积，让对比度更适合肉眼判读）。
工具：CTFFIND4（估 CTF）、Warp / RELION / IMOD（校正与加权）。
为什么：显微镜的对比度传递函数 (CTF) 会按空间频率给信号打折、甚至翻转相位；不纠正，细节就是错的。剂量加权则压住晚期帧里已被辐射损伤的高频。原理见 CTF 一节，操作见 CTF 与剂量处理。

4 · 倾转序列对齐

输入：同一序列里所有倾角的图。
产出：每张图的精确几何参数（它实际对应哪个倾角、相对怎么平移旋转）——也就是把所有投影摆回到一个自洽的共同坐标系。
工具：IMOD 的 etomo / tilt 流程，用金颗粒基准点 (gold fiducials) 或图块追踪 (patch tracking)；无标记数据也可用 AreTomo。
为什么：倾转时样品台不会理想地绕一根固定轴转，每张图都有未知的漂移和微小旋转。不先对齐，反投影就会把投影叠错位、糊成一团。详见基准点对齐。

5 · 重构：加权反投影成断层图

输入：对齐好的一整套投影 + 它们的几何参数。
产出：一个三维体——断层图 (tomogram)，文件通常是 .mrc / .rec。
工具：IMOD 的 tilt（做 WBP 或 SIRT），或 AreTomo。
为什么：把每张二维投影沿它当初的拍摄方向”抹回”空间、所有方向叠加，三维物体就浮现出来。这是从二维到三维的关键一跃。原理与 FBP 的频域滤波见从倾转序列到断层图。这一步出来的体，仍然带着采样几何留下的缺失楔形。

6 · 偶/奇拆分：造出两份噪声独立的副本

输入：原始数据（按帧拆，或按倾角拆）。
产出：同一份采集的两个半图——信号相同、噪声彼此独立。
工具：在运动校正 / 重构脚本里设置拆分（IMOD、Warp、cryoCARE 的预处理都支持）。
为什么：有了”同信号、异噪声”的一对副本，才能用 FSC 客观地量分辨率，也才能在没有干净真值的情况下训练去噪网络。关键是拆分要趁早、两条处理链从头到尾不相碰。详见偶/奇拆分。

7 · 自监督训练：补缺失楔形、去噪

输入：第 6 步那对噪声独立的半图（或半体）。
产出：一个去过噪、缺失楔形被填补的三维体——比原始重构干净、各向更接近完整。
工具：cryoCARE、IsoNet、DeepDeWedge，以及本站研究的方法 CryoGEN / CryoWGEN。
为什么：缺失楔形和噪声是原始断层图最碍事的两个毛病，靠采集本身补不回来。这类方法让网络从”同信号、异噪声”的成对数据里学到结构先验，把缺的那段角度和噪声一并推断出来。详见跑训练。

8 · 可视化与分割：ChimeraX 与 IMOD

输入：第 5 步或第 7 步的三维体（.mrc / .rec）。
产出：看得见、转得动、能出图的三维结构，以及勾画好的膜 / 细胞器 / 颗粒分割。
工具：UCSF ChimeraX（渲染、出图）、IMOD 的 3dmod（浏览、画模型、分割）。
为什么：体本身只是一堆密度数值，肉眼看不了；调好等值面阈值与视角才能把结构读出来。再往下接子断层平均与分割提升信噪比、定位结构。手把手教程见 IMOD 与 ChimeraX。

直觉

概念住在电子断层成像那个基里——缺失楔形是什么、反投影为什么糊、CTF 怎么回事，那边讲原理；这个基是动手的 how-to，告诉你具体用哪个工具、敲什么、产出什么文件。两边互为表里：看不懂某一步为什么存在，就回概念基；想知道怎么真的跑起来，就留在这里。

哪些步骤跑一次，哪些每个断层图都要跑

分清这点能省很多力气：

每段电影一次：运动校正（第 2 步）——有多少倾角、多少序列，就跑多少次，但都是同一套设置。
每个数据集标定一次：CTF 与剂量加权的参数、像素尺寸、拆分策略（第 3、6 步的设置）通常定一次就整批套用。
每个倾转序列一次：对齐与重构（第 4、5 步）——一个序列产出一个断层图。
每个断层图（或整批）一次：偶/奇拆分与训练（第 6、7 步）。训练一个去噪 / 补楔形模型可以跨多个断层图共用，再逐个推断。
随时、按需：可视化与分割（第 8 步）——想看哪个体就开哪个。

提示

第 6–7 步（偶/奇拆分 + 自监督训练）正是本站研究方法的落脚点。前五步是任何 Cryo-ET 流程都共有的标准前处理；CryoGEN、CryoWGEN 要替换或增强的，是第 7 步里”怎么补缺失楔形、怎么去噪”这件事——它们吃的，正是第 6 步产出的那对噪声独立的数据。

这是流水线的起点路线图。下一步：电影帧与运动校正。

← 软件与数据处理