数据处理总览:从原始帧到三维结构
一张端到端的路线图 —— 从一堆原始电影帧,到一个你能看、能分割的三维结构,每一步用什么、产出什么
你手里一开始有什么:一批倾转序列 (tilt series)。每个序列是对同一块冰里同一个样品、在一系列倾角下拍的一组图像;而每个倾角下拍的并不是一张照片,是一段电影 (movie)——几十帧低剂量快照。你最后想要什么:一个去过噪、补过缺失楔形的三维体 (volume),能直接拖进 ChimeraX 看清楚,能在里面把膜、细胞器、大分子勾画出来。
这一页就是连接这两端的路线图。中间是一条固定的流水线:原始电影帧 → 运动校正 → CTF 与剂量处理 → 倾转序列对齐 → 反投影重构 → 偶/奇拆分 → 自监督训练 → 可视化与分割。下面把每一步拆开讲:输入什么、产出什么、用哪个工具、为什么需要它,并链到展开的那一篇。
这条流水线长什么样
一句话串起来:
倾转序列(每个倾角一段电影)→ 运动校正 → CTF / 剂量 / 去卷积 → 倾转序列对齐 → 加权反投影重构 → 偶/奇拆分 → 自监督训练(补缺失楔形 + 去噪) → ChimeraX / IMOD 可视化与分割。
每一步都把上一步的产物当输入,吐出一个更接近”能用”的中间产物。下面逐项展开。
1 · 采集:拿到倾转序列
- 输入:显微镜里的样品(一薄层玻璃化的冰,里头嵌着你的分子或细胞)。
- 产出:一批倾转序列,每个序列是同一视野在若干倾角(典型 ±60° 上下,每隔几度一张)下的曝光,每次曝光都是一段电影。
- 工具 / 出处:电镜的自动采集软件(如 SerialEM)。原理见 倾转序列。
- 为什么:电子束会破坏样品,单一视角又只能给出一张被压扁的二维投影。倾转着多拍几个角度,才有可能反推出三维结构——这正是后面重构那一步要做的事。倾角不能转满 ±90°,缺的那段就是 缺失楔形 的根源。
2 · 运动校正:把每段电影对齐求和
- 输入:每个倾角下的那段电影(一摞帧)。
- 产出:每段电影 → 一张清晰、对齐好的图(micrograph)。
- 工具:MotionCor2、IMOD 的 alignframes、或 RELION 自带的运动校正。
- 为什么:曝光期间样品在动(束致运动 + 样品台漂移)。直接把帧相加会把运动永久糊进图里;拍成电影、先估出帧间位移再对齐求和,就把”动”留在了帧与帧之间、消掉了。详见 电影帧与运动校正。
3 · CTF 估计 / 校正、剂量加权、去卷积
- 输入:运动校正后的图。
- 产出:相位翻转纠正过、按剂量与频率重新加权过的图(有时还做一次去卷积,让对比度更适合肉眼判读)。
- 工具:CTFFIND4(估 CTF)、Warp / RELION / IMOD(校正与加权)。
- 为什么:显微镜的对比度传递函数 (CTF) 会按空间频率给信号打折、甚至翻转相位;不纠正,细节就是错的。剂量加权则压住晚期帧里已被辐射损伤的高频。原理见 CTF 一节,操作见 CTF 与剂量处理。
4 · 倾转序列对齐
- 输入:同一序列里所有倾角的图。
- 产出:每张图的精确几何参数(它实际对应哪个倾角、相对怎么平移旋转)——也就是把所有投影摆回到一个自洽的共同坐标系。
- 工具:IMOD 的 etomo / tilt 流程,用金颗粒基准点 (gold fiducials) 或图块追踪 (patch tracking);无标记数据也可用 AreTomo。
- 为什么:倾转时样品台不会理想地绕一根固定轴转,每张图都有未知的漂移和微小旋转。不先对齐,反投影就会把投影叠错位、糊成一团。详见 基准点对齐。
5 · 重构:加权反投影成断层图
- 输入:对齐好的一整套投影 + 它们的几何参数。
- 产出:一个三维体——断层图 (tomogram),文件通常是
.mrc/.rec。 - 工具:IMOD 的
tilt(做 WBP 或 SIRT),或 AreTomo。 - 为什么:把每张二维投影沿它当初的拍摄方向”抹回”空间、所有方向叠加,三维物体就浮现出来。这是从二维到三维的关键一跃。原理与 FBP 的频域滤波见 从倾转序列到断层图。这一步出来的体,仍然带着采样几何留下的 缺失楔形。
6 · 偶/奇拆分:造出两份噪声独立的副本
- 输入:原始数据(按帧拆,或按倾角拆)。
- 产出:同一份采集的两个半图——信号相同、噪声彼此独立。
- 工具:在运动校正 / 重构脚本里设置拆分(IMOD、Warp、cryoCARE 的预处理都支持)。
- 为什么:有了”同信号、异噪声”的一对副本,才能用 FSC 客观地量分辨率,也才能在没有干净真值的情况下训练去噪网络。关键是拆分要趁早、两条处理链从头到尾不相碰。详见 偶/奇拆分。
7 · 自监督训练:补缺失楔形、去噪
- 输入:第 6 步那对噪声独立的半图(或半体)。
- 产出:一个去过噪、缺失楔形被填补的三维体——比原始重构干净、各向更接近完整。
- 工具:cryoCARE、IsoNet、DeepDeWedge,以及本站研究的方法 CryoGEN / CryoWGEN。
- 为什么:缺失楔形和噪声是原始断层图最碍事的两个毛病,靠采集本身补不回来。这类方法让网络从”同信号、异噪声”的成对数据里学到结构先验,把缺的那段角度和噪声一并推断出来。详见 跑训练。
8 · 可视化与分割:ChimeraX 与 IMOD
- 输入:第 5 步或第 7 步的三维体(
.mrc/.rec)。 - 产出:看得见、转得动、能出图的三维结构,以及勾画好的膜 / 细胞器 / 颗粒分割。
- 工具:UCSF ChimeraX(渲染、出图)、IMOD 的 3dmod(浏览、画模型、分割)。
- 为什么:体本身只是一堆密度数值,肉眼看不了;调好等值面阈值与视角才能把结构读出来。再往下接 子断层平均 与 分割 提升信噪比、定位结构。手把手教程见 IMOD 与 ChimeraX。
概念住在电子断层成像那个基里——缺失楔形是什么、反投影为什么糊、CTF 怎么回事,那边讲原理;这个基是动手的 how-to,告诉你具体用哪个工具、敲什么、产出什么文件。两边互为表里:看不懂某一步为什么存在,就回概念基;想知道怎么真的跑起来,就留在这里。
哪些步骤跑一次,哪些每个断层图都要跑
分清这点能省很多力气:
- 每段电影一次:运动校正(第 2 步)——有多少倾角、多少序列,就跑多少次,但都是同一套设置。
- 每个数据集标定一次:CTF 与剂量加权的参数、像素尺寸、拆分策略(第 3、6 步的设置)通常定一次就整批套用。
- 每个倾转序列一次:对齐与重构(第 4、5 步)——一个序列产出一个断层图。
- 每个断层图(或整批)一次:偶/奇拆分与训练(第 6、7 步)。训练一个去噪 / 补楔形模型可以跨多个断层图共用,再逐个推断。
- 随时、按需:可视化与分割(第 8 步)——想看哪个体就开哪个。
第 6–7 步(偶/奇拆分 + 自监督训练)正是本站研究方法的落脚点。前五步是任何 Cryo-ET 流程都共有的标准前处理;CryoGEN、CryoWGEN 要替换或增强的,是第 7 步里”怎么补缺失楔形、怎么去噪”这件事——它们吃的,正是第 6 步产出的那对噪声独立的数据。
这是流水线的起点路线图。下一步:电影帧与运动校正。