颗粒挑选与模板匹配

在嘈杂的断层图中定位目标分子的拷贝，是子断层平均之前的一步。

颗粒挑选 (particle picking) 的任务，是在断层图中找出目标分子所在的位置——往往还要给出它的大致朝向。它是子断层平均的前一步，因为后者得先拿到每份拷贝的坐标，才能把它们提取出来并求平均。挑选之所以难，正是因为数据极其嘈杂：目标信噪比很低，被缺失楔形扭曲，还可能密密麻麻地夹在其他细胞物质中间。一张断层图里常有成百上千份拷贝等着定位，所以挑选既要准，又要能在整卷数据上铺得开。

直觉

把挑选想成”在一张满是雪花点的旧照片里圈出所有同一型号的螺丝”。每一颗螺丝本身糊得看不清边缘，但你认得它的大致形状和大小。挑选要回答两个层次的问题：先是哪里有一颗（定位），再是它朝哪个方向摆（定向）。第二个问题之所以也得管，是因为下一步平均要把成千上万份拷贝叠到同一个朝向上——挑选给出的那个粗略角度，就是叠放的起点。挑得多一点、漏得少一点，最终平均的分辨率就高一点；但圈进太多”假螺丝”，又会把噪声混进平均、拖低分辨率。挑选始终是在召回率和纯度之间走钢丝。

含噪场（隐藏颗粒）

归一化互相关图

5 真实颗粒5 挑出的颗粒

噪声强度: 0.60峰值阈值: 0.40

模板（一个圆盘）在含噪场上逐点求相关；归一化相关图在与模板相像处出现亮峰。阈值越低逮到的真颗粒越多，但假阳性也越多——这正是模板匹配须修剪候选名单的原因。

模板匹配：把模具滑过整卷数据

经典方法是模板匹配 (template matching)。把一个三维模板——目标的已知或低分辨模型——在断层图的每个位置和朝向上与之求相关。模板 $t$ 与体 $v$ 的互相关

c(\mathbf{x}) = \sum_{\mathbf{u}} t(\mathbf{u})\,v(\mathbf{x}+\mathbf{u}),

会在局部密度与模板相似的地方出现峰值。这里 $\mathbf{x}$ 是断层图中被测试的那个位置， $\mathbf{u}$ 在模板覆盖的所有体素上求和， $t(\mathbf{u})$ 是模板在偏移 $\mathbf{u}$ 处的密度， $v(\mathbf{x}+\mathbf{u})$ 是断层图在对应处的密度。这个和本质上是逐体素相乘再相加：当模板形状与该处局部密度处处同号、同高时，乘积全为正、加起来就大；形状对不上时，正负相消、和接近零。在朝向网格上逐一搜索——通常几千个角度组合——再取相关图的局部极大值，就得到候选的位置和角度。

光把原始相关值拿来比是不够的，因为断层图里密度强的区域天然给出更大的和，会盖过形状真正吻合的弱信号。所以实践中用的是归一化互相关：在每个位置先把局部体块和模板各自减去均值、除以标准差，相关值便落在 $-1$ 到 $1$ 之间， $1$ 表示完美的线性吻合，与绝对密度高低无关。此外，断层图本身缺了一个缺失楔形的傅里叶信息，模板却是完整的——若直接比对，模板里那些数据根本没采到的方向上的密度会无端拉低相关。规范做法是给模板套上与数据相同的缺失楔形掩模，把双方放到同一个”残缺”的傅里叶支撑上比较，才算公平。

深入

为什么互相关能直接当检测器用？把它放回统计框架：在加性高斯白噪声的假设下，“此处是否存在一份与模板 $t$ 一致的信号”这个检验，其最优统计量（匹配滤波器）正比于 $t$ 与数据的相关。也就是说，互相关不是凑出来的相似度，而是该噪声模型下的最大似然检测得分。这也解释了它的两个软肋。其一，“白噪声”假设在断层图里并不成立：CTF 和重构把噪声染成有色的、空间相关的，于是相关图上会浮起本不该有的结构性峰，制造假阳性。其二，相关对模板的幅度谱敏感而对相位不够挑剔，两个轮廓相近、内部细节不同的分子可能给出相近的峰。改进的办法包括在傅里叶域按噪声功率谱做白化（即广义匹配滤波，把各频率按其噪声方差加权），以及用局部能量归一化压制高密度膜或金颗粒造成的虚高。即便如此，朝向搜索本身的代价也很现实：角度网格越密，定向越准，但计算量随之线性增长，一卷胞内断层图的全朝向扫描动辄是数小时量级的工作。

定出候选峰之后，名单几乎一定混着假阳性，需要事后修剪。常见的判据包括：相关峰高（太低的多半是噪声偶合）、峰的形状是否尖锐孤立（弥散的峰往往对应膜或冰污染而非紧致颗粒）、相邻峰之间的最小间距（防止同一颗粒被重复挑出，间距通常按颗粒直径设定）、以及落点是否在合理的区域（例如核糖体不该出现在膜的脂双层正中）。模板匹配对噪声敏感，但它至今仍是主力：它不需要任何人工标注，只要有一个哪怕粗糙的初始模型就能跑，并且顺带为后续平均提供初始朝向——这一点是纯检测器给不了的。

神经网络挑选：从相关到学习

神经网络挑选如今成了有力的补充。一个卷积网络（如 3D U-Net）或基于 transformer 的网络——用少量标注训练，或先经自监督预训练——学会去标出属于目标的体素。它和模板匹配的根本差别在于：模板匹配只会问”局部密度和这一个模具有多像”，而网络在训练中见过目标在各种朝向、各种拥挤背景下的样子，于是它学到的是一族对噪声和形变都更宽容的特征，而非单一刚性模具。

直觉

模板匹配像拿着一把固定的钥匙去试每一把锁，钥匙稍有磨损就开不了；神经网络则是看过几千张”这是锁、那不是”的照片后，自己总结出”锁长什么样”的人。前者要你先有一把好钥匙（高质量模板），后者要你先有一叠贴好标签的例子（标注）。在细胞断层图这种又脏又挤的场景里，后者通常更扛得住——它不会因为某一份拷贝被相邻物体挡住一角就彻底失手。

代价是标注：监督式网络需要专家先在若干断层图里手工标出真颗粒，而胞内数据的标注既费时又主观。这也是自监督和半监督预训练受重视的原因——先在大量未标注断层图上学通用表示，再用很少的标注微调。无论哪条路，有一点对两类方法都成立：底层断层图越干净，挑选就越可靠。模板匹配的相关峰会从噪声地板里更清楚地拔出来，网络也更容易把目标和背景区分开。这正是 CryoGEN 等学习型复原方法摆在这一步上游会有意义的原因之一——把缺失楔形伪影和噪声先压下去，下游的挑选、对齐、平均都跟着受益。

挑选这一步还和分割互为表里：分割先圈出膜、细胞器等大尺度结构，可以把挑选限制在合理区域内（例如只在胞质里找核糖体），既减少假阳性又省算力。在原位成像里，这种”先框场景、再挑分子”的配合尤其有用。最终，挑出的坐标和角度直接进入子断层提取，喂给子断层平均——挑选的准确度，因此直接写进了最终结构的分辨率里。

← 结构分析