颗粒挑选与模板匹配
在嘈杂的断层图中定位目标分子的拷贝,是子断层平均之前的一步。
颗粒挑选 (particle picking) 的任务,是在断层图中找出目标分子所在的位置——往往还要给出它的大致朝向。它是子断层平均的前一步,因为后者得先拿到每份拷贝的坐标,才能把它们提取出来并求平均。挑选之所以难,正是因为数据极其嘈杂:目标信噪比很低,被缺失楔形扭曲,还可能密密麻麻地夹在其他细胞物质中间。一张断层图里常有成百上千份拷贝等着定位,所以挑选既要准,又要能在整卷数据上铺得开。
把挑选想成”在一张满是雪花点的旧照片里圈出所有同一型号的螺丝”。每一颗螺丝本身糊得看不清边缘,但你认得它的大致形状和大小。挑选要回答两个层次的问题:先是哪里有一颗(定位),再是它朝哪个方向摆(定向)。第二个问题之所以也得管,是因为下一步平均要把成千上万份拷贝叠到同一个朝向上——挑选给出的那个粗略角度,就是叠放的起点。挑得多一点、漏得少一点,最终平均的分辨率就高一点;但圈进太多”假螺丝”,又会把噪声混进平均、拖低分辨率。挑选始终是在召回率和纯度之间走钢丝。
模板(一个圆盘)在含噪场上逐点求相关;归一化相关图在与模板相像处出现亮峰。阈值越低逮到的真颗粒越多,但假阳性也越多——这正是模板匹配须修剪候选名单的原因。
模板匹配:把模具滑过整卷数据
经典方法是模板匹配 (template matching)。把一个三维模板——目标的已知或低分辨模型——在断层图的每个位置和朝向上与之求相关。模板 与体 的互相关
会在局部密度与模板相似的地方出现峰值。这里 是断层图中被测试的那个位置, 在模板覆盖的所有体素上求和, 是模板在偏移 处的密度, 是断层图在对应处的密度。这个和本质上是逐体素相乘再相加:当模板形状与该处局部密度处处同号、同高时,乘积全为正、加起来就大;形状对不上时,正负相消、和接近零。在朝向网格上逐一搜索——通常几千个角度组合——再取相关图的局部极大值,就得到候选的位置和角度。
光把原始相关值拿来比是不够的,因为断层图里密度强的区域天然给出更大的和,会盖过形状真正吻合的弱信号。所以实践中用的是归一化互相关:在每个位置先把局部体块和模板各自减去均值、除以标准差,相关值便落在 到 之间, 表示完美的线性吻合,与绝对密度高低无关。此外,断层图本身缺了一个缺失楔形的傅里叶信息,模板却是完整的——若直接比对,模板里那些数据根本没采到的方向上的密度会无端拉低相关。规范做法是给模板套上与数据相同的缺失楔形掩模,把双方放到同一个”残缺”的傅里叶支撑上比较,才算公平。
为什么互相关能直接当检测器用?把它放回统计框架:在加性高斯白噪声的假设下,“此处是否存在一份与模板 一致的信号”这个检验,其最优统计量(匹配滤波器)正比于 与数据的相关。也就是说,互相关不是凑出来的相似度,而是该噪声模型下的最大似然检测得分。这也解释了它的两个软肋。其一,“白噪声”假设在断层图里并不成立:CTF 和重构把噪声染成有色的、空间相关的,于是相关图上会浮起本不该有的结构性峰,制造假阳性。其二,相关对模板的幅度谱敏感而对相位不够挑剔,两个轮廓相近、内部细节不同的分子可能给出相近的峰。改进的办法包括在傅里叶域按噪声功率谱做白化(即广义匹配滤波,把各频率按其噪声方差加权),以及用局部能量归一化压制高密度膜或金颗粒造成的虚高。即便如此,朝向搜索本身的代价也很现实:角度网格越密,定向越准,但计算量随之线性增长,一卷胞内断层图的全朝向扫描动辄是数小时量级的工作。
定出候选峰之后,名单几乎一定混着假阳性,需要事后修剪。常见的判据包括:相关峰高(太低的多半是噪声偶合)、峰的形状是否尖锐孤立(弥散的峰往往对应膜或冰污染而非紧致颗粒)、相邻峰之间的最小间距(防止同一颗粒被重复挑出,间距通常按颗粒直径设定)、以及落点是否在合理的区域(例如核糖体不该出现在膜的脂双层正中)。模板匹配对噪声敏感,但它至今仍是主力:它不需要任何人工标注,只要有一个哪怕粗糙的初始模型就能跑,并且顺带为后续平均提供初始朝向——这一点是纯检测器给不了的。
神经网络挑选:从相关到学习
神经网络挑选如今成了有力的补充。一个卷积网络(如 3D U-Net)或基于 transformer 的网络——用少量标注训练,或先经自监督预训练——学会去标出属于目标的体素。它和模板匹配的根本差别在于:模板匹配只会问”局部密度和这一个模具有多像”,而网络在训练中见过目标在各种朝向、各种拥挤背景下的样子,于是它学到的是一族对噪声和形变都更宽容的特征,而非单一刚性模具。
模板匹配像拿着一把固定的钥匙去试每一把锁,钥匙稍有磨损就开不了;神经网络则是看过几千张”这是锁、那不是”的照片后,自己总结出”锁长什么样”的人。前者要你先有一把好钥匙(高质量模板),后者要你先有一叠贴好标签的例子(标注)。在细胞断层图这种又脏又挤的场景里,后者通常更扛得住——它不会因为某一份拷贝被相邻物体挡住一角就彻底失手。
代价是标注:监督式网络需要专家先在若干断层图里手工标出真颗粒,而胞内数据的标注既费时又主观。这也是自监督和半监督预训练受重视的原因——先在大量未标注断层图上学通用表示,再用很少的标注微调。无论哪条路,有一点对两类方法都成立:底层断层图越干净,挑选就越可靠。模板匹配的相关峰会从噪声地板里更清楚地拔出来,网络也更容易把目标和背景区分开。这正是 CryoGEN 等学习型复原方法摆在这一步上游会有意义的原因之一——把缺失楔形伪影和噪声先压下去,下游的挑选、对齐、平均都跟着受益。
挑选这一步还和分割互为表里:分割先圈出膜、细胞器等大尺度结构,可以把挑选限制在合理区域内(例如只在胞质里找核糖体),既减少假阳性又省算力。在原位成像里,这种”先框场景、再挑分子”的配合尤其有用。最终,挑出的坐标和角度直接进入子断层提取,喂给子断层平均——挑选的准确度,因此直接写进了最终结构的分辨率里。