自监督学习

通过从数据自身构造监督信号,在无标注的情况下学习表示并求解逆问题。

自监督学习在没有人工标注的情况下训练模型,办法是设计一个前置任务(pretext task),其目标取自数据本身。模型被迫从输入的一部分预测另一部分,在求解这个人造任务的过程中,它学到可迁移到下游问题的结构。由于监督信号是自动生成的,该方法能扩展到大规模无标注数据。前置任务的设计决定了模型被引导去捕捉哪类规律,因此其选择往往与下游目标紧密相关。

换个角度看:监督学习需要成对的 (x,y)(x,y),标注成本随数据量线性增长;自监督把 yyxx 本身切出来,于是数据规模与监督规模解耦。代价是前置任务必须”恰好难”——太易(如从相邻像素插值出被遮像素)则模型走捷径,学不到语义;太难(如从单一像素重建整图)则无信号可学。好的前置任务把模型逼到一个唯有理解底层结构才能求解的位置。

x完整信号掩码 / 退化算子 AA(x)可见 / 被损坏部分被遮目标留出部分编码器预测缺失 / 干净部分预测比较重构损失(自监督)

掩码自编码的一个直接演示 —— 遮住一部分,从其余部分重建:

原结构
掩码输入
自监督重建

把结构的一部分遮住,让模型从可见部分预测被遮区域——无需任何标签,数据自己监督自己。遮得越多,可用的上下文越少,重建越糊。缺失楔形本质上就是一种结构化的掩码。

目标的分类

自监督目标大致分为两族。生成式(或预测式)目标要求模型重构或预测缺失内容——被遮的图块、下一个词元、灰度图的着色版本——因此其目标位于数据空间本身。对比式目标则在表示空间中运作:把同一数据的两个增广视图拉近,把不同数据的视图推远,使模型学到一种以距离编码语义相似性的嵌入,而从不重构输入。生成式方法保留低层细节并直接给出重构映射;对比式方法舍弃干扰细节,长于产出可迁移的嵌入。二者互补,许多系统将其融合。

这一区别决定了下游用途。对比式嵌入适合分类、检索这类只关心”两样东西像不像”的任务,因为它有意丢弃像素级细节;而图像复原恰恰需要把每个像素放回原位,所以逆问题求解几乎总是生成式的——它要的就是那张被对比式方法主动舍弃的重构映射。Cryo-ET 复原属于后者,本页其余部分聚焦生成式分支。

一个典范的生成式例子是掩码自编码:遮住输入的一部分,让模型从可见的其余部分将其重构出来。补全图像中被遮的图块或序列中被遮的词元,要求捕捉上下文、规律与长程依赖——这些知识的用处远超遮挡游戏本身。掩码自编码器(MAE)将其在图像上具体化:遮去很大比例的图块,仅编码可见者,再以一个轻量解码器重构其余;高遮挡比迫使编码器去推断全局结构,而非作局部插值。

为什么高遮挡比是关键?设想只遮 15% 的图块:每个被遮位置周围几乎都有近邻可供插值,模型用一个低层纹理外推器就能蒙混过关,无须理解物体是什么。把遮挡比推到 75%,可见图块变得稀疏,唯有”这是一架飞机、机翼应在此延伸”这类语义级先验才能填上空白。换言之,遮挡比是一个旋钮,调的是模型被迫调用的抽象层级——这正是自监督前置任务设计的核心手感。

直觉

数据自带答案。如果信号的一部分能从其余部分预测出来,这种可预测性便编码了真实结构;学会利用它的模型,即便从未有人提供标注,也已对该信号有所习得。

对于逆问题,同一原则成为无需真值即可学习的途径。当把干净信号 xx 损坏为观测 y=A(x)+ϵy=\mathcal{A}(x)+\epsilon退化算子 A\mathcal{A} 已知时,它本身便能提供监督。这里 xx 是我们想恢复但永远观测不到的干净信号,A\mathcal{A} 是把它变成测量的已知物理过程(在 Cryo-ET 中即投影加缺失楔形),ϵ\epsilon 是零均值噪声,yy 是我们手头唯一拥有的、被损坏的观测。一种常见方案生成同一底层信号的两个被损坏视图,训练模型由其一预测其二;在已知损坏下的一致性,取代了缺失的干净目标。

深入

把已知算子作用于候选复原,并将结果与真实观测比较,便把”这个复原是否合理?“转化为观测空间中一个可度量的损失。当 A(x^)\mathcal{A}(\hat x) 与真实测量的统计相符时,重构 x^\hat x 即可接受,于是算子 A\mathcal{A} 在未观测的干净域与已观测的损坏域之间架起桥梁——正是这种结构使无标注重构变得可解。

但要注意:单凭一致性 A(x^)y\mathcal{A}(\hat x)\approx y 并不能定出唯一的 x^\hat xA\mathcal{A} 抹去的方向(缺失楔形对应的傅里叶分量)在观测空间留不下任何痕迹,故复原在这些方向上欠定。这正是必须额外引入先验的原因:要么是网络架构隐含的归纳偏置,要么是一个把 x^\hat x 拉向真实结构分布的显式匹配损失。换言之,已知算子负责”对得上观测”,先验负责”在算子看不见的方向上补出合理结构”,二者缺一不可。

无干净目标的去噪

该原则在成像中最直接的实例是无标注去噪。Noise2Noise 观察到:若同一场景的两次独立含噪测量 y1,y2y_1, y_2 仅相差零均值噪声,则在平方损失下训练网络由 y1y_1 映到 y2y_2,其期望意义上的最优与对不可得的干净目标训练相同——因为含噪目标的期望即干净信号。这一点为何成立?平方损失 Ef(y1)y22\mathbb{E}\,\Vert f(y_1)-y_2\Vert^2 的最优解是条件均值 E[y2y1]\mathbb{E}[y_2\mid y_1];当 y2=x+噪声y_2 = x + \text{噪声} 且噪声零均值且与 y1y_1 独立时,E[y2y1]=E[xy1]\mathbb{E}[y_2\mid y_1]=\mathbb{E}[x\mid y_1],与把目标换成干净的 xx 完全一致。于是无须真值,只需成对的含噪观测。

Noise2Void 连配对要求也一并去除:盲点网络从邻域预测每个像素,而在结构上被禁止看见该像素本身,故无法照搬与像素无关的噪声,只得从上下文重构底层信号。这里的关键假设是噪声在像素间条件独立——既然该像素的噪声无法由邻域推出,网络能学的就只剩下由邻域可推的部分,也就是底层信号。代价是抹去了被预测像素的信息,去噪略偏保守,但完全摆脱了对配对数据的依赖。二者皆把已知噪声过程的统计直接化为监督,区别只在于把噪声的”零均值”还是”条件独立”作为支点。

这两个结论给 Cryo-ET 的启示很直接:层析数据天然含有大量、统计可刻画的噪声,却几乎不存在干净真值。能从噪声统计本身榨出监督信号的方法,恰好契合这一数据状况——这也是把缺失楔形复原当作生成式自监督问题来处理的前提。

这种”退化即监督”的思想是本站自监督重构方法的基础:在缺失楔形与噪声算子已知的前提下,CryoGENCryoWGEN 完全从真实层析图中学习。具体而言,CryoGEN 的自监督由一个”随机旋转后施加缺失楔形”的代理 TMRT_M\circ R 实现:把它作用于模型自身的输出,就在没有任何真值的情况下造出一个监督目标——已知的退化算子 TMT_M(缺失楔形掩码)和 RR(随机旋转)扮演了上文 A\mathcal{A} 的角色,而”网络输出经退化后应与真实观测同分布”扮演了一致性约束。其匹配损失则借助最优传输自编码器框架,在算子看不见的方向上注入结构先验。沿这条主线,本站的四种方法给出不同的复原姿态:CryoGEN-I 求一个 MAP 点估计;CryoGEN-II 经 WAE/最优传输给出一个稳定的单一答案;CryoWGEN-I 以 EVIA 蒙特卡洛采样;CryoWGEN-II 以 EVIA Langevin 动力学给出一族后验解。

← 生成与分布匹配