自监督学习

通过从数据自身构造监督信号，在无标注的情况下学习表示并求解逆问题。

自监督学习在没有人工标注的情况下训练模型，办法是设计一个前置任务（pretext task），其目标取自数据本身。模型被迫从输入的一部分预测另一部分，在求解这个人造任务的过程中，它学到可迁移到下游问题的结构。由于监督信号是自动生成的，该方法能扩展到大规模无标注数据。前置任务的设计决定了模型被引导去捕捉哪类规律，因此其选择往往与下游目标紧密相关。

换个角度看：监督学习需要成对的 $(x,y)$ ，标注成本随数据量线性增长；自监督把 $y$ 从 $x$ 本身切出来，于是数据规模与监督规模解耦。代价是前置任务必须”恰好难”——太易（如从相邻像素插值出被遮像素）则模型走捷径，学不到语义；太难（如从单一像素重建整图）则无信号可学。好的前置任务把模型逼到一个唯有理解底层结构才能求解的位置。

掩码自编码的一个直接演示 —— 遮住一部分，从其余部分重建：

原结构

掩码输入

自监督重建

掩码比例: 35%

把结构的一部分遮住，让模型从可见部分预测被遮区域——无需任何标签，数据自己监督自己。遮得越多，可用的上下文越少，重建越糊。缺失楔形本质上就是一种结构化的掩码。

目标的分类

自监督目标大致分为两族。生成式（或预测式）目标要求模型重构或预测缺失内容——被遮的图块、下一个词元、灰度图的着色版本——因此其目标位于数据空间本身。对比式目标则在表示空间中运作：把同一数据的两个增广视图拉近，把不同数据的视图推远，使模型学到一种以距离编码语义相似性的嵌入，而从不重构输入。生成式方法保留低层细节并直接给出重构映射；对比式方法舍弃干扰细节，长于产出可迁移的嵌入。二者互补，许多系统将其融合。

这一区别决定了下游用途。对比式嵌入适合分类、检索这类只关心”两样东西像不像”的任务，因为它有意丢弃像素级细节；而图像复原恰恰需要把每个像素放回原位，所以逆问题求解几乎总是生成式的——它要的就是那张被对比式方法主动舍弃的重构映射。Cryo-ET 复原属于后者，本页其余部分聚焦生成式分支。

一个典范的生成式例子是掩码自编码：遮住输入的一部分，让模型从可见的其余部分将其重构出来。补全图像中被遮的图块或序列中被遮的词元，要求捕捉上下文、规律与长程依赖——这些知识的用处远超遮挡游戏本身。掩码自编码器（MAE）将其在图像上具体化：遮去很大比例的图块，仅编码可见者，再以一个轻量解码器重构其余；高遮挡比迫使编码器去推断全局结构，而非作局部插值。

为什么高遮挡比是关键？设想只遮 15% 的图块：每个被遮位置周围几乎都有近邻可供插值，模型用一个低层纹理外推器就能蒙混过关，无须理解物体是什么。把遮挡比推到 75%，可见图块变得稀疏，唯有”这是一架飞机、机翼应在此延伸”这类语义级先验才能填上空白。换言之，遮挡比是一个旋钮，调的是模型被迫调用的抽象层级——这正是自监督前置任务设计的核心手感。

直觉

数据自带答案。如果信号的一部分能从其余部分预测出来，这种可预测性便编码了真实结构；学会利用它的模型，即便从未有人提供标注，也已对该信号有所习得。

对于逆问题，同一原则成为无需真值即可学习的途径。当把干净信号 $x$ 损坏为观测 $y=\mathcal{A}(x)+\epsilon$ 的退化算子 $\mathcal{A}$ 已知时，它本身便能提供监督。这里 $x$ 是我们想恢复但永远观测不到的干净信号， $\mathcal{A}$ 是把它变成测量的已知物理过程（在 Cryo-ET 中即投影加缺失楔形）， $\epsilon$ 是零均值噪声， $y$ 是我们手头唯一拥有的、被损坏的观测。一种常见方案生成同一底层信号的两个被损坏视图，训练模型由其一预测其二；在已知损坏下的一致性，取代了缺失的干净目标。

深入

把已知算子作用于候选复原，并将结果与真实观测比较，便把”这个复原是否合理？“转化为观测空间中一个可度量的损失。当 $\mathcal{A}(\hat x)$ 与真实测量的统计相符时，重构 $\hat x$ 即可接受，于是算子 $\mathcal{A}$ 在未观测的干净域与已观测的损坏域之间架起桥梁——正是这种结构使无标注重构变得可解。

但要注意：单凭一致性 $\mathcal{A}(\hat x)\approx y$ 并不能定出唯一的 $\hat x$ 。 $\mathcal{A}$ 抹去的方向（缺失楔形对应的傅里叶分量）在观测空间留不下任何痕迹，故复原在这些方向上欠定。这正是必须额外引入先验的原因：要么是网络架构隐含的归纳偏置，要么是一个把 $\hat x$ 拉向真实结构分布的显式匹配损失。换言之，已知算子负责”对得上观测”，先验负责”在算子看不见的方向上补出合理结构”，二者缺一不可。

无干净目标的去噪

该原则在成像中最直接的实例是无标注去噪。Noise2Noise 观察到：若同一场景的两次独立含噪测量 $y_1, y_2$ 仅相差零均值噪声，则在平方损失下训练网络由 $y_1$ 映到 $y_2$ ，其期望意义上的最优与对不可得的干净目标训练相同——因为含噪目标的期望即干净信号。这一点为何成立？平方损失 $\mathbb{E}\,\Vert f(y_1)-y_2\Vert^2$ 的最优解是条件均值 $\mathbb{E}[y_2\mid y_1]$ ；当 $y_2 = x + \text{噪声}$ 且噪声零均值且与 $y_1$ 独立时， $\mathbb{E}[y_2\mid y_1]=\mathbb{E}[x\mid y_1]$ ，与把目标换成干净的 $x$ 完全一致。于是无须真值，只需成对的含噪观测。

Noise2Void 连配对要求也一并去除：盲点网络从邻域预测每个像素，而在结构上被禁止看见该像素本身，故无法照搬与像素无关的噪声，只得从上下文重构底层信号。这里的关键假设是噪声在像素间条件独立——既然该像素的噪声无法由邻域推出，网络能学的就只剩下由邻域可推的部分，也就是底层信号。代价是抹去了被预测像素的信息，去噪略偏保守，但完全摆脱了对配对数据的依赖。二者皆把已知噪声过程的统计直接化为监督，区别只在于把噪声的”零均值”还是”条件独立”作为支点。

这两个结论给 Cryo-ET 的启示很直接：层析数据天然含有大量、统计可刻画的噪声，却几乎不存在干净真值。能从噪声统计本身榨出监督信号的方法，恰好契合这一数据状况——这也是把缺失楔形复原当作生成式自监督问题来处理的前提。

这种”退化即监督”的思想是本站自监督重构方法的基础：在缺失楔形与噪声算子已知的前提下，CryoGEN 与 CryoWGEN 完全从真实层析图中学习。具体而言，CryoGEN 的自监督由一个”随机旋转后施加缺失楔形”的代理 $T_M\circ R$ 实现：把它作用于模型自身的输出，就在没有任何真值的情况下造出一个监督目标——已知的退化算子 $T_M$ （缺失楔形掩码）和 $R$ （随机旋转）扮演了上文 $\mathcal{A}$ 的角色，而”网络输出经退化后应与真实观测同分布”扮演了一致性约束。其匹配损失则借助最优传输与自编码器框架，在算子看不见的方向上注入结构先验。沿这条主线，本站的四种方法给出不同的复原姿态：CryoGEN-I 求一个 MAP 点估计；CryoGEN-II 经 WAE/最优传输给出一个稳定的单一答案；CryoWGEN-I 以 EVIA 蒙特卡洛采样；CryoWGEN-II 以 EVIA Langevin 动力学给出一族后验解。

← 生成与分布匹配