自研方法 · 统计机器学习

Cryo-ET 重构

缺失楔形修复,本质是个反问题——自监督、不用真值,用统计机器学习来解。

无需 真值标签 缓解 缺失楔形

优缺点

好在哪:重构比 IsoNet、DeepDeWedge 更接近真实结构,把缺失楔形抹掉的细节补回来,而且全程不用真值标签;CryoWGEN 还能告诉你哪儿更没把握。代价是:CryoGEN 只给一个答案、不带不确定性;而且补回来的那一块是推断出来的,不是真测到的。

本库文章 5 篇

四个方法的演化与对比

CryoGEN-I
MAP 点估计
工具 MAP + 能量先验,P_Y proxy 对抗学习
局限 → 只给单点估计,不含不确定性
CryoGEN-II
最优传输分布匹配
工具 WAE:全局分布匹配,纯优化
局限 → 每个观测仍只给一个确定性重构
CryoWGEN-I
熵正则 · Monte-Carlo
工具 EVIA:熵正则 → 玻尔兹曼后验,MC 采样
局限 → MC 采样精度可能不足
CryoWGEN-II
熵正则 · 迭代 Langevin
工具 EVIA:SGLD 迭代采样,更忠实逼近后验
CryoGEN · 一条曲线 —— 给一个确定答案(点估计)
CryoGEN-IMAP —— 单个解;GAN 式能量面有偏差、还过度自信
CryoGEN-II全局分布匹配(最优传输)—— 更稳的单个解,但仍留有 GAN 一系的偏差
CryoWGEN · 一族曲线 —— 给一族答案、带不确定性(分布)
CryoWGEN-IMonte-Carlo —— 熵正则的平滑能量面,一族更贴真值(较粗)
CryoWGEN-IILangevin —— 同一平滑能量面,采样最忠实、带子最紧
真实结构CryoGEN(一条)CryoWGEN(一族)

真实结构是两个峰(灰色虚线)。缺失楔形让两峰之间的空隙变得说不准——四个方法对这个空隙的回答各不相同。CryoGEN 给一个确定答案,但它学的是 GAN 式的能量面,会留有偏差:CryoGEN-I(MAP)偏差最大、还过度自信;CryoGEN-II 用最优传输把训练稳住、把整体分布对齐,偏差更小,但仍是单一确定解。CryoWGEN 换用熵正则(EVIA),学到的能量面更平滑——重构更贴近真值,而且不再只给一个答案,而是给一族:CryoWGEN-I 用 Monte-Carlo(较粗、散得开),CryoWGEN-II 用 Langevin(采样最忠实、带子最紧)。带子的宽度,就是缺失楔形留下的、可以读出的不确定性。拖动滑块——缺失越多,空隙越说不准。

论文与结果