NormAE:旨在消除基于液相色谱质谱的代谢组学数据中的批次效应的深度对抗学习模型
NormAE:旨在消除基于液相色谱质谱的代谢组学数据中的批次效应的深度对抗学习模型

研究目的
需要解决的问题
基于液相色谱-质谱(LC-MS)的非靶向代谢组学受非线性批次效应(样品在不同批次处理和测量时发生的系统性技术差异)的影响,掩盖了生物学效应,且难以校正,为解决该问题该文章在2020年提出了Normalization Autoencoder。
现存技术问题
方法 优点 缺点 NormAE 非线性建模,扩展性强,联合校正多种效应 需大量数据,依赖批次标签 WaveICA 适合非平稳信号,能分离复杂噪声 实现复杂,参数敏感,可能损失信号 ComBat 经典方法,稳健,易实现,适合线性批次效应 仅线性校正,难处理复杂效应,不能校正顺序偏差 ICA 能分离独立噪声,算法成熟 独立性假设强,结果解释难,需人工判断批次成分 QC-RLSC 校正时间漂移,适合高通量数据,直观易用 依赖QC样本,仅校正顺序漂移,对批次效应有限
由于这些拟合模型中样本泛化能力差、数量少,难以避免过度拟合。其他组学领域解决批次效应的方式又依赖于部分领域内假设,不符合代谢组学。
NormAE
样品
两份LC_MS数据集均为医院采集:一个包含四批共644份血浆样品,85份QC,另一个包含四批共644份血浆样品,81份QC。(Quality control samples,来自生物受试者的每个样品的小等分试样组成的混合样品)
4个批次,分别由192、192、184和76个样品组成,酰胺数据集中有25、25、24和11个QC,T3数据集中分别有25、25、21和10个QC。
QC样本可参与训练,提升模型的识别能力,也可用于评估校正效果。但NormAE本身不依赖QC样本,只要有批次/顺序标签即可训练。
Method
NormAE分为四个结构:Encoder、Decoder、Fb、Fo,都是MLP结构,其中的层数如下所示:
NormAE的要求:数据必须存在批次标签。
假设数据存在批次标签Y^b^,定义一个有Encoder和Decoder的AutoCoder对该数据进行重构。Encoder训练目标是让Fb分类效果差。Decoder则合并批标签和潜在信息以重建原始信息,要确保Encoder不丢失有用信息。
这里x,y分别是原始峰值和批次标签。
其中loss分为两部分:重建损失(使用MAE)

以及用于对标签进行分类的损失函数:

训练时交替运行编码器和判别器,同时引入对抗网络:在自编码器旁边并行训练一个批次分类器(预测样品所属批次)和一个批内判别器(去除比批间标签更多的批效应,例如批内效应不能用批标签来表征,而是与注射顺序相关),以对抗性正则化驱动自编码器学习使不同批次难以区分的潜在表示。训练目标包括数据重构损失和对抗损失等,迫使解码器输出具有去除批次效应的数据。
加入Fo之后需要优化的损失函数为:

训练首先使用lossrec对编码器E和解码器D进行了1000个epoch的预训练,然后使用lossdisc-b对鉴别器Fb进行了10个epoch的预训练,使用lossdisc−o对鉴别器Fo进行了10个epoch的预训练。迭代阶段进行了700个epoch的训练。
Results
下图分别展示了处理后(以T3数据集为例):
- PCA降维后的空间中,QC之间的欧氏距离的平均值。
- QC两两之间的皮尔逊相关系数的平均值,aPCC越接近1,说明QC样本之间的表达谱非常相似
- 相对标准偏差(RSD, Relative Standard Deviation)在QC的15%和30%范围内的峰比例,pRSD说明小于该RSD的比例。
具体来看,不同方法处理后QC(实心圆)和所有数据(空心圆)PCA评分如下:
QC处理前后的对PCC如下:
处理后不同注射顺序结果如下:
小样本下,NormAE方法效果并不好:
相关工作
RALPS(2023):
也是对抗学习思想,但更强调健壮性和伪批次(pseudo-batch)的构建。
通过构造“伪批次”或“伪标签”,让模型在没有真实批次标签的情况下也能校正批次效应。
这是由于其引入了变异损失(variation loss):通常通过度量不同伪批次之间的分布距离(如均值、方差、MMD、KL散度等),并将其作为损失项加入总损失函数中。