NormAE：旨在消除基于液相色谱质谱的代谢组学数据中的批次效应的深度对抗学习模型

NormAE

研究目的

需要解决的问题

基于液相色谱-质谱（LC-MS）的非靶向代谢组学受非线性批次效应（样品在不同批次处理和测量时发生的系统性技术差异）的影响，掩盖了生物学效应，且难以校正，为解决该问题该文章在2020年提出了Normalization Autoencoder。

现存技术问题

方法	优点	缺点
NormAE	非线性建模，扩展性强，联合校正多种效应	需大量数据，依赖批次标签
WaveICA	适合非平稳信号，能分离复杂噪声	实现复杂，参数敏感，可能损失信号
ComBat	经典方法，稳健，易实现，适合线性批次效应	仅线性校正，难处理复杂效应，不能校正顺序偏差
ICA	能分离独立噪声，算法成熟	独立性假设强，结果解释难，需人工判断批次成分
QC-RLSC	校正时间漂移，适合高通量数据，直观易用	依赖QC样本，仅校正顺序漂移，对批次效应有限

由于这些拟合模型中样本泛化能力差、数量少，难以避免过度拟合。其他组学领域解决批次效应的方式又依赖于部分领域内假设，不符合代谢组学。

NormAE

样品

两份LC_MS数据集均为医院采集：一个包含四批共644份血浆样品，85份QC，另一个包含四批共644份血浆样品，81份QC。（Quality control samples，来自生物受试者的每个样品的小等分试样组成的混合样品）

4个批次，分别由192、192、184和76个样品组成，酰胺数据集中有25、25、24和11个QC，T3数据集中分别有25、25、21和10个QC。

QC样本可参与训练，提升模型的识别能力，也可用于评估校正效果。但NormAE本身不依赖QC样本，只要有批次/顺序标签即可训练。

Method

NormAE分为四个结构：Encoder、Decoder、F_b、F_o，都是MLP结构，其中的层数如下所示：

NormAE的要求：数据必须存在批次标签。

假设数据存在批次标签Y^b^，定义一个有Encoder和Decoder的AutoCoder对该数据进行重构。Encoder训练目标是让F_b分类效果差。Decoder则合并批标签和潜在信息以重建原始信息，要确保Encoder不丢失有用信息。

这里x，y分别是原始峰值和批次标签。

其中loss分为两部分：重建损失（使用MAE）

以及用于对标签进行分类的损失函数：

训练时交替运行编码器和判别器，同时引入对抗网络：在自编码器旁边并行训练一个批次分类器（预测样品所属批次）和一个批内判别器（去除比批间标签更多的批效应，例如批内效应不能用批标签来表征，而是与注射顺序相关），以对抗性正则化驱动自编码器学习使不同批次难以区分的潜在表示。训练目标包括数据重构损失和对抗损失等，迫使解码器输出具有去除批次效应的数据。

加入Fo之后需要优化的损失函数为：