作者 | 戴迟迟 编辑 | 戴迟迟 校对 | 李仲深
今天给大家介绍德国亥姆霍兹慕尼黑中心计算生物学研究所的Fabian J. Theis教授等人发表在Nature Communications上的一篇文章 “Single-cell RNA-seq denoising using a deep count autoencoder” 。单细胞RNA测序 (scRNA-seq) 使研究人员能够以细胞分辨率水平研究基因表达。然而,由于扩增和“dropout”事件产生的噪声可能会阻碍下游分析,因此需要针对越来越数量庞大却稀疏的scRNA-seq数据进行去噪。本文提出了一种深度计数自编码器网络 (DCA) 来去除scRNA-seq数据集的噪声。DCA考虑计数分布、数据的过分散和稀疏性,使用负二项噪声模型 (有或没有零膨胀) 捕获非线性基因-基因依赖关系。DCA模型与细胞的数量成线性关系,因此,可以应用于数百万个细胞的数据集。DCA改进了使用模拟和真实数据集的多种典型的scRNA-seq数据分析。DCA在数据插补的质量和速度上都优于现有的方法,增强了生物发现能力。

一、研究背景
单细胞转录组学的进展使研究人员能够发现新的细胞类型,研究复杂的分化和发育轨迹,并提高对人类疾病的理解。尽管测量技术有所改进,但在scRNA-seq实验中,各种技术因素,包括扩增偏差、细胞周期效应、文库大小差异,尤其是较低的RNA捕获率,导致了大量的噪音。总的来说,这些技术因素会引入大量的噪声,破坏潜在的生物信号,阻碍进一步分析。
为了进一步解决scRNA-seq数据的插补任务,本文改进了典型的自编码器方法,并将其应用在适用于稀疏计数数据的噪声模型,其具有专门针对scRNA-seq数据的丢失函数,即所谓的“深度计数自编码器” (DCA)。DCA的关键是将重构误差定义为噪声模型分布,而不是重构输入的数据本身 (图1b) 。在训练过程中,DCA通过无监督的方式最小化重构误差来学习特定于基因的分布参数。DCA跨特征共享信息,从而解释了基因-基因依赖关系。DCA的深度学习框架 (默认为3个隐藏层,其分别包含64、32、64个神经元) 能够捕获scRNA-seq数据的复杂性和非线性。自编码器框架是高度可伸缩的,DCA可以应用到多达数百万个细胞的数据集。为了进一步提高速度,DCA可以通过图形处理单元 (GPU) 并行化处理数据。
二、模型与方法
图1显示带有ZINB损失功能函数的自编码器。输入为原始计数矩阵 (粉色矩阵),用6个基因 (粉红色的节点) 为例说明。蓝色节点表示负二项分布的均值,其表示DCA的主要输出,即降噪后的数据,而绿色和红色节点表示ZINB分布的另外两个参数,即离散度和dropout。值得注意的是,均值、离散度和dropout的输出节点也由6个基因组成,这些基因与6个输入基因相匹配。用蓝色高亮显示的矩阵表示所有细胞的平均值,表示经过降噪处理的表达。负二项分布的均值矩阵表示去噪后的输出 (蓝色矩形)。最后,插补的矩阵是利用负二项分布的均值替换原始计数值而得到的。

图1. DCA流程
三、实验结果
3.1 计数噪声模型对于scRNA-seq数据去噪是必要的
本实验将DCA应用于Splatter生成的模拟scRNA-seq数据。有和没有“dropout”事件的计数数据都是可用的,这允许使用真实数据 (没有噪声的数据) 对去噪进行量化。本实验模拟了两个数据集,包含200个基因和 (1) 两种细胞类型 (总共2000个细胞) 和 (2) 六种细胞类型 (总共2000个细胞)。对于两个和六个细胞类型的模拟,分别有63%和35%的数据值被设置为零。以平均基因表达为条件模拟“dropout”事件概率,即低表达基因比高表达基因有更高的产生“dropout”事件的可能性。
通过在NB和ZINB之间进行似然比检验,可以确定是否存在零膨胀以及DCA噪声模型参数选择哪种分布。对于模拟数据,ZINB的分布比NB分布有更高的值。
在模拟结果中,“dropout”事件增加了大量的噪声,模糊了细胞类型。正如预期的那样,使用DCA去噪后,原始的细胞类型可以被恢复 (图2a, b)。为了测试是否有必要使用基于计数的损失函数,本实验将DCA与使用对数转换计数数据的具有均方误差 (MSE) 损失函数的典型自编码器进行比较。基于MSE的自动编码器无法恢复细胞类型,这表明专门的计数丢失功能对于scRNA-seq数据是必要的。除此之外,还在较复杂的六组模拟中验证了这个结果 (图2c, d)。

图2. 在具有高水平的“dropout”噪声的模拟数据中识别细胞类型时,基于计数的损失函数是必要的
3.2 DCA捕捉真实数据中的细胞群结构
复杂的scRNA-seq数据集,例如从整个组织生成的数据集,可能显示出很大的细胞异质性。因此,去噪方法必须能够捕捉到细胞群的结构,并使用细胞群的特定参数进行去噪过程。为了测试DCA是否能够捕获真实数据中的细胞群结构,本实验对拥有68579个外周血单核细胞和1000个高度可变基因 (92%为零) 的scRNA-seq数据进行了去噪处理 (图3a)。根据似然比检验,NB和ZINB模型拟合的拟合优度相当。在这种情况下,建议使用NB噪声模型,因为它不那么复杂,因此更容易拟合。仅在本分析中,将自编码器瓶颈层限制为两个神经元,并以二维散点图的形式将这两个神经元对每个细胞的激活情况进行可视化 (图3b)。在覆盖原始的细胞类型信息的基础上,观察到独特细胞类型的聚类。此外,已知的细胞类型标记基因在二维瓶颈可视化中显示出簇特异性表达 (图3c-f),表明DCA捕获了真实数据中的数据流形,从而捕获了细胞群体结构。为了研究DCA是否也能够捕获连续的表型,使用来自连续血液分化的scRNA-seq数据进行了类似分析。当观察两神经元瓶颈层时,显示了向巨核红细胞祖细胞 (MEP) 和粒细胞巨噬细胞祖细胞 (GMP) 的两条分化轨迹 (图3g) 。此外,基于1) 二神经元瓶颈坐标 (图3h) 和2) 基因表达的PCA坐标计算的扩散伪时间 (DPT) 在标准DPT工作流程中被推荐。观察到来自两个流形的伪时间值之间存在很强的相关性,这表明DCA瓶颈层可以捕获连续的表型 (图3i)。总之,这些结果表明DCA捕获了有意义的生物信息。因此,DCA可以在无监督的方式下获得特定细胞群的去噪参数。此外,低维DCA表示可以用于下游分析,如伪时间排序。

图3. DCA捕捉真实数据中的细胞群结构
3.3 去噪在噪声诱导下恢复时间过程模式
接下来,本实验通过与MAGIC、SAVER和scImpute进行系统比较来评估DCA。采用了van Dijk等人的评估方法,并在模拟单细胞特定噪声后,从一个发育的线虫时间过程实验中分析了真实的批量转录组学数据。其包含比单细胞转录组数据更少的噪声,因此可以通过提供一个良好的真实模型来帮助评估单细胞去噪方法。在12小时的时间内,对206个发育同步的年轻成年人的基因表达进行了测量 (图4a)。通过将单细胞噪声添加到数据中使80%的值为零 (图4b)。DCA去噪在去除单细胞特异性噪声的同时恢复了原始的时间过程基因表达模式 (图4c)。为了系统地评价这四种方法,测试了在无噪声的情况下,哪一种方法能最好地恢复原始数据中与发育相关最强的500个基因。DCA对这些基因的恢复力最强,优于其他方法 (图4d)。关键发育基因tbx-36和his-8在无噪声、有噪声和DCA去噪后的基因水平表达分别如图4e、f、g所示。用MAGIC、SAVER和scImpute对这两个基因进行去噪处理得到的表达数据如图4所示。tbx-36和his-8分别代表转录因子和组蛋白基因,这两种基因在线虫发育过程中表现出相反的表达模式。

图4. DCA恢复时间过程模式
3.4 去噪改进了差异性表达分析
受Li等人提出的scRNA-seq去噪评价指标的启发,本实验比较了来自同一实验的批量测序和scRNA-seq数据之间的差异性表达分析结果。Chu等人从H1人类胚胎干细胞 (H1) 分化为最终内胚层细胞 (DEC) 生成了批量测序数据和scRNA-seq数据。相应地,对平均“dropout”和经验“dropout”的检验表明,数据遵循ZINB分布。因此,本实验ZINB噪声的DCA模型对1000个变异程度最高的基因进行去噪处理。接下来,独立使用DESeq2对批量测序数据和scRNA-seq数据的H1和DEC进行差异表达分析,DESeq2基于没有零膨胀的NB分布建模基因表达。DCA去噪后,去噪数据中校正了4个异常基因 (图5a,红点),这4个异常基因显示了批量和单细胞获得的log(fold change)(变异倍数系数) 变化之间的高差异。LEFTY1是内胚层发育的关键基因,在批量测序数据中,与H1相比,在DEC中呈现高表达 (图5c)。DCA去噪后,DEC中LEFTY1的中位表达水平更高,更贴切地反映了对批量测序数据的观察 (图5d, e)。
接下来,利用bootstrapping方法系统地比较了四种去噪方法的鲁棒性。从H1和DEC群体中随机抽取20个细胞100次,使用DESeq2进行差异表达分析。当比较所有bootstrap迭代中估计的log(fold change)时,DCA显示出与批量测序结果的最高对应关系 (图5f),表明DCA去噪和批量测序数据流形之间的一致性增加。

图5. DCA增加了单细胞和批量测序差异性表达分析之间的对应关系
四、总结
本文介绍了一种针对scRNA-seq数据集的鲁棒和快速的基于自编码器的去噪方法,它代表了深度学习对scRNA-seq数据的首批应用之一。实验证明,去噪scRNA-seq数据可以消除技术变化,改善五种可能的下游分析,即聚类、时间过程建模、差异表达、蛋白- RNA共表达和伪时间分析。此外,还证明了DCA可以高度扩展到具有数百万个细胞的数据集。除了上述介绍到的实验之外,本文还设置了许多其他的验证实验,有兴趣的读者可以下载这篇文章进行进一步的阅读。
代码
https://github.com/theislab/dca
参考文献
Eraslan G , Simon L M , Mircea M , et al. Single-cell RNA-seq denoising using a deep count autoencoder[J]. Nature Communications.