作者 | 戴迟迟 校对 | 李仲深
今天给大家介绍德克萨斯大学休斯顿健康与科学中心的徐云刚教授在Nucleic Acids Research上发表的文章 “scIGANs: single-cell RNA-seq imputation using generative adversarial networks”。单细胞测序 (scRNA-seq)可以高通量的表示单个细胞表达谱,但是却会受到很多噪声的影响,“dropout”事件就是其中之一。“dropout”指的是,单细胞测序数据中一些基因的表达值会因为技术等原因被错误的检测为0,而不是真实的表达为0。本文提出了一种基于生成对抗网络 (GAN) 的插补值方法 (scIGANs),来优化基因的表达,该网络使用网络生成细胞而不是使用原始矩阵中观察到的细胞,以此来平衡主要细胞群和稀有细胞群之间的性能。此外,文章利用模拟的以及真实的数据集进行了许多的分析实验,证明了scIGANs对插补值很有效,并适用于各种规模的数据集。
一、研究背景
scRNA-seq可以高通量的表示单个细胞表达谱,但是却会受到很多噪声的影响。scRNA-seq的主要问题是具有大量零值的表达矩阵的稀疏性。在表达矩阵中,这些零值分为两类,一类是基因真实表达出的零值,另外一类则是由于RNA捕获效率不稳定,扩增偏好性等技术原因产生的零值,这样的现象被称为“dropout”事件。目前对scRNA-seq数据分析的迫切需求仍然是识别和处理“dropout”事件,否则,这些事件将严重阻碍下游分析。考虑到scRNA-seq越来越流行,应用计算方法来解决噪声问题的需求也越来越迫切。
GAN自2014推出以来就受到了广泛的关注,并已开发出多种变体。由于其具有学习和模仿数据分布的能力,在恢复数据的领域具有广阔的前景。因此,本文尝试利用GAN对表达矩阵的缺失值进行插补,将插补矩阵数据的过程模拟成修复图像的过程:将每个单个细胞的表达谱转换为图像,其中像素由归一化的基因表达表示。然后,通过插补“dropout”的片段 (代表“dropout”事件),“dropout”插补成为修复图像的过程。由于GAN的固有优势,scIGANs并不假定基因表达水平和“dropout”概率具有特定的统计分布。它也不会强制插入不受“dropout”事件影响的基因。而且,scIGANs会生成一组实际的单个细胞,而不是直接从观察到的细胞中借用信息来插补,这可以避免过拟合大量数据的细胞类型,同时保证对稀有细胞具有足够的插补能力。
二、模型与方法
图1. 构建scIGANs流程模型
scIGANs的基本思想是可以从复杂的多细胞类型样本中学习非线性基因与基因的依赖关系,并训练生成模型以生成定义的细胞类型的逼真表达谱。为了训练scIGANs,首先将真实的单细胞表达谱重塑为图像:以列方式将每个细胞的表达谱重塑成正方形图像,其中标准化的基因表达值代表图像的像素。图像大小为n×n,其中n是满足n×n大于等于计数矩阵中基因个数的最小整数。如果基因数小于n×n,则将填充额外的零。然后将这些图像送入GAN,其中每个细胞对应于具有利用归一化基因表达代表像素的图像。生成器通过将100维潜变量转换为单细胞基因表达谱来生成假图像。鉴别器评估图像是真实的还是生成的。同时训练这两个网络,同时互相竞争以提高两者的性能。训练后,利用k阶最近邻 (KNN) 来为相同类型的细胞进行插补。
三、实验结果
3.1 sclGANs从信号缺失中恢复单细胞基因表达而不会造成额外的噪音
利用scSimulator模拟了一个具有三个细胞种类,每一类具有50个细胞的数据集,每个细胞包含20180个基因,数据集的“dropout”概率为52.8%。对此数据集进行UMAP图的绘制 (参见下图A),UMAP与PCA以及tSNE相同,是一种降维方法。通过UMAP图可以看出scIGANs略微降低了性能,但仍然具有优于其他11种被比较方法的优势,但scImpute除外。其中scIGANs (w/o) 表示应用光谱聚类来获得聚类标记,scIGANs (w)表示使用数据集的原有标记。
然后利用Splatter模拟三种数据集,他们的“dropout”概率分别为71%,83%,87%,每一种数据集都进行了100次模拟,即,每一类数据集中包含100个数据集,每一个数据集拥有800个基因和1000个细胞,分为三个簇。文章利用此数据集来测试在具有不同“dropout”率的数据集上scIGANs和其他方法的性能。通过ARI (参见下图B),一种用于判断聚类性能的指标来评估性能。相比之下,scIGANs在所有方法中排名最高,并且在“dropout”率不断提高的重复项中具有最强健的性能。
第三,利用真实数据集Human brain scRNA-seq data绘制UMAP图(参见下图C) 以及ACC、ARI等评价指标的柱状图 (参见下图D)。图中可以看出,scIGANs将细胞类型的簇增强到最大程度,从而可以分离和鉴定所有八种细胞类型且优于其他方法。
最后本文测试了另一个重要但又难以量化的指标 —— 鲁棒性,即插补方法在多大程度上不会由于例如错误地估算生物“零”或过度投入而引入额外的噪声。利用ERCC spike-in RNAs scRNA-seq data,他们的特点是由于掺入RNA的量相同,以捕获技术噪音,因此掺入RNA的读数应无细胞间差异,并且检测到的表达差异 (如果存在) 应仅来自生物混杂因素以外的技术混杂因素 (例如细胞类型)。利用数据集中的聚类标记,绘制UMAP图 (参见下图E)。结果表明,即使使用监督性细胞标记进行训练,scIGANs仍能以最小的细胞间变异性成功恢复表达谱,并将所有细胞紧密地聚集在一组中。
图2. scIGANs从信号缺失中恢复单细胞基因表达而不会造成额外的噪音
3.2 sclGANs可识别同质细胞群体的亚细胞状态
单细胞RNA-seq通常用于从异质组织或细胞群体中鉴定不同的细胞类型。然而,就细胞表面标志物的表达而言,似乎均质的细胞群包含许多不同的细胞状态,具有隐藏的细胞间变异性,可能对细胞功能产生重大影响,例如细胞功能,发育阶段,细胞周期阶段和邻近的微环境。因此,本文测试了插补法如何有助于细胞周期变异性的鉴定。
首先,利用Cell-cycle phase scRNA-seq data来绘制UMAP图 (参见下图A),标记使用数据集中三个不同的生命周期阶段,可以发现,所有其他插补方法都无法恢复有关细胞周期状态的簇结构。只有scIGANs在显示具有最佳性能的细胞周期状态方面表现出显著改善。另外利用来自Seurat的独立预定义的细胞周期标记基因的集合,scIGANs显著改善了对细胞周期状态的识别,优于所有其他方法,这是因为在细胞周期中正确分配了大多数已分类的细胞空间 (参见下图B)。
对于在Mouse ESC scRNA-seq dataset for cell-cycle dynamics中的ESC在mRNA丰度方面缺乏强烈的细胞周期振荡,但它们确实显示出有限的G2/M期特异性转录的证据。scIGANs的插补显著改善了细胞周期振荡,尤其是G2/M 期特异性转录更为明显(参见下图C)。
所有以上结果表明,scIGANs在恢复和捕获亚细胞状态以及同质群体单个细胞之间非常细微的细胞周期动力学方面比所有其他方法表现更好。
图3. scIGANs可以识别细胞周期状态和动力学
3.3 sclGANs改善了差异表达分析
Human ESC scRNA-seq dataset for differential expression analysis包括批量RNA测序数据以及与之相匹配的scRNA-seq数据。使用DESeq2识别H1和DEC细胞之间的批量RNA测序数据以及与之相匹配的scRNA-seq数据的差异性表达基因 (DEG)。原始的scRNA-seq数据的零表达率比批量RNA测序数据更高(分别为49.1%和14.8%),并且共享的DEG最少(图4A)。
为了更准确地进行DEG性能的检测,通过将推导的scRNA-seq数据集中的DEG用作黄金标准并定量使用scRNA-seq数据,下图B显示了准确度 (ACC),F1得分以及每个接收器工作特征曲线(AUC) 下方的面积。总体性能定义为上述三个测量的平均值。scIGANs排名第二,仅次于VIPER。
此外,本文使用了来自批量测序数据的前1000个DEG集合 (500个上调基因和500个下调基因) 作为基准,以评估单细胞和批量RNA-seq数据之间DEG检测的对应性。无例外,scIGANs推导的scRNA-seq数据显示与批量RNA-seq的对应关系最高,在前1000个DEG共享的数量最多,倍数变化与批量RNA-seq的相关性最高 (参见下图C)。此外,调查了H1和DEC细胞的五个标记基因的表达,以比较插补方法在多大程度上恢复了特征基因的表达模式。结果表明,scIGANs通过消除由缺失导致的不良变异,可以最好地反映H1和DEC细胞的表达特征(参见下图D)。细胞向特征基因表达所覆盖的UMAP空间的投影进一步突出了scIGANs在恢复特征基因表达模式方面的性能(参见下图E)。总之,在其他竞争方法中,scIGANs能够以最佳性能改进从scRNA-seq数据中DEG的识别。
图4. scIGANs增加了单细胞和批量差异表达分析之间的对应关系
3.4 sclGANs增强了细胞轨迹的推断
除了按类型表征细胞外,scRNA-seq还大大有利于按时间过程或发育阶段 (即细胞轨迹) 组织细胞。但是尽管单细胞实验可以阐述各种生物学环境中的轨迹,但是没有一种单细胞轨迹推断方法可以解释“dropout”事件。于是本文推测,在插补后推断scRNA-seq数据的细胞轨迹可以提高伪时间排序的准确性。利用Time-course scRNA-seq data for cellular trajectory analysis,诱导从H1的ESCs分化0、12、24、36、72和96 h,总共分析了158个细胞 (参见下图A),然后使用Mococle3重构轨迹。scIGANs的插补在推断的伪时间和实时过程之间产生最高的对应关系 (参见下图B、C),这表明scIGANs可以沿时间过程恢复更准确的转录组动力学。该实验还研究了多能性 (例如,NANOG和POU5F1) 和DECs (例如,CER1和HNF1B) 的显著基因,发现scIGANs在插补后改善了基因表达动力学 (参见下图D、E)。这些结果表明,scIGANs可以帮助改善单细胞轨迹分析并恢复基因表达的时间动态。
图5. scIGANs改进了时程scRNA-seq数据分析并重建了分化轨迹
3.5 sclGANs对少数具有低表达或细胞间差异的基因的小型数据集具有鲁棒性
本文还假设scIGANs对低表达或较少细胞间变异的基因更为稳健。利用Human ESC scRNA-seq dataset for differential expression analysis 二次采样出三个较小的子集,绘制了数据的分布以及插补值之后的表达值均值(mean) 与标准偏差 (SD) (参见下图6)。所有这些结果表明,scIGANs对于由很少的基因 (约占检测到的基因的5%) 组成的小型数据集具有很强的表达力或细胞间差异,对于其他插补方法而言,这些信息量较小。
图6. scIGANs对少数具有极低表达或跨细胞变异的基因具有鲁棒性
3.6 sclGANs可扩展至scRNA-seq方法和数据大小
最后,本文利用来自3种人肺腺癌细胞系,包括H1975,H2228和HCC827。将这三种细胞系混合均匀并分别用10X Genomics/Chromium,CEL-seq2/Fluidigm和Drop-seq/Droplet处理,由此生成数据集,分别称为sc_10X,sc_CELseq2和sc_Drop-seq。对比三种数据集的结果显示10X Genomics / Chromium产生最佳结果,而CEL-seq2/ Fluidigm和Drop-seq / Droplet受到“dropout”的影响更大。插补有望减弱不同scRNA-seq方法之间的缺失效应。scIGANs是四种排名最高的方法之一,在不同的测序方法之间显示出较小的性能差异。最后还利用PMBC 10k数据集中的10万个 (pmbc 100k) 细胞来比较不同方法的运行时间。结果表明,scIGANs可以应用于大于10万个细胞的scRNA-seq数据集,且优于大多数其他方法。
图7. scIGANs可扩展至scRNA-seq方法和数据大小
四、总结
scIGANs是一种利用基因与基因和细胞与细胞之间的关系来恢复每个细胞中每个基因的真实表达水平,消除技术变异而不损害细胞间生物变异性的方法。scIGANs还与其他单细胞分析方法兼容,因为它不会改变输入数据的维度 (即基因和细胞的数量),并且可以有效地恢复缺失而不影响非缺失表达。另外,scIGANs对于少量基因表达量低或细胞间差异小的基因组具有鲁棒性。最后,scIGANs还可以扩展到数据大小,并且在由不同的scRNA-seq协议/平台生成的数据集上也能很好地工作。总之,scIGANs不仅是GANs在组学数据中的应用,而且代表了一种竞争性的scRNA-seq数据插补方法。
代码
https://github.com/xuyungang/scIGANs
参考文献
Xu, Y., et al., scIGANs: single-cell RNA-seq imputation using generativeadversarial networks. Nucleic acids research, 2020. 48.
https://academic.oup.com/nar/article/48/15/e85/5862684
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有