前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nucleic Acids Res. | scIGANs: 使用生成对抗网络进行scRNA-seq数据插补

Nucleic Acids Res. | scIGANs: 使用生成对抗网络进行scRNA-seq数据插补

作者头像
智能生信
发布于 2021-02-04 06:36:00
发布于 2021-02-04 06:36:00
1.6K0
举报
文章被收录于专栏:智能生信智能生信

作者 | 戴迟迟 校对 | 李仲深

今天给大家介绍德克萨斯大学休斯顿健康与科学中心的徐云刚教授在Nucleic Acids Research上发表的文章 “scIGANs: single-cell RNA-seq imputation using generative adversarial networks”。单细胞测序 (scRNA-seq)可以高通量的表示单个细胞表达谱,但是却会受到很多噪声的影响,“dropout”事件就是其中之一。“dropout”指的是,单细胞测序数据中一些基因的表达值会因为技术等原因被错误的检测为0,而不是真实的表达为0。本文提出了一种基于生成对抗网络 (GAN) 的插补值方法 (scIGANs),来优化基因的表达,该网络使用网络生成细胞而不是使用原始矩阵中观察到的细胞,以此来平衡主要细胞群和稀有细胞群之间的性能。此外,文章利用模拟的以及真实的数据集进行了许多的分析实验,证明了scIGANs对插补值很有效,并适用于各种规模的数据集。

一、研究背景

scRNA-seq可以高通量的表示单个细胞表达谱,但是却会受到很多噪声的影响。scRNA-seq的主要问题是具有大量零值的表达矩阵的稀疏性。在表达矩阵中,这些零值分为两类,一类是基因真实表达出的零值,另外一类则是由于RNA捕获效率不稳定,扩增偏好性等技术原因产生的零值,这样的现象被称为“dropout”事件。目前对scRNA-seq数据分析的迫切需求仍然是识别和处理“dropout”事件,否则,这些事件将严重阻碍下游分析。考虑到scRNA-seq越来越流行,应用计算方法来解决噪声问题的需求也越来越迫切。

GAN自2014推出以来就受到了广泛的关注,并已开发出多种变体。由于其具有学习和模仿数据分布的能力,在恢复数据的领域具有广阔的前景。因此,本文尝试利用GAN对表达矩阵的缺失值进行插补,将插补矩阵数据的过程模拟成修复图像的过程:将每个单个细胞的表达谱转换为图像,其中像素由归一化的基因表达表示。然后,通过插补“dropout”的片段 (代表“dropout”事件),“dropout”插补成为修复图像的过程。由于GAN的固有优势,scIGANs并不假定基因表达水平和“dropout”概率具有特定的统计分布。它也不会强制插入不受“dropout”事件影响的基因。而且,scIGANs会生成一组实际的单个细胞,而不是直接从观察到的细胞中借用信息来插补,这可以避免过拟合大量数据的细胞类型,同时保证对稀有细胞具有足够的插补能力。

二、模型与方法

图1. 构建scIGANs流程模型

scIGANs的基本思想是可以从复杂的多细胞类型样本中学习非线性基因与基因的依赖关系,并训练生成模型以生成定义的细胞类型的逼真表达谱。为了训练scIGANs,首先将真实的单细胞表达谱重塑为图像:以列方式将每个细胞的表达谱重塑成正方形图像,其中标准化的基因表达值代表图像的像素。图像大小为n×n,其中n是满足n×n大于等于计数矩阵中基因个数的最小整数。如果基因数小于n×n,则将填充额外的零。然后将这些图像送入GAN,其中每个细胞对应于具有利用归一化基因表达代表像素的图像。生成器通过将100维潜变量转换为单细胞基因表达谱来生成假图像。鉴别器评估图像是真实的还是生成的。同时训练这两个网络,同时互相竞争以提高两者的性能。训练后,利用k阶最近邻 (KNN) 来为相同类型的细胞进行插补。

三、实验结果

3.1 sclGANs从信号缺失中恢复单细胞基因表达而不会造成额外的噪音

利用scSimulator模拟了一个具有三个细胞种类,每一类具有50个细胞的数据集,每个细胞包含20180个基因,数据集的“dropout”概率为52.8%。对此数据集进行UMAP图的绘制 (参见下图A),UMAP与PCA以及tSNE相同,是一种降维方法。通过UMAP图可以看出scIGANs略微降低了性能,但仍然具有优于其他11种被比较方法的优势,但scImpute除外。其中scIGANs (w/o) 表示应用光谱聚类来获得聚类标记,scIGANs (w)表示使用数据集的原有标记。

然后利用Splatter模拟三种数据集,他们的“dropout”概率分别为71%,83%,87%,每一种数据集都进行了100次模拟,即,每一类数据集中包含100个数据集,每一个数据集拥有800个基因和1000个细胞,分为三个簇。文章利用此数据集来测试在具有不同“dropout”率的数据集上scIGANs和其他方法的性能。通过ARI (参见下图B),一种用于判断聚类性能的指标来评估性能。相比之下,scIGANs在所有方法中排名最高,并且在“dropout”率不断提高的重复项中具有最强健的性能。

第三,利用真实数据集Human brain scRNA-seq data绘制UMAP图(参见下图C) 以及ACC、ARI等评价指标的柱状图 (参见下图D)。图中可以看出,scIGANs将细胞类型的簇增强到最大程度,从而可以分离和鉴定所有八种细胞类型且优于其他方法。

最后本文测试了另一个重要但又难以量化的指标 —— 鲁棒性,即插补方法在多大程度上不会由于例如错误地估算生物“零”或过度投入而引入额外的噪声。利用ERCC spike-in RNAs scRNA-seq data,他们的特点是由于掺入RNA的量相同,以捕获技术噪音,因此掺入RNA的读数应无细胞间差异,并且检测到的表达差异 (如果存在) 应仅来自生物混杂因素以外的技术混杂因素 (例如细胞类型)。利用数据集中的聚类标记,绘制UMAP图 (参见下图E)。结果表明,即使使用监督性细胞标记进行训练,scIGANs仍能以最小的细胞间变异性成功恢复表达谱,并将所有细胞紧密地聚集在一组中。

图2. scIGANs从信号缺失中恢复单细胞基因表达而不会造成额外的噪音

3.2 sclGANs可识别同质细胞群体的亚细胞状态

单细胞RNA-seq通常用于从异质组织或细胞群体中鉴定不同的细胞类型。然而,就细胞表面标志物的表达而言,似乎均质的细胞群包含许多不同的细胞状态,具有隐藏的细胞间变异性,可能对细胞功能产生重大影响,例如细胞功能,发育阶段,细胞周期阶段和邻近的微环境。因此,本文测试了插补法如何有助于细胞周期变异性的鉴定。

首先,利用Cell-cycle phase scRNA-seq data来绘制UMAP图 (参见下图A),标记使用数据集中三个不同的生命周期阶段,可以发现,所有其他插补方法都无法恢复有关细胞周期状态的簇结构。只有scIGANs在显示具有最佳性能的细胞周期状态方面表现出显著改善。另外利用来自Seurat的独立预定义的细胞周期标记基因的集合,scIGANs显著改善了对细胞周期状态的识别,优于所有其他方法,这是因为在细胞周期中正确分配了大多数已分类的细胞空间 (参见下图B)。

对于在Mouse ESC scRNA-seq dataset for cell-cycle dynamics中的ESC在mRNA丰度方面缺乏强烈的细胞周期振荡,但它们确实显示出有限的G2/M期特异性转录的证据。scIGANs的插补显著改善了细胞周期振荡,尤其是G2/M 期特异性转录更为明显(参见下图C)。

所有以上结果表明,scIGANs在恢复和捕获亚细胞状态以及同质群体单个细胞之间非常细微的细胞周期动力学方面比所有其他方法表现更好。

图3. scIGANs可以识别细胞周期状态和动力学

3.3 sclGANs改善了差异表达分析

Human ESC scRNA-seq dataset for differential expression analysis包括批量RNA测序数据以及与之相匹配的scRNA-seq数据。使用DESeq2识别H1和DEC细胞之间的批量RNA测序数据以及与之相匹配的scRNA-seq数据的差异性表达基因 (DEG)。原始的scRNA-seq数据的零表达率比批量RNA测序数据更高(分别为49.1%和14.8%),并且共享的DEG最少(图4A)。

为了更准确地进行DEG性能的检测,通过将推导的scRNA-seq数据集中的DEG用作黄金标准并定量使用scRNA-seq数据,下图B显示了准确度 (ACC),F1得分以及每个接收器工作特征曲线(AUC) 下方的面积。总体性能定义为上述三个测量的平均值。scIGANs排名第二,仅次于VIPER。

此外,本文使用了来自批量测序数据的前1000个DEG集合 (500个上调基因和500个下调基因) 作为基准,以评估单细胞和批量RNA-seq数据之间DEG检测的对应性。无例外,scIGANs推导的scRNA-seq数据显示与批量RNA-seq的对应关系最高,在前1000个DEG共享的数量最多,倍数变化与批量RNA-seq的相关性最高 (参见下图C)。此外,调查了H1和DEC细胞的五个标记基因的表达,以比较插补方法在多大程度上恢复了特征基因的表达模式。结果表明,scIGANs通过消除由缺失导致的不良变异,可以最好地反映H1和DEC细胞的表达特征(参见下图D)。细胞向特征基因表达所覆盖的UMAP空间的投影进一步突出了scIGANs在恢复特征基因表达模式方面的性能(参见下图E)。总之,在其他竞争方法中,scIGANs能够以最佳性能改进从scRNA-seq数据中DEG的识别。

图4. scIGANs增加了单细胞和批量差异表达分析之间的对应关系

3.4 sclGANs增强了细胞轨迹的推断

除了按类型表征细胞外,scRNA-seq还大大有利于按时间过程或发育阶段 (即细胞轨迹) 组织细胞。但是尽管单细胞实验可以阐述各种生物学环境中的轨迹,但是没有一种单细胞轨迹推断方法可以解释“dropout”事件。于是本文推测,在插补后推断scRNA-seq数据的细胞轨迹可以提高伪时间排序的准确性。利用Time-course scRNA-seq data for cellular trajectory analysis,诱导从H1的ESCs分化0、12、24、36、72和96 h,总共分析了158个细胞 (参见下图A),然后使用Mococle3重构轨迹。scIGANs的插补在推断的伪时间和实时过程之间产生最高的对应关系 (参见下图B、C),这表明scIGANs可以沿时间过程恢复更准确的转录组动力学。该实验还研究了多能性 (例如,NANOG和POU5F1) 和DECs (例如,CER1和HNF1B) 的显著基因,发现scIGANs在插补后改善了基因表达动力学 (参见下图D、E)。这些结果表明,scIGANs可以帮助改善单细胞轨迹分析并恢复基因表达的时间动态。

图5. scIGANs改进了时程scRNA-seq数据分析并重建了分化轨迹

3.5 sclGANs对少数具有低表达或细胞间差异的基因的小型数据集具有鲁棒性

本文还假设scIGANs对低表达或较少细胞间变异的基因更为稳健。利用Human ESC scRNA-seq dataset for differential expression analysis 二次采样出三个较小的子集,绘制了数据的分布以及插补值之后的表达值均值(mean) 与标准偏差 (SD) (参见下图6)。所有这些结果表明,scIGANs对于由很少的基因 (约占检测到的基因的5%) 组成的小型数据集具有很强的表达力或细胞间差异,对于其他插补方法而言,这些信息量较小。

图6. scIGANs对少数具有极低表达或跨细胞变异的基因具有鲁棒性

3.6 sclGANs可扩展至scRNA-seq方法和数据大小

最后,本文利用来自3种人肺腺癌细胞系,包括H1975,H2228和HCC827。将这三种细胞系混合均匀并分别用10X Genomics/Chromium,CEL-seq2/Fluidigm和Drop-seq/Droplet处理,由此生成数据集,分别称为sc_10X,sc_CELseq2和sc_Drop-seq。对比三种数据集的结果显示10X Genomics / Chromium产生最佳结果,而CEL-seq2/ Fluidigm和Drop-seq / Droplet受到“dropout”的影响更大。插补有望减弱不同scRNA-seq方法之间的缺失效应。scIGANs是四种排名最高的方法之一,在不同的测序方法之间显示出较小的性能差异。最后还利用PMBC 10k数据集中的10万个 (pmbc 100k) 细胞来比较不同方法的运行时间。结果表明,scIGANs可以应用于大于10万个细胞的scRNA-seq数据集,且优于大多数其他方法。

图7. scIGANs可扩展至scRNA-seq方法和数据大小

四、总结

scIGANs是一种利用基因与基因和细胞与细胞之间的关系来恢复每个细胞中每个基因的真实表达水平,消除技术变异而不损害细胞间生物变异性的方法。scIGANs还与其他单细胞分析方法兼容,因为它不会改变输入数据的维度 (即基因和细胞的数量),并且可以有效地恢复缺失而不影响非缺失表达。另外,scIGANs对于少量基因表达量低或细胞间差异小的基因组具有鲁棒性。最后,scIGANs还可以扩展到数据大小,并且在由不同的scRNA-seq协议/平台生成的数据集上也能很好地工作。总之,scIGANs不仅是GANs在组学数据中的应用,而且代表了一种竞争性的scRNA-seq数据插补方法。


代码

https://github.com/xuyungang/scIGANs

参考文献

Xu, Y., et al., scIGANs: single-cell RNA-seq imputation using generativeadversarial networks. Nucleic acids research, 2020. 48.

https://academic.oup.com/nar/article/48/15/e85/5862684

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nucleic Acids Res. | scIMC: 单细胞RNA测序数据插补方法的基准比较和可视化分析平台
今天给大家介绍山东大学魏乐义教授与日本东京大学中井谦太教授合作发表在Nucleic Acids Research上的一篇文章 “scIMC: a platform for benchmarking comparison and visualization analysis of scRNA-seq data imputation methods”。目前在单细胞RNA测序(scRNA-seq)领域最主要的挑战是技术缺陷导致的“dropout”事件,其极大影响了下游任务分析,因此迫切需要有效的方法优化单细胞RNA测序数据。本文从以下四个方面对现有scRNA-seq数据插补方法进行系统的研究与比较:(1)恢复真实基因表达分布,(2)细胞聚类分析,(3)基因差异性表达分析,(4)重建细胞轨迹。研究表明,基于深度学习的方法通常比基于模型的方法表现出更好的整体性能,显示出深度学习在scRNA-seq数据插补方面的强大能力。此外,针对帮助没有计算机背景的研究人员方便实现插补方法以及结果的可视化分析,本文研究开发了在线分析平台scIMC,集成了多种现有方法以及常见的下游分析任务,能够方便用户针对不同的数据选择合适的数据插补方法进行分析与比较。
智能生信
2022/10/05
1.5K1
Nucleic Acids Res. | scIMC: 单细胞RNA测序数据插补方法的基准比较和可视化分析平台
Nature Communications | 一种适用于单细胞RNA测序数据的准确可靠的插补方法
今天给大家介绍美国加利福尼亚大学Jingyi Jessica Li教授等人发表在Nature Communications上的一篇文章 “An accurate and robust imputation method scImpute for single-cell RNA-seq data” 。新兴的单细胞RNA测序 (scRNA-seq) 技术能够在单细胞水平研究转录组学情况。但是ScRNA-seq数据分析由于过多的零计数而变得复杂,也就是所谓的“dropout”事件,这是由于单个细胞内测序的mRNA量过少。 本文提出了scImpute,一种统计方法,可以准确而可靠地估算出scRNA-seq数据中的“dropout”。 scImpute自动识别可能的“dropout”,并且仅对这些值执行插补,而不会对其余数据引入新的偏差。scImpute还可以检测离群细胞并将其排除在插补之外。根据在模拟的和真实的人类和小鼠scRNA-seq数据中进行评估,表明scImpute是一种有效的工具,可识别可能的“dropout”,增强细胞亚群的聚集,提高差异表达分析的准确性,并有助于基因表达动力学的研究。
智能生信
2021/04/13
3.8K0
Nature Communications | 一种适用于单细胞RNA测序数据的准确可靠的插补方法
单细胞入门【2】:scRNA-seq测序数据的计算分析指南
scRNA-seq是一种流行且功能强大的技术,可分析大量单个细胞的整个转录组。然而对这些实验生成的大量数据的分析需要专门的统计和计算方法。
尐尐呅
2022/03/31
2K0
单细胞入门【2】:scRNA-seq测序数据的计算分析指南
单细胞RNA-seq数据分析最佳实践(中)
Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.
生信技能树jimmy
2020/03/30
2.3K0
Scientific Reports | AutoImpute:基于自编码器的单细胞RNA测序数据的插补
今天给大家介绍印度德里Indraprastha信息技术学院的Debarka Sengupta教授等人发表在Scientific Reports上的一篇文章 “AutoImpute: Autoencoder based imputation of single-cell RNA-seq data” 。单细胞RNA测序 (scRNA-seq) 技术的出现,使我们能够以单细胞分辨率测量数千个基因的表达水平。然而,单个细胞中起始RNA的数量不足会导致显著的“dropout”事件 (被错误判断为零的表达值),在表达矩阵中引入大量的零计数。为了解决这一问题,本文提出了一种基于自编码器的稀疏基因表达矩阵的插补方法。AutoImpute,它学习输入的scRNA-seq数据的固有分布,并相应地插补缺失值,对生物沉默基因 (真实表达的零值) 进行最小的修改。在真实的scRNA-seq数据集上进行测试时,AutoImpute在基于下采样数据的表达恢复、细胞聚类精度、方差稳定和细胞类型可分离性方面表现出竞争性。
智能生信
2021/03/03
2.2K0
Scientific Reports | AutoImpute:基于自编码器的单细胞RNA测序数据的插补
超详细 | 生物医学研究和临床应用中scRNA-seq的数据分析指南
随着高通量scRNA-seq(包括临床样本)能力的扩大,对这些海量数据的分析能力已成为进入该领域研究人员的必备技能。近日,《Military Medical Research》发表了一篇综述文章,回顾了典型scRNA-seq数据分析的工作流程,总结每个分析步骤的当前方法,并针对某些特定的分析任务和方法指出了建议和注意事项。
尐尐呅
2023/01/17
8990
超详细 | 生物医学研究和临床应用中scRNA-seq的数据分析指南
BMC Bioinformatics | DrImpute:在单细胞RNA测序数据中插补“dropout”事件
今天给大家介绍明尼苏达大学的Daniel J. Garry教授等人发表在BMC Bioinformatics上的一篇文章 “DrImpute: imputing dropout events in single cell RNA sequencing data” 。单细胞RNA测序 (scRNA-seq) 技术通过在单细胞水平上观察基因表达,从而开创了一个新的时代。然而,这项技术存在大量的技术和生物噪音。由于RNA转录组的数量较少以及基因表达的随机性,在scRNA-seq数据中有很高的概率将非零值判断为零,这被称为“dropout”事件。本文开发了一种名为DrImpute的插补方法来处理scRNA-seq数据中的“dropout”事件。实验表明,对比其他现有的插补方法,DrImpute在区分“dropout”事件与真实表达的零值方面有更好的性能。本文还证明了DrImpute可以显著提高现有的用于聚类、可视化等工具的性能。
智能生信
2021/02/04
3.9K1
Nat. Commun. | scGNN,一种新型的用于单细胞RNA测序分析的图神经网络框架
今天给大家介绍密苏里大学许东教授和俄亥俄州立大学马勤教授的团队发表在Nature Communications上的一篇文章 “scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses”。单细胞RNA测序 (scRNA-seq) 被广泛应用于揭示组织、生物和复杂疾病的异质性和动力学,但其分析仍面临多个重大挑战,包括测序的稀疏性和基因表达的复杂差异模式。本文提出了scGNN (单细胞图神经网络),为scRNA-seq分析提供了一个无假设的深度学习框架。这个框架用图神经网络来表达和聚集细胞间的关系,并使用左截断的混合高斯模型来建模异质基因表达模式。scGNN集成了三种迭代多模态自动编码器,其在四个scRNA-seq基准数据集上的基因插补和细胞聚类性能优于现有工具。在一项阿尔茨海默症研究中,从死后脑组织中提取13214个单核,scGNN成功地阐明了疾病相关的神经发育和差异机制。scGNN为基因表达和细胞间关系的有效表达提供了帮助。它也是一个强大的可以应用于一般的scRNA-Seq分析的框架。
智能生信
2021/05/17
3.9K0
Nat. Commun. | scGNN,一种新型的用于单细胞RNA测序分析的图神经网络框架
Genome Biology | DISC:使用半监督深度学习推断单细胞转录组的基因表达和结构
今天给大家介绍谢志教授等人发表在Genome Biology上的一篇文章“DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semisupervised deep learning ”。
智能生信
2021/02/04
1.2K0
Genome Biology | DeepImpute:一种基于深度神经网络来插补单细胞RNA测序数据的方法
今天给大家介绍密歇根大学的Lana X. Garmire教授等人发表在Genome Biology上的一篇文章 “DeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq data” 。单细胞RNA测序 (scRNA-seq) 为同时研究数万个单细胞的基因表达提供了新的机遇。本文提出了DeepImpute,一个基于深度神经网络的插补算法,它使用dropout层和损失函数来学习数据中的分布模式从而精确地插补缺失数据。总的来说,通过均方误差或皮尔逊相关系数衡量,DeepImpute比其他六种公开可用的插补方法精度更高。实验表明,DeepImpute是一个准确、快速、可扩展的插补工具,适合处理数量不断增长的scRNA-seq数据。
智能生信
2021/02/04
2.8K0
Genome Biology | VIPER:在单细胞RNA测序中为精确的基因表达恢复进行保留变异的插补
今天给大家介绍密歇根大学的Zhou Xiang教授等人发表在Genome Biology上的一篇文章 “VIPER: variability-preserving imputation for accurate gene expression recovery in single-cell RNA sequencing studies”。本文开发了一种方法,VIPER,在单细胞RNA测序研究中插补零值,以促进在单细胞水平上准确的转录组测量的实现。VIPER基于非负稀疏回归模型,并能够逐步推断一组稀疏的局部邻域细胞,这些细胞最能有效预测用于插补的细胞的表达水平。VIPER的一个关键特征是它保存基因表达变异的细胞的能力。几个精心设计的基于真实数据的分析实验说明了VIPER的优点。
智能生信
2021/02/04
2.9K0
scRNA-seq计算方法的优势和局限性
在过去的10年里,伴随着单细胞转录组测序技术的飞速发展,单细胞数据分析的计算方法也获得了相应的长足进步。随着实验技术的生产力和准确性的提升,新兴算法的开发也日益揭示了更复杂的生物学层面的信息,例如细胞类型的组成以及发育动态的基因调控等。同时,这种飞速发展也迫使我们不断地重新评估底层统计模型、实验目的以及数据处理的庞大体量。本文作者回顾了单细胞RNA测序(Single-cell RNA sequencing,scRNA-seq)分析的基本计算步骤,审视了不同方法背后的假设支撑,并强调了其中的成功典范、尚存的局限性和歧义之处。
生信技能树jimmy
2022/01/10
1.3K0
scRNA-seq计算方法的优势和局限性
Nat.Commun | 使用深度计数自编码器对单细胞RNA序列去噪
今天给大家介绍德国亥姆霍兹慕尼黑中心计算生物学研究所的Fabian J. Theis教授等人发表在Nature Communications上的一篇文章 “Single-cell RNA-seq denoising using a deep count autoencoder” 。单细胞RNA测序 (scRNA-seq) 使研究人员能够以细胞分辨率水平研究基因表达。然而,由于扩增和“dropout”事件产生的噪声可能会阻碍下游分析,因此需要针对越来越数量庞大却稀疏的scRNA-seq数据进行去噪。本文提出了一种深度计数自编码器网络 (DCA) 来去除scRNA-seq数据集的噪声。DCA考虑计数分布、数据的过分散和稀疏性,使用负二项噪声模型 (有或没有零膨胀) 捕获非线性基因-基因依赖关系。DCA模型与细胞的数量成线性关系,因此,可以应用于数百万个细胞的数据集。DCA改进了使用模拟和真实数据集的多种典型的scRNA-seq数据分析。DCA在数据插补的质量和速度上都优于现有的方法,增强了生物发现能力。
智能生信
2021/03/03
2.2K0
Nat.Commun | 使用深度计数自编码器对单细胞RNA序列去噪
生物医学研究和临床应用中单细胞RNA-seq数据分析指南
单细胞RNA测序(scRNA-seq)在生物医学研究中的应用,提高了对疾病发病机制的认识,并为新的诊断和治疗策略提供了有价值的见解。随着包括临床样本在内的高通量scRNA-seq数据的扩大,对这些大量数据的分析已经成为进入这一领域的研究人员的一个必须面对的前景。在这里,回顾了典型scRNA-seq数据分析的工作流程,包括原始数据处理和质量控制,适用于几乎所有scRNA-seq数据集的基本数据分析,以及应针对特定科学问题量身定制的高级数据分析。在总结每个分析步骤的当前方法的同时,还提供了软件和脚本的在线数据。对一些具体的分析任务和方法提出了建议和注意事项。
追风少年i
2022/12/08
1.9K0
生物医学研究和临床应用中单细胞RNA-seq数据分析指南
scRNA-seq聚类分析(一)
现在我们有了高质量的细胞,在将细胞聚类并确定不同的潜在细胞类型之前,我们需要执行一些步骤。我们的数据集包含来自两个不同条件(Control and Stimulated)的两个样本,因此整合这些样本有助于更好地进行比较。在此之前,我们需要归一化我们的基因表达值,并根据我们数据集中最大的变异来源跨条件排列我们的细胞。在本节中,我们将在聚类之前讨论并执行这些初始步骤。
生信技能树jimmy
2020/06/04
1.9K0
scRNA-seq聚类分析(一)
热点综述 | 高维单细胞RNA测序数据分析工具
scRNA-seq数据集通常包含由于不完全RNA捕获、PCR扩增偏差和/或特定于患者或样本的批次效应而产生的技术噪声,如何降低技术噪声对数据分析的影响?
尐尐呅
2022/04/01
8840
热点综述 | 高维单细胞RNA测序数据分析工具
SCRNA-seq聚类分析(二)
单细胞RNA-seq分析介绍 单细胞RNA-seq的设计和方法 从原始数据到计数矩阵 差异分析前的准备工作 scRNA-seq——读入数据详解 scRNA-seq——质量控制 为什么需要Normalization和PCA分析 scRNA-seq聚类分析(一)
生信技能树jimmy
2020/06/10
1.2K0
Bioinformatics | scTSSR:使用双向稀疏自表示来恢复单细胞RNA测序的基因表达
今天给大家介绍华中师范大学的张晓飞教授等人发表在Bioinformatics上的一篇文章“scTSSR: gene expression recovery for single-cell RNA sequencing using two-side sparse self-representation”。单细胞RNA测序 (scRNA-seq) 方法可以在单细胞层面揭示基因表达模式。由于技术缺陷,在scRNA-seq中的“dropout”事件会给基因表达矩阵增加噪声,阻碍下游分析。因此,在进行下游分析之前,恢复真实基因表达水平是很重要的。本文开发了一种称为scTSSR (scRNA-seq two-side sparse self-representation) 的插补方法来恢复scRNA-seq的基因表达。与大多数现有方法不同的是,scTSSR使用双向稀疏自表示模型并且同时利用来自相似基因和相似细胞的信息。本文还进一步利用实验证明scTSSR可以有效地捕获在单分子RNA荧光原位杂交 (smRNA FISH) 中观察到的基因的Gini系数和基因-基因的相关性。下游分析实验表明,scTSSR在恢复真实基因表达水平方面优于现有的方法。
智能生信
2021/02/04
1.1K0
高维单细胞转录组数据处理最新(2020年3月)综述(万字长文)
看到隔壁《单细胞天地》公众号翻译了一个最新的单细胞数据处理综述,很精彩,所以申请转载到生信技能树平台以飨读者:
生信技能树
2020/05/14
2.7K0
高维单细胞转录组数据处理最新(2020年3月)综述(万字长文)
一文读懂scRNA-seq数据分析(建议收藏)
当我们进行单细胞数据分析时,应该始终从质量控制步骤开始,首先清理数据,以确保数据足以回答研究的问题。在此步骤之后,通常会继续进行定位(比对)或基因组组装步骤,具体取决于是否有参考基因组可供使用。
简说基因
2024/03/22
1.6K0
一文读懂scRNA-seq数据分析(建议收藏)
推荐阅读
Nucleic Acids Res. | scIMC: 单细胞RNA测序数据插补方法的基准比较和可视化分析平台
1.5K1
Nature Communications | 一种适用于单细胞RNA测序数据的准确可靠的插补方法
3.8K0
单细胞入门【2】:scRNA-seq测序数据的计算分析指南
2K0
单细胞RNA-seq数据分析最佳实践(中)
2.3K0
Scientific Reports | AutoImpute:基于自编码器的单细胞RNA测序数据的插补
2.2K0
超详细 | 生物医学研究和临床应用中scRNA-seq的数据分析指南
8990
BMC Bioinformatics | DrImpute:在单细胞RNA测序数据中插补“dropout”事件
3.9K1
Nat. Commun. | scGNN,一种新型的用于单细胞RNA测序分析的图神经网络框架
3.9K0
Genome Biology | DISC:使用半监督深度学习推断单细胞转录组的基因表达和结构
1.2K0
Genome Biology | DeepImpute:一种基于深度神经网络来插补单细胞RNA测序数据的方法
2.8K0
Genome Biology | VIPER:在单细胞RNA测序中为精确的基因表达恢复进行保留变异的插补
2.9K0
scRNA-seq计算方法的优势和局限性
1.3K0
Nat.Commun | 使用深度计数自编码器对单细胞RNA序列去噪
2.2K0
生物医学研究和临床应用中单细胞RNA-seq数据分析指南
1.9K0
scRNA-seq聚类分析(一)
1.9K0
热点综述 | 高维单细胞RNA测序数据分析工具
8840
SCRNA-seq聚类分析(二)
1.2K0
Bioinformatics | scTSSR:使用双向稀疏自表示来恢复单细胞RNA测序的基因表达
1.1K0
高维单细胞转录组数据处理最新(2020年3月)综述(万字长文)
2.7K0
一文读懂scRNA-seq数据分析(建议收藏)
1.6K0
相关推荐
Nucleic Acids Res. | scIMC: 单细胞RNA测序数据插补方法的基准比较和可视化分析平台
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档