最近在网上冲浪看各位大牛的博客文章,积累创作素材,看到一篇有意思的文章,这篇文章虽然已经发表了好几年,但是依然被一位大牛拿出来进行了探讨。分享给大家。
文章标题:Effects of transcriptional noise on estimates of gene and transcript expression in RNA sequencing experiments
杂志:Genome Res
发表时间:2021 Feb
doi: 10.1101/gr.266213.120
大多数关于基因表达分析计算方法的研究都是使用模拟数据来评估这些方法的准确性。这些模拟通常包括从已知基因生成的、具有不同表达水平的reads。然而,直到现在,这些模拟都没有包括来自噪声转录本(noisy transcripts)的 reads,这些噪声转录本可能包含错误的转录(erroneous transcription)、错误的剪接(erroneous splicing)以及其他影响活细胞中转录过程的因素。
在本研究中,作者研究了在RNA-Seq实验中,实际水平的转录噪声对不同算法组装和定量基因及转录本能力的影响。
作者通过将之前从GTEx数据集中计算得到的转录组组装划分为四种不同的生物学和技术变异类型,来研究这些变异。这四种类型包括:
GTEx数据集是基于CHESS数据库(Pertea等人,2018年)构建的转录组组装结果,与模拟数据进行比较。
作者发现大多数已知基因在典型组织的至少一个样本中都有表达(图1A)。相比之下,无论是已知位点还是异构体,在典型样本中活跃表达的比例都不到一半(图1B、C)。与噪声转录本相比,已知转录本更有可能出现在同一组织的多个样本中(约26%),而噪声转录本的比例则较低(基因间噪声为1.8%,内含子噪声为0.5%,剪接噪声为1.4%)。因此,尽管GTEx数据集中总体上噪声转录本的数量要多得多,但在特定组织的层面上,噪声转录本的数量通常低于真实转录本的数量(图1B、C)。
模拟数据:应用模拟方法,作者创建了一个由三种组织组成的数据集,每种组织包括10个样本。
在考虑的所有方法中,引入噪声表达均导致被错误识别为表达的转录本数量一致增加(图2A)
StringTie2 在无噪声时具有最少的假阳性(FP)数量(μ = 18,844;FPR = 7%),并且其FP数量增加最少,平均值上升至23,494(约25%增加;FPR = 8%)。
相比之下,Salmon 在无噪声时的FP数量略高(μ = 21,546;FPR = 8%),但在有噪声时,其FP数量大幅增加了约70%(μ = 36,677;FPR = 13%)。
kallisto 在无噪声数据中的FP数量最高(μ = 34,316;FPR = 12%),而在加入噪声后,它产生了最多的假阳性(FP)转录本,平均超过51,000(约50%增加;FPR = 18%)。
平均而言,这些方法在模拟样本中报告了相似的FP转录本集合,Salmon 和 kallisto 之间的相似性更高。
噪声的引入会导致这些算法在定量表达能力上出现系统性误差,包括对转录本丰度水平的系统性低估以及假阳性基因和转录本数量的大幅增加,以及无比对的计算方法有时会遗漏相对低水平表达的转录本。