正文共5498字,预计阅读时间为14分钟。
本期解读转录组上游分析中MultiQC对质控软件FastQC处理后的结果。
FastQC是一款能够对高通量测序数据进行质量评估的软件,对每一个样本生成一个报告。
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
我们通常使用FastQC对raw_data和clean_data做质控,拿到的结果大致相同,我们这里以clean_data为栗子。
除了我们经常使用的用浏览器打开fastqc报告,它同样具有针对不同系统的桌面版本
正如前面所说,每一个样本都有一个对应的html报告,报告内容如下
FastQC Report Content
当我们想综合所有的样本时,我们就需要MultiQC的帮助。
MultiQC的报告分为General Stats和FastQC两部分,其中FastQC又分为11个小部分,接下来我们依次解读。
MultiQC Content
在这里我们能看到各个样本的概况或基本信息
点击左侧的Configure Columns可以自定义展示列参数
Configure Columns
共有五个参数,分别是:
该部分对每个样本序列进行了计数,横坐标为总的reads数(和General Stats中的M seqs一致),纵坐标为不同样本(此处还包含了同一样本的两端测序数据)。
此部分为reads中每个位置(从0到150bp)的平均质量值,横坐标为位置,需要注意的是X轴并不是均匀的;纵坐标为质量分数,计算公式为
所以当质量分数为40的时候,p就是0.0001。
图中绿色表示合格(通过),黄色代表警告,红色则代表失败(不合格)。
不仅仅是这部分,其他部分也都有这样的标志,但FastQC的作者也说过了 “具有'WARN'或'FAIL'标志的模块结果并不一定意味着序列运行失败。'警告'和'失败'标志意味着研究人员必须停下来,考虑在特定样本和所运行的测序类型的背景下,结果意味着什么。”
Researchers should be very cautious about relying on these flags when assessing sequence data. The thresholds used to assign these flags are based on a very specific set of assumptions that are applicable to a very specific type of sequence data. The thresholds used to assign these flags are based on a very specific set of assumptions that are applicable to a very specific type of sequence data. Specifically, they are tuned for good quality whole genome shotgun DNA sequencing. They are less reliable with other types of sequencing, for example mRNA-Seq, small RNA-Seq, methyl-seq, targeted sequence capture and targeted amplicon sequencing. Therefore, a module result that has a “Warn” or “Fail” flag does not necessarily mean that the sequence run failed. “Warn” and “Fail” flags mean that the researcher must stop and consider what that results mean in the context of that particular sample and the type of sequencing that was run.
MultiQC报告的结果
fastqc报告的结果(和上图不是同一数据)
该部分为reads次数和平均质量分数之间的关系,可以理解为reads质量的分布情况,当质量小于27时报“警告”,小于20时报“失败”。
由图中可以看出来,峰值越靠右代表高质量的reads越多,数据也就越好。
good vs bad
该部分展现了reads每一个位置的ATCG四种碱基的分布情况。
fastqc报告的结果
fastqc报告中,横轴为位置,纵轴为碱基含量,正常情况下每个位置每种碱基出现的概率是相近的,四条线应该平行且相近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有污染。上右图的前10bp,碱基频率有明显的差别,说明有污染。
当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。
MultiQC报告的结果
MultiQC报告中,能很直观的看到哪些样本是“WARN”,哪些是“FAIL”。当把鼠标放到图上时,还能清楚的看到每一个位置碱基的分布情况。
在大多数RNAseq文库制备方法中,前10-15bp碱基分布明显不均匀,这是正常的,具体取决于使用的文库试剂盒的类型。即使序列完全正确,这种碱基组成不均匀的数据也会被认为是不合格。
该部分展现了reads的平均GC含量,我们能看到有8个“正常”,4个“警告”。
MultiQC报告的结果
对于全基因组鸟枪测序,期望所有读数的GC含量应该形成正态分布。如果观测到的分布偏离理论太远,FastQC将称为“失败”。
下图的fastqc报告来自非常高质量的RNAseq数据,但FastQC仍然认定为“警告”,因为它比理论曲线窄。这种情况非常正常,因此可以忽略。
fastqc报告的结果
该部分展现了不同样本不同位置N的比例。当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”正常情况下,N值非常小。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。
MultiQC报告的结果
该部分为reads的长度分布,当reads长度不一致时报"WARN";当有长度为0的reads时报“FAIL”。
MultiQC报告的结果
该部分展现了不同拷贝数的reads的频率。横坐标是duplication的次数(level),纵坐标是Deduplicated reads的百分比,以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。
通常有两种重复reads的来源,PCR重复即biased PCR富集和真正高表达的序列。前者会错误的反映样本序列中的真实比例,后者是正常情况。测序深度越高,越容易产生一定程度的duplication;但如果duplication的程度很高,就提示我们可能有bias的存在。
MultiQC报告的结果 12个都为FAIL
fastqc报告的结果
在左图表头下方有一行小字"Percent of seqs remaining if deduplicated 99.31%",意思是去重复后还剩下的序列为99.31%。
关于图中的红蓝两条线,知乎大佬对其的解释会更为简单,原文我放在参考资料的3,需要的请自行查看,我在这里概括一下。
蓝线代表总reads的重复情况,红线代表Deduplicated reads(去重复reads)的重复情况(有点类似于R中的unique函数),代表所有不同的reads。
蓝线表示total reads中出现1次、2次、3次...n次的reads占total reads的比例,红线表示deduplicated reads中出现1次、2次、3次...n次的reads占deduplicated reads的比例。
图源知乎媛子
举两个栗子,
同时大佬还给了具体例子解释如何根据deuplicated图来查看数据的重复情况
图1
图3
该部分会展现超过预期数量的序列,参考意义不大。
A sequence is considered overrepresented if it accounts for ≥ 0.1% of the total reads.
MultiQC报告的结果 3个通过9个警告
在DNA-Seq数据中,任何单一序列都不应该以足够高的频率出现而被列出。对于RNA-Seq数据,可能有一些转录本非常丰富,以至于它们被认为是过度表达的序列。
该部分展现了接头含量。
MultiQC报告的结果
理想情况下,Illumina序列数据不应存在任何接头序列,然而,当使用较长的读取长度时,一些文库插入可能比读取长度短,从而导致在read的3'末端读取到接头。这更有可能发生在RNASeq文库中,其中文库插入大小的分布更加多样,并且可能包括一些短插入。
下面的例子来自高质量的RNASeq文库,该文库的一小部分具有小于150bp的插入片段。
fastqc报告的结果
该部分只存在于MultiQC的报告中,我们可以非常直观的看到不同样本的不同指数的情况。
以上。
参考资料:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有