前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >MultiQC对FastQC结果的解读

MultiQC对FastQC结果的解读

作者头像
小汪Waud
发布于 2023-02-16 08:01:19
发布于 2023-02-16 08:01:19
2.8K0
举报
文章被收录于专栏:小汪Waud小汪Waud

正文共5498字,预计阅读时间为14分钟。

本期解读转录组上游分析中MultiQC对质控软件FastQC处理后的结果。

FastQC是一款能够对高通量测序数据进行质量评估的软件,对每一个样本生成一个报告。

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

我们通常使用FastQC对raw_data和clean_data做质控,拿到的结果大致相同,我们这里以clean_data为栗子。

除了我们经常使用的用浏览器打开fastqc报告,它同样具有针对不同系统的桌面版本

正如前面所说,每一个样本都有一个对应的html报告,报告内容如下

FastQC Report Content

当我们想综合所有的样本时,我们就需要MultiQC的帮助。

MultiQC

MultiQC的报告分为General Stats和FastQC两部分,其中FastQC又分为11个小部分,接下来我们依次解读。

MultiQC Content

General Stats

在这里我们能看到各个样本的概况或基本信息

点击左侧的Configure Columns可以自定义展示列参数

Configure Columns

共有五个参数,分别是:

  • %Dups:Duplicate Reads Percent,重复reads的比例
  • %GC:Average %GC Content,平均GC含量百分比
  • Length:Average Sequence Length,平均序列长度
  • %Failed:Percentage of modules failed in FastQC report,报告中不合格数据的百分比
  • M Seqs:Total Sequences,总测序量

FastQC

Sequence Counts

该部分对每个样本序列进行了计数,横坐标为总的reads数(和General Stats中的M seqs一致),纵坐标为不同样本(此处还包含了同一样本的两端测序数据)。

Sequence Quality Histograms

此部分为reads中每个位置(从0到150bp)的平均质量值,横坐标为位置,需要注意的是X轴并不是均匀的;纵坐标为质量分数,计算公式为

所以当质量分数为40的时候,p就是0.0001。

图中绿色表示合格(通过),黄色代表警告,红色则代表失败(不合格)。

不仅仅是这部分,其他部分也都有这样的标志,但FastQC的作者也说过了 “具有'WARN'或'FAIL'标志的模块结果并不一定意味着序列运行失败。'警告'和'失败'标志意味着研究人员必须停下来,考虑在特定样本和所运行的测序类型的背景下,结果意味着什么。”

Researchers should be very cautious about relying on these flags when assessing sequence data. The thresholds used to assign these flags are based on a very specific set of assumptions that are applicable to a very specific type of sequence data. The thresholds used to assign these flags are based on a very specific set of assumptions that are applicable to a very specific type of sequence data. Specifically, they are tuned for good quality whole genome shotgun DNA sequencing. They are less reliable with other types of sequencing, for example mRNA-Seq, small RNA-Seq, methyl-seq, targeted sequence capture and targeted amplicon sequencing. Therefore, a module result that has a “Warn” or “Fail” flag does not necessarily mean that the sequence run failed. “Warn” and “Fail” flags mean that the researcher must stop and consider what that results mean in the context of that particular sample and the type of sequencing that was run.

MultiQC报告的结果

fastqc报告的结果(和上图不是同一数据)

Per Sequence Quality Scores

该部分为reads次数和平均质量分数之间的关系,可以理解为reads质量的分布情况,当质量小于27时报“警告”,小于20时报“失败”

由图中可以看出来,峰值越靠右代表高质量的reads越多,数据也就越好。

good vs bad

Per Base Sequence Content

该部分展现了reads每一个位置的ATCG四种碱基的分布情况。

fastqc报告的结果

fastqc报告中,横轴为位置,纵轴为碱基含量,正常情况下每个位置每种碱基出现的概率是相近的,四条线应该平行且相近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有污染。上右图的前10bp,碱基频率有明显的差别,说明有污染。

当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。

MultiQC报告的结果

MultiQC报告中,能很直观的看到哪些样本是“WARN”,哪些是“FAIL”。当把鼠标放到图上时,还能清楚的看到每一个位置碱基的分布情况。

在大多数RNAseq文库制备方法中,前10-15bp碱基分布明显不均匀,这是正常的,具体取决于使用的文库试剂盒的类型。即使序列完全正确,这种碱基组成不均匀的数据也会被认为是不合格。

Per Sequence GC Content

该部分展现了reads的平均GC含量,我们能看到有8个“正常”,4个“警告”。

MultiQC报告的结果

对于全基因组鸟枪测序,期望所有读数的GC含量应该形成正态分布。如果观测到的分布偏离理论太远,FastQC将称为“失败”。

下图的fastqc报告来自非常高质量的RNAseq数据,但FastQC仍然认定为“警告”,因为它比理论曲线窄。这种情况非常正常,因此可以忽略。

fastqc报告的结果

如果出现了异常的双峰或多峰,可以看一下健明老师之前的推文

RNA-seq的fastq文件里面为什么有gc含量的双峰

Per Base N Content

该部分展现了不同样本不同位置N的比例。当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”正常情况下,N值非常小。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。

MultiQC报告的结果

Sequence Length Distribution

该部分为reads的长度分布,当reads长度不一致时报"WARN";当有长度为0的reads时报“FAIL”。

MultiQC报告的结果

Sequence Duplication Levels

该部分展现了不同拷贝数的reads的频率。横坐标是duplication的次数(level),纵坐标是Deduplicated reads的百分比,以unique reads的总数作为100%。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。

通常有两种重复reads的来源,PCR重复即biased PCR富集和真正高表达的序列。前者会错误的反映样本序列中的真实比例,后者是正常情况。测序深度越高,越容易产生一定程度的duplication;但如果duplication的程度很高,就提示我们可能有bias的存在。

MultiQC报告的结果 12个都为FAIL

fastqc报告的结果

在左图表头下方有一行小字"Percent of seqs remaining if deduplicated 99.31%",意思是去重复后还剩下的序列为99.31%。

关于图中的红蓝两条线,知乎大佬对其的解释会更为简单,原文我放在参考资料的3,需要的请自行查看,我在这里概括一下。

蓝线代表总reads的重复情况,红线代表Deduplicated reads(去重复reads)的重复情况(有点类似于R中的unique函数),代表所有不同的reads。

蓝线表示total reads中出现1次、2次、3次...n次的reads占total reads的比例,红线表示deduplicated reads中出现1次、2次、3次...n次的reads占deduplicated reads的比例。

图源知乎媛子

举两个栗子,

  • 🌰1:共有20条reads,10条出现1次,5条出现2次,其生成的图如上图的上部分所示。此时Total reads=20,deduplicated reads=10+5=15,deduplicated percentage= 15/20=75%;当出现次数为1时,%total reads=10/20=50%,%deplicated sequences=10/15=66%;当出现次数为2时,%total sequences=10/20=50%;%deplicated sequences=5/15=33%。计算结果与图中一致。
  • 🌰2:有20条reads,10条出现1次,1条出现10次,其生成的图如上图的下部分所示。此时Total reads=20,deduplicated reads=10+1=11,deduplicated percentage=11/20=55%;当出现次数为1时,%total sequences=10/20=50%,%deplicated sequences=10/11= 91%;当出现次数为10时,%total sequences=10/20=50%,%deplicated sequences=1/11=9%。计算结果与图中一致。

同时大佬还给了具体例子解释如何根据deuplicated图来查看数据的重复情况

  • 🌰1:图1表头说该数据的deduplicated percentage=95.09%,说明重复率特别低。观察蓝色和红色折线发现两者几乎重叠,而且有95%以上reads只出现1次,低于5%的reads重复数目大于10。因此,该数据重复度特别低。

图1

  • 🌰2:图2为RNAseq数据的评估结果。从图中知道该数据的deduplicated reads=49.38%,即有一半可能存在重复。但在RNAseq数据中,可能存在某些转录本较短,表达水平很高,导致在随机打断后被重复抽到测序的概率大大增加。因此对于RNAseq数据来说,重复性较高的序列不一定就是PCR重复。折线显示大部分序列的重复性在2-9次,它们极可能覆盖了一些“normal”基因;部分序列的重复性在10-100次,它们可能覆盖在rRNA或一些重复序列上;只有极少数序列的重复度超过100。因此,该RNASeq数据是一个多样性较丰富的文库。
  • 🌰3:图3的deduplicated reads非常低,观察折线发现当出现次数为1时,%Deduplicated sequences高达80%,而%Total sequences则低于10%;当出现次数大于1k时,%Deduplicated sequences在1%左右,而%Total sequences则在20%以上。这些数据说明了有极少数序列重复出现了上1千次,导致整个文库的重复率特别高,这少数部分的序列应该是PCR重复。

图3

Overrepresented sequences

该部分会展现超过预期数量的序列,参考意义不大。

A sequence is considered overrepresented if it accounts for ≥ 0.1% of the total reads.

MultiQC报告的结果 3个通过9个警告

在DNA-Seq数据中,任何单一序列都不应该以足够高的频率出现而被列出。对于RNA-Seq数据,可能有一些转录本非常丰富,以至于它们被认为是过度表达的序列。

Adapter Content

该部分展现了接头含量。

MultiQC报告的结果

理想情况下,Illumina序列数据不应存在任何接头序列,然而,当使用较长的读取长度时,一些文库插入可能比读取长度短,从而导致在read的3'末端读取到接头。这更有可能发生在RNASeq文库中,其中文库插入大小的分布更加多样,并且可能包括一些短插入。

下面的例子来自高质量的RNASeq文库,该文库的一小部分具有小于150bp的插入片段。

fastqc报告的结果

Status Checks

该部分只存在于MultiQC的报告中,我们可以非常直观的看到不同样本的不同指数的情况。

以上。

参考资料:

  1. https://www.cnblogs.com/adawong/articles/7412764.html
  2. https://rtsf.natsci.msu.edu/genomics/tech-notes/fastqc-tutorial-and-faq/
  3. https://zhuanlan.zhihu.com/p/44914479
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小汪Waud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MultiQC
  • General Stats
  • FastQC
    • Sequence Counts
    • Sequence Quality Histograms
    • Per Sequence Quality Scores
    • Per Base Sequence Content
    • Per Sequence GC Content
    • 如果出现了异常的双峰或多峰,可以看一下健明老师之前的推文
    • RNA-seq的fastq文件里面为什么有gc含量的双峰
    • Per Base N Content
    • Sequence Length Distribution
    • Sequence Duplication Levels
    • Overrepresented sequences
    • Adapter Content
    • Status Checks
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文