Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >为了更精确的定量:宏基因组gene丰度分析工具的比较

为了更精确的定量:宏基因组gene丰度分析工具的比较

作者头像
SYSU星空
发布于 2022-05-05 06:25:20
发布于 2022-05-05 06:25:20
1.4K00
代码可运行
举报
运行总次数:0
代码可运行

之前常有做宏基因组的朋友问我,为什么他们计算基因丰度获得的结果中,有些基因的丰度为零。理论上所有的contig序列均由reads拼装而得,而基因作为contig序列上一个区域,不该没有reads比对上。其实,这些丰度为零的基因反映了宏基因组gene丰度计算一个很容易犯的错误。非常抱歉的是,我在之前文章零代码计算contigs与genes丰度一文中,并没有及时认识并纠正这个错误,现在亡羊补牢,希望对大家能有所帮助!

宏基因组分析Pipeline

测序数据的解析:Fastq与FastQC

测序数据的质控:Trimmomatic!

宏基因组reads筛选:去除宿主序列

测序数据的组装:常用软件工具

宏基因组多样品的混合组装

Contigs与genes丰度计算

宏基因组gene丰度不同工具比较

免组装宏基因组群落分析

GraPhlAn物种谱可视化

宏基因组编码基因预测

宏基因组bins质量评估

宏基因组binning: Metabat

更新中……

在宏基因组项目中,微生物的DNA被随机打断成短的序列片段,经过测序获得reads,然后使用组装工具将reads进行拼接复原DNA序列,也即contig序列。要想获得contigs的测序深度(即depth),我们可以使用Bowtie2将reads回帖到contigs,再根据回贴情况分析平均depth。

基因序列为contigs上预测的编码区域。因此理论上,同一条contig序列上的genes应该具有相似的深度。由于在contigs回贴时,我们很容易根据bam文件获得一条contig不同区域的depth,再结合gene的起止位置,我们可以获得一条contig上所有genes的真实depth信息:

图中红线为该contig的平均depth。可以看到,虽然gene的depth并不严格等于contig的平均depth,但总体上围绕着该值呈近似的高斯分布。如果你具备小小的编程基础,完全可以根据这些depth信息进行标准化,从而获得基因的丰度。不过,可能很多朋友直接对gene进行回贴:

直接对gene进行回贴的结果出人意料,获得的gene深度呈现了一定的长度依赖性,长度超过1000bp的gene深度比较正常,而1000bp以下的gene其depth随着长度的减小快速降低,甚至有些短gene的深度为零。实际上,很大一部分的原核生物的基因长度小于1000bp,这样获得的depth信息会给后续的分析带来很大的困扰。

究其原因,Bowtie2默认为ene-to-end的回帖方法,也即要求reads必须全部比对到gene序列,而gene仅为contig中间区域,gene两端部分匹配的reads会被丢弃,导致回帖率降低。极端情况下,假如gene的长度小于reads长度,其depth肯定为零。根据这个原理,我们可以推断gene的depth与contig的depth关系:

第二幅图中的红色曲线即为上述公式的图像,可以看到实际情况正好符合我们的推测。Bowtie2也支持local的比对方式(添加参数--local),获得的结果如下所示:

可以看到,结果大为改善,但仍不甚理想,可以明显看到短gene深度的降低。接下来我们试一下其他回贴工具,首先是BBmap:

结果和Bowtie2的默认模式一样糟糕,接下来是BWA的MEM算法,该算法也支持剪接比对,结果如下所示:

可以看到,结果非常完美,与我们自己计算获得的真实depth几乎一样,我们可以比较BWA-MEM和Bowtie2-local的结果:

可以看到,BWA-MEM的比对结果要大大好于Bowtie2-local,能很好地还原gene的实际depth结果。因此,假如你一定要采用gene回贴的方法计算gene的depth和丰度,非常推荐BWA-MEM。

最近也有人推荐使用一款基于非比对方法的快速gene丰度计算工具Salmon,该工具来自转录组和宏转录组领域,速度非常快,它在宏基因组的结果如下:

该工具可以直接给出标准化后的TPM,因此受到很多人追捧。然而其对宏基因组的分析结果非常诡异,短gene的丰度急剧升高,甚至超过正常水平一个数量级。因此,十分不建议在宏基因组的分析中使用Salmon。

当然,一条contig序列的depth不一定是均匀的。当我们提取DNA时,一些微生物的DNA可能正在复制中,此时复制起点附近已经复制完毕,而复制终点附近还未被复制。由于大多数细菌是典型的θ型复制,因此可能出现一个细菌基因组中一半depth较高、一半depth较低:

这也是一条contig上gene丰度产生变化的主要原因之一。

附BWA-MEM的安装方法:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/lh3/bwa.git
cd bwa
make

使用方法:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#首先对参考序列构建idex:
bwa index -p 83_armatimo_gene 83_armatimo_gene.fna
#使用BWA-MEM进行比对:
bwa mem -t 20 83_armatimo_gene 83_clean_1.fq.gz 83_clean_2.fq.gz
bwa mem -t 20 83_armatimo_gene 83_clean_1.fq.gz 83_clean_2.fq.gz > 83_armatimo_gene.sam
#接下来的处理与bowtie2相同。

—END—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微生态与微进化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
零代码计算Contigs与Genes丰度!
在宏基因组分析中,一个最常见的任务就是计算contigs和genes的丰度,这是我们后续定量分析的基础。原理大家都懂,无非就是将reads序列map到contigs或者genes序列上,根据map到的reads数量或碱基数目计算丰度。然而实际操作起来可能是比较麻烦的,也需要自己写一些脚本。今天,我为大家分享一个不需要写代码的contigs和genes丰度计算方法。
SYSU星空
2022/05/05
8610
零代码计算Contigs与Genes丰度!
宏基因组binning:MetaBAT
基于reads比对注释的物种binning可以获得宏基因组微生物群落的物种组成信息,但无法获得组成物种的基因组。要获得这些基因组数据,还需要基于不同基因组的特征对拼接的contigs进行binning。目前基于contigs binning的方法使用非常广泛,也已经开发了多种软件,其中最高引用次数的两款为MaxBin和MetaBAT。这两款软件均支持使用多样本拼接的contigs来提高binning的成功率,也即根据contigs在多个library中丰度的相关性(co-abundance pattern)来进行聚类。
SYSU星空
2022/05/05
1.5K0
宏基因组binning:MetaBAT
宏基因组binning原理
在宏基因组中分离单基因组,可利用序列特征或序列组装信息,常见的可用信息主要有以下几种:
SYSU星空
2022/05/05
1.2K0
宏基因组binning原理
宏基因组reads筛选:去除宿主序列
基于环境的复杂性与研究对象的不同,宏基因组数据在组装之前常需要过滤掉一些序列以防干扰研究。例如要研究动植物组织或肠道的微生物组,往往需要去除宿主的DNA序列。假如研究的是人类肠道微生物的宏基因组,需要去除属于人基因组的序列。具体方法为将质控后的序列和人类基因组序列进行比对,将比对上的序列去除。
SYSU星空
2022/05/05
3.6K0
宏基因组reads筛选:去除宿主序列
免组装宏基因组群落分析
宏基因组数据可以不经组装,直接将测序获得的reads比对到公共数据库中,利用比对到的数据库序列的物种归属信息对reads进行物种分类,从而快速获得群落的物种组成信息。
SYSU星空
2022/05/05
7520
免组装宏基因组群落分析
测序数据比对
高通量测序数据分析一共有测序数据分析主要有两条路径:一条是进行基因组拼接,得到基因组序列;另一条则是不经过拼接,直接与参考序列进行比对。由于拼接基因组需要消耗较多的计算资源,目前很多分析主要采用测序数据比对的方式。例如变异检测,RNAseq,甲基化检测,病原微生物鉴定等。
生信喵实验柴
2022/10/25
2K0
测序数据比对
宏基因组多样品的混合组装
Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装。该工具在官网下载解压即可使用。
SYSU星空
2022/05/05
2.3K0
跟着NPJ学宏基因组分析流程-肠道微生物群通过调节胆汁酸代谢来影响奥贝胆酸对非酒精性脂肪性肝病的治疗效果
hello,hello!小伙伴们大家下午好,我是小编豆豆,之前小编给大家分享了NC学宏基因组分析流程,今天小编再给大家分享一篇宏基因流程,文章提供完整的分析流程和代码,是一篇学习宏基因组数据分析不错的素材。文章是2023年3月份发表在 npj biofilms and microbiomes,题为:Gut microbiome determines therapeutic effects of OCA on NAFLD by modulating bile acid metabolism。
用户1075469
2023/08/26
4290
跟着NPJ学宏基因组分析流程-肠道微生物群通过调节胆汁酸代谢来影响奥贝胆酸对非酒精性脂肪性肝病的治疗效果
宏病毒组binning工具—— vRhyme教程
Hello,Hello小伙伴们大家好,好久没有给大家更新微信公众文了,最近小编在学习宏病毒组,其中一个和宏基因组类似的过程——binning,然后和宏基因组binning不同是,目前宏基因组binning工具数目众多,宏病毒组binning工具数目稀少,今天小编为大家介绍一款宏病毒组binning工具—— vRhyme。
用户1075469
2025/02/28
2530
宏病毒组binning工具—— vRhyme教程
宏基因组学习笔记2
metagenomics, 在希腊语中meta意思是超越的。宏基因组研究的目的是通过对菌种(株)的鉴定,获得真实的多样性数据,功能,协作和进化。宏基因组分析的三个任务是物种分析(它们是谁),功能分析(能干什么,潜力),比较分析(怎么比较它们)。
用户1075469
2020/08/18
1.1K0
测序数据组装的常用工具
Spades(http://cab.spbu.ru/software/spades/)可用于进行单细菌基因组组装,也能用于宏基因组测序数据,可以进行二代与三代测序数据的混合组装,也支持多样品组装。输入数据可以是Illumina、IonTorrent或PacBio、Sanger测序结果,也可以把一些contigs序列作为long reads进行输入。该软件可以同时接受多组paired-end、mate-pairs和unpaired reads数据的输入。spades支持输入文件格式:fq、fastq、bam、fa、fasta、fq.gz、fastq.gz、bam.gz、fa.gz、fasta.gz,其使用方法如下所示:
SYSU星空
2022/05/05
3K0
测序数据组装的常用工具
宏转录组学习笔记--另一个教程
这项工作已获得Creative Commons Attribution-ShareAlike 4.0 International协议的许可。这意味着您可以复制,共享和修改作品,只要结果以相同的许可证分发即可。本教程由Mobolaji Adeolu(adeolum@mcmaster.ca),John Parkinson(john.parkinson@utoronto.ca)和Xuejian Xiong(xuejian@sickkids.ca)制作。
用户1075469
2020/03/31
3.1K0
宏转录组学习笔记--另一个教程
新冠参考基因组构建
目前新冠病毒的基因组拼接主要采用与参考序列比对,生成一致性序列的方法。所以,参考序列就非常重要,那么参考序列从何而来,参考序列是否准备,遇到新物种如何构建参考序列?
生信喵实验柴
2022/04/07
8130
新冠参考基因组构建
使用CCS序列数据改进宏基因组拼接效率和物种分类注释
DNA组装是用于研究微生物群落结构和功能的宏基因组流程中的核心方法学步骤。在这里,我们调查太平洋生物科学长期和高精度循环共识测序(CCS)的宏基因组项目的实用性。我们比较了PacBio CCS和Illumina HiSeq数据的应用和性能以及使用代表复杂微生物群落的宏基因组样本的组装和分类分类算法。8个SMRT细胞从沼气反应器微生物组合样品中产生大约94Mb的CCS读数,其平均长度为1319nt,精度为99.7%。CCS数据组合产生了大于1 kb的相当数量的大型重叠群,与从相同样本产生的约190x较大的HiSeq数据集(〜18 Gb)组装的大型重叠群组成(即约占总重叠群的62%)。使用PacBio CCS和HiSeq重叠群的混合组件在装配统计数据方面进行了改进,包括平均重叠体长度和大型重叠群数量的增加。CCS数据的并入产生了两个显性系统的分类学分类,基因组重建的显着增强,使用HiSeq数据单独组合则分类不佳。总而言之,这些结果说明了PacBio CCS在某些宏基因组应用的价值。
用户1075469
2020/03/03
2.9K0
二代测序宏基因组分析软件安装及数据库下载
1、数据质控:使用 kneaddata 软件,该软件先调用 Trimmomatic 过滤数据,然后利用bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。
生信喵实验柴
2023/02/24
2.1K0
二代测序宏基因组分析软件安装及数据库下载
ATAC-seq经典分析流程(上)
--split-3 把双端测序数据拆分成两个文件,对单端测序数据不起作用.fastq-dump默认会把双端测序结果保存到一个文件里
生信菜鸟团
2023/12/28
2.6K0
ATAC-seq经典分析流程(上)
微生物生态学研究中的宏基因组工具
2021年2月,来自美国、荷兰、中国、挪威的多国研究团队在《Current Opinion in Biotechnology》发表综述,回顾了从宏基因组学的应用中收集到的关于微生物生命的新见解,以及促进探索复杂微生物群落多样性和功能的广泛分析工具。
尐尐呅
2022/04/01
1.2K0
微生物生态学研究中的宏基因组工具
全基因组 - 人类基因组变异分析(PacBio) (3)-- pbmm2
长读段比对算法与一代/二代测序数据的比对算法有很大的不同,因为长读段通常更长、包含更多错误和变异,并且需要更复杂的比对策略。
三代测序说
2023/10/26
1.4K1
全基因组 - 人类基因组变异分析(PacBio) (3)-- pbmm2
序列比对之BWA
BWA是一个用于将DNA序列(特别是低差异性序列)映射到大型参考基因组(例如人类基因组)上的工具。它在基因组学和生物信息学研究中尤为重要。因为它能有效处理高通量测序数据,常常集成于WES分析流程,被广泛应用于基因组学研究,如在寻找与疾病相关的基因变异、理解种系发育关系等领域。
生信菜鸟团
2023/11/22
1.6K0
序列比对之BWA
参考基因组没有,经费也没那么多,怎么办?
尽管目前已经有大量物种基因组释放出来,但还是存在许多物种是没有参考基因组。使用基于酶切的二代测序技术,如RAD-seq,GBS,构建遗传图谱是研究无参考物种比较常用的方法。Stacks就是目前比较通用的分析流程,能用来构建遗传图谱,处理群体遗传学,构建进化发育树。 这篇教程主要介绍如何使用Stacks分析基于酶切的二代测序结果,比如说等RAD-seq,分析步骤为环境准备,原始数据质量评估, 多标记数据分离,序列比对(无参则需要进行contig de novo 组装),RAD位点组装和基因分型,以及后续的标记
生信技能树
2018/03/05
2.3K0
参考基因组没有,经费也没那么多,怎么办?
相关推荐
零代码计算Contigs与Genes丰度!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验