Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Iqtree2:新模型高效构建系统发育树

Iqtree2:新模型高效构建系统发育树

作者头像
SYSU星空
发布于 2022-05-05 06:10:18
发布于 2022-05-05 06:10:18
3.9K03
代码可运行
举报
运行总次数:3
代码可运行

系统发育推断(phylogenetic inference)的算法五花八门,从最简单的UPGMA法,到邻接法(neighbor joining)、最大简约法(maximum parsimony),再到复杂的的最大似然法(maximum likelihood)与贝叶斯推断法(Bayesian inference),每种方法都有不少可选择的实现工具。这些方法无一例外都遵循一个规律:越精确则速度越慢。而随着分析的数据越来越庞大,对于用户来说,需要寻找一个尽可能快速而且错误率可以容忍的算法是十分必要的。

贝叶斯法可以准确地推断时间树,但速度最慢;而邻接法与最大简约法在处理有较大分歧的序列时容易出现长枝吸引(long branchattraction,LBA)现象,因此目前来说最大似然法还是最常用的方法。目前实现最大似然法建树的工具有MEGA、PhyML、RaxML等,然而这些软件参数设置十分复杂,尤其是核苷酸与氨基酸替代矩阵的选择往往对结果的准确性有着很大的影响,而普通用户往往难以选择。而且,这些工具的分析速度也较慢。

近几年悄然兴起一个新的系统发育推断工具Iqtree(http://www.iqtree.org/),其简化了参数设置,可以帮助用户选择最佳的进化模型,而且在速度上有很大提升。

最新版的是Iqtree2,其安装方法如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
tar -zxvf iqtree-2.0.6-Linux.tar.gz
cd iqtree-2.0.6-Linux

解压后iqtree执行文件就在bin/目录下,其使用方法如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree [-s ALIGNMENT] [-p PARTITION] [-m MODEL] [-t TREE] ...
-s:序列比对文件(支持多个文件逗号隔开,或者包含比对文件的文件夹),可选PHYLIPFASTANEXUSCLUSTALMSF
--seqtype:序列类型,可选BINDNAAANT2AACODONMORPH默认为自动检测
-o:外类群列表,不同物种之间逗号隔开
--prefix:结果文件名前缀
--seed:随机数种子,主要出于调试目的
--mem:最大可使用内存,单位为GM或百分数%
--redo:忽略检查重写输出文件,默认为off,也即从上次意外中断处开始
-T:程序运行使用的核数,可设置具体数字或者AUTO(推荐),默认为1
--threads-max:最大可使用的核数,默认为所有核
--fast:快速模式,类似FastTree
-b:非参数bootstrap次数,大于等于100
-B:超快速bootstrap次数,大于等于1000
--bnni:使用NNI优化超快速bootstrap的树,搭配-B使用
--alrt:SH近似似然比检验重复次数
-m:模型选择,设置MF自动选择最佳模型但不建树;设置MFP自动检测最佳模型并建树。此外还可以设置具体的模型,或者多个可选模型,例如-m LG,WAG
--ancestral:基于经验贝叶斯的祖先状态重建

接下来看这个工具如何使用。首先从最简单的建树开始:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree -s example.phy -T AUTO

假如设置自动选择最佳模型并建树:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree -s example.phy -m MFP -T AUTO

选择最佳模型并只输出模型选择结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree -s example.phy -m MF -T AUTO

Iqtree会测试多达546个蛋白模型并给出最佳模型,结果如下所示:

使用bootstrap自助法计算节点支持率(类似于RaxML):

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree -s example.phy -m MFP -b 100 -T AUTO

使用SH近似似然比检验计算节点支持率:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree -s example.phy -m MFP --alrt 100 -T AUTO

同时使用两种方法计算节点支持率:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree -s example.phy -m MFP --alrt 100 -b 100 -T AUTO

使用超快速bootstrap自助法计算节点支持率:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
iqtree -s example.phy -m MFP -B 1000 --bnni -T AUTO

使用上述设置构建500个基因组的120个串联蛋白树需要两天左右。超快自助法ultrafast bootstrap1000次比普通自助法100次要快10倍左右,是该软件的特有算法,所以一般使用Iqtree的超快自助法建树。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微生态与微进化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南
在科研工作里,构建与美化进化树是必须掌握的技能之一。这篇文章汇总和整理了之前的相关内容,依照文章中的脉络,基本上能够在大多数情形下满足构建进化树的需求。本文将从测序数据到构建系统发育树需要经过这4个步骤进行阐述:①数据收集与预处理②多序列比对③选择适合的建树方法④系统发育树的评估与美化。
简说基因
2025/01/22
6550
一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南
用在线RaxML构建系统发育树
本文将以在线的RAxML为例进行讲解: 测试数据及结果和相关处理软件已经上传至百度网盘:http://pan.baidu.com/s/1i5cPyXB密码:b23t 注:所有红色字体部分的结果都是本文测试数据所展示的结果 构建进化树的方法常见有: Distance methods (距离法) UPGMA (unweighted pair group method with arithmetic means) Fitch-Margoliash Neighbor-joining Discrete charact
企鹅号小编
2018/01/25
2.6K0
特征法建树的千层套路
特征法建树,顾名思义就是直接运用序列特征来构建系统发生树。不同于距离法,它并不会将序列特征先转换为距离矩阵,再构建系统树,故对于单个位点中包含的进化信息,特征法可以做出更加充分的使用。目前流行的特征法有最大似然法(Maximum-likelihood, ML)、最大简约法(Maximum-Pasimony, MP)和贝叶斯推断(Bayesian Inference, BI)。
简说基因
2025/02/08
1960
特征法建树的千层套路
phangorn 构建系统发育树
最近小编在探索系统发育树的构建过程,今天也给大家介绍一个R包phanorn 。小编之前对树的构建知之甚少,如果你对系统发育树有更好的理解欢迎给我留言,有理解不对的地方也请批评指正~
生信菜鸟团
2022/05/24
2.5K0
phangorn 构建系统发育树
1分钟构建完美的系统进化树
今天,我们着手完成最后一块拼图:生物进化。首先要学习的,是系统发育树的构建工具:IQ-Tree。
简说基因
2024/12/23
2810
1分钟构建完美的系统进化树
利用VCF文件构建系统发育树
本文将介绍三种使用VCF文件,构建系统发育树的方法,包括程序的安装,使用,已及系统发育树的可视化与美化。
数据科学工厂
2023/02/27
1.2K0
利用VCF文件构建系统发育树
生信教程|最大似然系统发育推断
顾名思义,最大似然系统发育推断旨在找到进化模型的参数,以最大化观察手头数据集的可能性。模型参数包括树的拓扑结构及其分支长度,还包括推理中假设的替代模型(例如HKY或GTR)的所有参数。由于当数据集包含多个类群时,这些参数的搜索空间是巨大的,因此所有用于最大似然系统发育推断的现代程序都应用启发式方法来达到最大似然参数组合。
数据科学工厂
2023/09/18
4340
生信教程|最大似然系统发育推断
利用VCF文件构建系统发育树
本文将介绍三种使用VCF文件,构建系统发育树的方法,包括程序的安装,使用,已及系统发育树的可视化与美化。
数据科学工厂
2023/01/19
1.2K0
这款10年前发表在生信顶刊上的系统进化树构建软件,还能用吗?
今天,咱们再来学习一款10年前发表在当年生信顶刊 Bioinformatics 上的系统进化树构建工具:RAxML,以加深我们对这一主题的理解。
简说基因
2024/12/23
1650
这款10年前发表在生信顶刊上的系统进化树构建软件,还能用吗?
Nature microbiology:病毒系统发育研究新尝试
随着微生物生态的研究逐渐深入,病毒开始吸引科学家们越来越多的关注。原核生物的病毒很可能对微生物群落的结构和功能有着重要影响。近年来,人们通过生物信息学的方法在宏基因组中挖掘到大量的病毒序列。然而,由于病毒的基因组多样性很高且具有镶嵌性,缺乏普遍存在的保守基因,目前缺乏系统的病毒系统发育研究。由于很多情况下我们只能获得病毒的基因组序列而无法培养,基于系统发育的方法研究和分类病毒成了迫切需要。本篇文章则正是为了解决这个问题,尝试使用系统发育的方法构建一个可拓展的病毒分类谱系。
SYSU星空
2022/05/05
8170
Nature microbiology:病毒系统发育研究新尝试
构建进化树常用方法:生物进化距离(NJ)、统计特征(ML)和离散特征(MP)
1.1 依据: 这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在 1912 年至1922 年间开始使用的 。基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。
白墨石
2021/01/13
5.7K0
构建进化树常用方法:生物进化距离(NJ)、统计特征(ML)和离散特征(MP)
MEGA | 多序列比对及系统发育树的构建
MEGA是一个用于多序列比对和可视化、以及构建系统发育树的免费程序。自1993年发布以来,MEGA共更新9个版本 (没有第八、九版),今年发布的MEGA 11为处理更大的数据集进行了优化。
生信宝典
2022/01/19
10.6K0
MEGA | 多序列比对及系统发育树的构建
构建系统进化树到底选哪个工具?
系统发育树(Phylogenetic Tree)是用来表示物种之间亲缘关系的树状图。它基于物种的遗传信息,通过比较不同物种的DNA或蛋白质序列,推断出它们之间的进化关系。系统发育树在生物学研究中具有重要的意义,可以帮助我们理解物种的起源、演化和分类。
简说基因
2025/01/01
1910
构建系统进化树到底选哪个工具?
FastTree:构建系统进化树,比快更快
系统进化树作为直观展示进化进程的工具,在生命科学研究中有重要作用。而构建系统进化树的工具有很多,我们昨天介绍了1分钟构建完美的系统进化树 。
简说基因
2024/12/23
5600
FastTree:构建系统进化树,比快更快
科研绘图系列:R语言绘制微生物物种系统发育树(phylogenetic tree)
物种系统发育树(Phylogenetic tree),也称为进化树或系统进化树,是一种以树状分支图形来表示各物种或基因之间的亲缘关系的图表。它利用生物的形态特征、分子序列(如DNA、RNA或蛋白质序列)等数据,通过数理统计算法来计算生物之间的进化关系,从而构建出一个反映物种进化历史的拓扑结构。
生信学习者
2025/01/15
5360
科研绘图系列:R语言绘制微生物物种系统发育树(phylogenetic tree)
构建系统发育树
构建系统发育树属于群体遗传学分析范畴,随着时间和地理位置的变化,新冠病毒经过多次迭代,在基因组上会累积不同的突变,已经与祖先产生明显的不同。通过对多个序列进行系统发育分析,不仅可以厘清不同物种之间的亲缘关系,而且可以重塑新冠病毒的演化过程,具有重要的现实意义。例如某地新发疫情,可以对样本快速测序,构建全基因组序列,然后对其进行系统发育分析,快速定位到系统发育树中,可以快速鉴定新发菌株的亲缘关系,对于疫情防控溯源具有重要的指导作用。
生信喵实验柴
2022/04/07
3.8K1
构建系统发育树
搞起来!群体遗传三剑客:PCA、Admixture、进化树
群体遗传学中常用的三大分析工具:主成分分析(PCA)、Admixture分析和进化树(Phylogenetic Tree),它们在分析基因型数据时各有侧重,互为补充。下面介绍一下这三种方法。
邓飞
2025/02/25
4570
搞起来!群体遗传三剑客:PCA、Admixture、进化树
PhyloPhlAn 3.0 微生物组系统发育分析
目前已有许多软件算法可用于微生物基因组和宏基因组数据的系统发育研究,比如 PhyloPhlAn,PhyloSift,ezTree,GToTree,AMPHORA 等等。但绝大多数方法都或多或少的存在一些局限,例如现在还没有一种方法可以选择不同的基因组区域以进行最佳分类,也不能充分整合公共数据库进行分析。基于上述痛点,PhyloPhlAn 最近迎来了一次大升级,新版本不但对之前的版本完全重写还增加了很多新功能。
生信菜鸟团
2020/06/02
8.3K1
PhyloPhlAn 3.0 微生物组系统发育分析
生信教程|替代模型选择
在运行基于可能性的系统发育分析之前,用户需要决定模型中应包含哪些自由参数:是否应该为所有替换假设单一速率(如序列进化的 Jukes-Cantor 模型)或者是否应该允许不同的转换率和颠换率(如 HKY 模型)。或者是否应该对所有替换使用不同的比率(如 GTR 模型)四种核苷酸的频率(“状态频率”)是否应该被估计或假设为全部相等?自由模型参数的最佳数量取决于可用数据,并且可以根据 Akaike 信息准则(AIC)等标准进行选择,该准则旨在在模型拟合的改进与模型拟合所需的附加参数数量之间取得平衡。
数据科学工厂
2023/09/18
3070
生信教程|替代模型选择
FastTree:速度最快的最大似然法进化树构建软件
FastTree 是基于最大似然法构建进化树的软件,它最大的特点就是运行速度快,支持几百万条序列的建树任务。官方的说法是,对于大的比对数据集,FastTree 比phyml或者RAxML 快100到1000倍。官网如下
生信修炼手册
2020/05/08
14.5K0
FastTree:速度最快的最大似然法进化树构建软件
相关推荐
一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验