前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >跟着PNAS学数据分析:mash基于基因组数据估计遗传距离/nj法构建进化树

跟着PNAS学数据分析:mash基于基因组数据估计遗传距离/nj法构建进化树

作者头像
用户7010445
发布2023-10-08 10:36:16
8080
发布2023-10-08 10:36:16
举报
文章被收录于专栏:小明的数据分析笔记本

论文

Novel functional sequences uncovered through a bovine multiassembly graph

https://www.pnas.org/doi/10.1073/pnas.2101056118

牛PNAS2021.pdf

论文的代码链接

https://github.com/AnimalGenomicsETH/bovine-graphs

论文中用6个牛的基因组做了一些泛基因组相关的分析,使用的软件是minigraph。

其中第一步是用6个基因组数据做了一个进化树,进化树是用nj法,数据是遗传距离。遗传距离是用基因组数据来算的。使用到的软件是mash。

mash这个软件直接用conda就可以安装

代码语言:javascript
复制
conda install mash

论文中提供了这部分分析的代码,重复一下这个分析。数据使用的是6个拟南芥的基因组

计算遗传距离的代码

论文中提供的代码链接是

https://github.com/AnimalGenomicsETH/bovine-graphs/blob/main/subworkflows/mash_distance.py

代码语言:javascript
复制
mash sketch -p 2 -o An1.fa.msh ../An-1.chr.all.v2.0.fasta
mash sketch -p 2 -o C24.fa.msh ../C24.chr.all.v2.0.fasta
mash sketch -p 2 -o Cvi.fa.msh ../Cvi.chr.all.v2.0.fasta
mash sketch -p 2 -o Kyo.fa.msh ../Kyo.chr.all.v2.0.fasta
mash sketch -p 2 -o Ler.fa.msh ../Ler.chr.all.v2.0.fasta
mash sketch -p 2 -o Sha.fa.msh ../Sha.chr.all.v2.0.fasta

mash paste combined_sketch.msh An1.fa.msh C24.fa.msh Cvi.fa.msh Kyo.fa.msh Ler.fa.msh Sha.fa.msh

mash dist combined_sketch.msh combined_sketch.msh > combined_distance.tsv

这个计算过程非常快

接下来是在R语言里的代码

论文中提供的代码链接是

https://github.com/AnimalGenomicsETH/bovine-graphs/blob/main/scripts/phylo_tree_assembly.R

代码语言:javascript
复制
library(tidyverse)
library(ape)
library(ggtree)

disfile<-"combined_sketch.tsv"
datdis  <- read.table(disfile,header=FALSE, stringsAsFactors =FALSE)
datdis

colnames(datdis)  <- c("anim1","anim2","distr","comp4","comp5")

datdis %>% 
  mutate(anim1c=str_extract(anim1,pattern = "[A-z0-9]+"),
         anim2c=str_extract(anim2,pattern = "[A-z0-9]+")) -> datdis


datsel  <- datdis  %>% select(anim1c,anim2c, distr)
datwide  <- datsel  %>% pivot_wider(names_from = anim2c, values_from = distr)

datmat  <- as.matrix(datwide  %>% select(-anim1c))
rownames(datmat)  <- datwide$anim1c

datmat

tr  <- nj(datmat)

new.tr<-root(tr,outgroup = "An")
ggtree(new.tr)+
  geom_tiplab()+
  xlim(NA,0.01)

相比于论文中的代码稍微有点改动

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-07 17:53,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文
  • 计算遗传距离的代码
  • 接下来是在R语言里的代码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档