前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >bioconvert计算测序覆盖度并使用R语言ggplot2画折线图进行可视化展示

bioconvert计算测序覆盖度并使用R语言ggplot2画折线图进行可视化展示

作者头像
用户7010445
发布2021-08-31 17:45:58
发布2021-08-31 17:45:58
1.7K00
代码可运行
举报
运行总次数:0
代码可运行
参考基因组下载自NCBI

https://www.ncbi.nlm.nih.gov/nuccore/FN433596

下载原始测序数据

最近发现了两个新方法

  • 一个是bioconvert可以直接下载
  • 还有一个工具是 kingfisher 这个好强大 git主页链接 https://github.com/wwood/kingfisher-download

我试了一下这个kingfisher这个工具

代码语言:javascript
代码运行次数:0
复制
kingfisher get -r ERR043367 -m ena-ascp prefetch aws-http

需要提前安装Aspera这个工具并添加到环境变量

把一个软件临时添加到环境变量可以使用如下命令

先使用cd命令进入软件的可执行文件的目录

接下来是export PATH=PWD:PATH

计算覆盖度

首选是参考基因组构建索引

代码语言:javascript
代码运行次数:0
复制
bwa index Staphylococcus_aureus.fasta

比对

代码语言:javascript
代码运行次数:0
复制
bwa mem -M -t 16 Staphylococcus_aureus.fasta ERR043371_1.fastq ERR043371_2.fastq > output.sam

sam文件转换为bam

代码语言:javascript
代码运行次数:0
复制
samtools view -S output.sam -O bam -o output.bam

bam文件排序

代码语言:javascript
代码运行次数:0
复制
samtools sort output.bam -@ 16 -O bam -o output.sorted.bam

计算覆盖度

代码语言:javascript
代码运行次数:0
复制
bioconvert bam2cov output.sorted.bam output.cov

输出文件的部分

image.png

最后是折线图可视化
代码语言:javascript
代码运行次数:0
复制
df<-read.delim("output.cov",header=F)
dim(df)
head(df)
library(ggplot2)
pdf(file = "cov.pdf",width=10,height = 4)
ggplot(data=df,aes(x=V2,y=V3))+
  geom_line()+
  scale_y_continuous(expand=c(0,0))
dev.off()

image.png

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考基因组下载自NCBI
  • 下载原始测序数据
  • 计算覆盖度
  • 最后是折线图可视化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档