前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >使用Tbtools根据gtf文件统计基因密度

使用Tbtools根据gtf文件统计基因密度

作者头像
用户7010445
发布2021-07-30 10:41:27
发布2021-07-30 10:41:27
1.4K00
代码可运行
举报
运行总次数:0
代码可运行

做长链非编码RNA(lncRNA)的数据分析,有一个部分是比较mRNA和lncRNA在染色上的分布密度,做完Hisat2——stringtie流程能够分别拿到mRNA和lncRNA的gtf格式注释文件,那如何根据这两个文件按指定的步长计算基因密度呢?

经过搜索找到了非常方便的工具是tbtools

参考推文 TBtools | 全基因组 - 基因密度统计,充实你的图片

  • 1 是输入的gtf文件
  • 2 是步长
  • 3 Defined Feature Tag 这个是什么意思暂时没有搞明白 默认的是Guess,如果采用默认我这边会遇到报错,改成exon就可以了
  • 输出文件的路径

最终部分结果

这里遇到一个问题是不是从小到大依次排列下来的,这个可以后续改

也可以先把自己的gtf文件里的顺序更改一下,使用到的工具是 Tbtools里的 GXF Fix

这里参考 完美 | GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3

还找到了一个R语言的代码可以统计基因密度

参考链接 https://davetang.org/muse/2017/08/04/read-gtf-file-r/ https://www.biostars.org/p/169171/

代码

代码语言:javascript
代码运行次数:0
运行
复制
library(dplyr)
library(rtracklayer)
my_obj<-import("gene_density/i.gtf")
my_obj
my_obj@seqinfo@seqlengths<-read.table("gene_density/chr_len.txt",header=F,sep="\t")$V2

my_obj@seqnames@values
my_obj@seqnames@lengths


seqinfo(my_obj)
pome.windows = tileGenome(seqinfo(my_obj), tilewidth=100000, cut.last.tile.in.chrom=T)
pome.windows$totalgenes<-countOverlaps(pome.windows,my_obj)
data.frame(pome.windows) %>% 
  write.table(file = "gene_density/1.tsv",quote=F,row.names = F,sep="\t")

pome.windows = tileGenome(seqinfo(reduce(my_obj)), tilewidth=100000, cut.last.tile.in.chrom=T)
pome.windows$totalgenes<-countOverlaps(pome.windows,reduce(my_obj))
data.frame(pome.windows) %>% 
  write.table(file = "gene_density/1-1.tsv",quote=F,row.names = F,sep="\t")

但是这个结果好像不对,暂时看不太懂这个代码

也计划自己写脚本统计了,但是这个逻辑自己还没想明白

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档