Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >使用UPORA对peak进行注释

使用UPORA对peak进行注释

作者头像
生信修炼手册
发布于 2019-12-19 07:42:12
发布于 2019-12-19 07:42:12
87700
代码可运行
举报
文章被收录于专栏:生信修炼手册生信修炼手册
运行总次数:0
代码可运行

欢迎关注”生信修炼手册”!

UROPA是一个命令行工具,可以对基因组区域进行注释,这里的基因组区域要求是BED格式,比如chip,ATAC_seq等数据产生的peak区间。同时需要提供一个GTF格式的基因组注释信息,比如从UCSC,ensemble,ncbi等数据库下载的参考基因组文件。在注释结果中不仅给出了peak在基因组中的定位,还会给出对应的正负链,与基因的距离,对应的基因类型等较为全面的注释信息。官方文档网址如下

https://uropa-manual.readthedocs.io/introduction.html

该软件根据peak的中心与基因的相对位置,将peak的基因组定位划分为以下几种类型,示意如下

提供了多种安装方式,这里我采用的是直接拉取官方的docker镜像,用法如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
docker pull loosolab/uropa

该软件需要三个输入文件:

  1. GTF格式的注释文件
  2. BED格式的peak文件
  3. JSON格式的配置文件

用法也比较简便, 我使用官方的是测试数据,步骤如下

1. 下载GTF格式的基因组注释文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz
gunzip Homo_sapiens.GRCh37.75.gtf.gz
2.下载bed格式的peak区间文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wget https://www.encodeproject.org/files/ENCFF966LMJ/@@download/ENCFF966LMJ.bed.gz
gunzip ENCFF966LMJ.bed.gz
3. 准备JSON格式的配置文件

配置文件内容如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{
"queries": [
        {"feature":"gene", "distance":5000, "feature.anchor": "start", "show.attributes":"gene_name"},
        {"feature": "gene","distance":5000, "feature.anchor":"center"}],
"priority" : "False",
"gtf": "/home/soft/uropa/Homo_sapiens.GRCh37.75.gtf",
"bed": "/home/soft/research/uropa/ENCFF966LMJ.bed"
}

配置文件命名为config.json, 代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
docker run \
--rm \
-v /home:/home \
loosolab/uropa \
uropa \
-i /home/soft/uropa/config.json 
\-p /home/soft/uropa/uropa

-i参数指定配置文件的路径,-p指定输出文件的前缀。输出文件如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
├── uropa_allhits.txt
├── uropa_besthits.txt
└── uropa_finalhits.txt

这三个文件内容相同,只是行数不同,内容示意如下

软件会自动给每一个peak一个id, 可以直观的看到peak与基因之间的关系,更多用法和细节请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
生信技能树-day18 转录组上游分析-比对、定量
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
生信菜鸟团
2024/06/25
4890
生信技能树-day18 转录组上游分析-比对、定量
转录组参考基因-5
首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。
生信菜鸟团
2024/07/10
1250
转录组参考基因-5
保姆级参考基因组及其注释下载教程(图文详解)
自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组。
生信菜鸟团
2021/07/05
12.6K0
保姆级参考基因组及其注释下载教程(图文详解)
转录组测序分析专题——比对/定量
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/gu ide/human/index.shtml
yurric
2023/10/26
9790
(15)基因组各种版本对应关系-生信菜鸟团博客2周年精选文章集
这是我的成名作: 首先是NCBI对应UCSC,对应ENSEMBL数据库: GRCh36 (hg18): ENSEMBL release_52. GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75. GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82. 可以看到ENSEMBL的版本特别复杂!!!很容易搞混! 但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38 看起来N
生信技能树
2018/03/08
1.9K0
生信分析过程中这些常见文件的格式以及查看方式你都知道吗?
生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式。在分析的过程中还会有众多中间文件的生成,如bed、bed12、sam、bam、wig、bigwig、bedgraph等,生成后我们一般会查看下内容了解文件每一列的含义,以此来决定需要提取哪些有用信息列来进行下一步分析。
生信宝典
2019/10/14
2.6K0
生信分析过程中这些常见文件的格式以及查看方式你都知道吗?
转录组数据分析-比对
Ensembl:www.ensembl.org #用得最多数据库完善有基因对应的ID
用户10412487
2023/05/09
6610
玩转参考基因组
在研究基因序列层面变化的时候,对基因组序列有一个全面的认知及学会怎么对序列基本操作十分重要。
生信菜鸟团
2025/04/15
1640
玩转参考基因组
DNBC4tools—华大DNBelab系列单细胞分析pipeline
DNBseq(DNA Nanoball Sequencing) 是华大基因自主研发的高通量测序技术,核心基于 DNA纳米球(DNA Nanoball,DNB)和高密度测序芯片。与传统NGS技术(如Illumina的桥式PCR扩增)不同,DNBseq避免了PCR扩增导致的重复误差,通过线性扩增生成单链DNA纳米球,结合联合探针锚定聚合(cPAS)技术进行测序。
生信菜鸟团
2025/05/21
2740
DNBC4tools—华大DNBelab系列单细胞分析pipeline
使用ChIPseeker进行peak注释
首先我们需要输入peak文件,支持两种格式,第一种是BED格式,最少只需要3列内容记录peak的染色体位置就可以了,示意如下
生信修炼手册
2019/12/19
4.3K0
使用ChIPseeker进行peak注释
不可不知的基因组版本对应关系
不同版本对应关系 hg19,GRCH37和Ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的基因组信息。 hg系列,hg18/19/38来自UCSC,也是目前使用频率最高的基因组。从出道至今我就只看过hg19了,但是建议大家都转为hg38,因为它是目前的最新版本。 基因组各种版本对应关系综合来看如下所示: GRCh36 (hg18): ENSEMBL release_52. GRCh37 (hg19): ENSEMBL release_59/61/6
生信技能树
2018/03/08
3.8K0
基于Salmon的转录组定量流程
Salmon是不基于比对计数而直接对基因进行定量的工具,适用于转录组、宏基因组等的分析。
生信宝典
2020/12/15
3.6K0
单细胞实战(三) Cell Ranger使用初探
然后利用Filezilla下载其中SRR7722937的R1、R2的html,打开看下
生信技能树jimmy
2020/03/27
7.2K1
基因组注释文件(GFF,GTF)下载的四种方法
Ncbi 里包含现在最全的参考基因组数据,可以进入FTP站点查看:ftp://ftp.ncbi.nlm.nih.gov/genomes/
白墨石
2021/01/13
7.3K0
基因组注释文件(GFF,GTF)下载的四种方法
转录组上游分析流程(四)
环境部署——数据下载——查看数据(非质控)——数据质控——数据过滤(过滤低质量数据)——数据比对及定量
凑齐六个字吧
2024/10/26
2030
转录组上游分析流程(四)
VEP — 高效的变异注释工具
Ensembl Variant Effect Predictor (VEP) 是由欧洲生物信息研究所(European Bioinformatics Institute, EMBL-EBI)开发的一个高效的基因变异注释工具。VEP是一个强大的工具,其具有以下特性:
生信菜鸟团
2024/04/11
2.1K0
VEP — 高效的变异注释工具
转录组—上游分析_如何拿到count矩阵
本文档记录GSE149638数据集中下载SRR11652578和SRR11652615原始数据
sheldor没耳朵
2024/08/12
5181
转录组—上游分析_如何拿到count矩阵
学员的转录组实战笔记之胰腺癌差异
第一个数据集是胰腺癌的癌症和癌旁或者其它对照组织差异,就12个样品,处理起来比较方便,第二个数据集样品数量稍微有一点点多,后面有机会再处理它。文章描述的转录组测序数据的生物信息学处理方法非常陈旧了:
生信技能树
2023/09/04
3090
学员的转录组实战笔记之胰腺癌差异
转录组 - 比对
生信技能树学习笔记 参考基因组准备 常用参考基因组 Ensembl asia.ensembl.org/index.html NCBI UCSC ## 进入参考基因组目录 mkdir -p $HOME/database/GRCh38.105 cd $HOME/database/GRCh38.105 ## 下载基因组 ## 一般选择primary assembly,没有的话可以选择toplevel nohup wget -c https://ftp.ensembl.org/pub/release-105/fa
用户10328045
2023/03/02
1.4K0
linux命令行文本操作一文就够
主要是 awk/grep/sed这三驾马车,加上vi这个神器,最后辅助一些小工具,包括 wc,cat,diff,join,paste,cut,uniq 这里 简要地整理下Linux用来处理数据文本的工
生信技能树
2018/03/09
4K0
推荐阅读
相关推荐
生信技能树-day18 转录组上游分析-比对、定量
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验