Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >巧用TagAlign格式来进行ATAC中的shift reads操作

巧用TagAlign格式来进行ATAC中的shift reads操作

作者头像
生信修炼手册
发布于 2020-05-07 08:15:56
发布于 2020-05-07 08:15:56
1.6K00
代码可运行
举报
文章被收录于专栏:生信修炼手册生信修炼手册
运行总次数:0
代码可运行

由于Tn5转座酶的特性,在ATAC数据分析中,首选需要对bam文件中reads的比对位置进行shift, 然后再进行peak calling。那么如何进行这一操作呢?直接修改bam文件中reads的比对区域吗?

当然你可以这样操作,但是bam文件的读写是一个非常费时的操作,因为bam文件中包含了序列,比对位置等完整信息,文件非常大。对于下游分析而言,其核心信息是reads比对到参考基因组上的位置,就是坐标,我们只需要提取这个坐标,然后进行shift操作就可以了,此时可以借助TagAlign这一格式来操作,更加简单方便。

首先来了解下什么是TagAlign格式。在使用macs进行peak calling时,除了输入样本对应的BAM/SAM文件之外,还可以输入BED文件。BAM文件我们都非常熟悉,将序列比对到基因组之后就可以产生这样的文件,各个比对软件也支持输出BAM/SAM格式。这种格式的文件记录了序列的比对情况,根据这个文件可以计算出基因组上的测序深度分布,从而比较不同样本的分布进行peak calling, 那么BED文件又是怎么一回事呢?

在BAM文件中,最核心的信息是序列和基因组区域的对应关系,即那些序列比对上了基因组上的哪些区域,这个信息通过BED格式也是可以来记录的。在bedtools中也提供了bamtobed的功能,基本用法如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
bedtools  bamtobed -i input.bam > out.bed

输出内容示意如下

前三列表示reads比对上的染色体位置,第四列为reads的名称,第五列代表比对的质量值MAPQ,第六列代表正负链信息。

这种6列的BED文件在ENCODE被命名为tagAlign格式,详细解释参见如下链接

https://genome.ucsc.edu/FAQ/FAQformat.html#format13

对于双端测序的数据,还有一个特殊的bed格式-bedpe, 用法如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
bedtools  bamtobed  -i input.bam  -bedpe > out.bed

内容示意如下

bedpe格式在一行中显示了R1和R2两个reads的比对情况,列数为10列。

对于单端序列。直接用bed格式就可以;对于双端序列,推荐用bedpe格式。这两种格式都可以称之为tagAlign,可以作为macs的输入文件。

tagAligen格式相比bam,文件大小会小很多,更加方便文件的读取。在转换得到tagAlign格式之后,我们就可以很容易的将坐标进行偏移,代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
zcat sample.tagAlign.gz | \
awk -F '\t' 'BEGIN {OFS = FS}{ \
  if ($6 == "+") {$2 = $2 + 4} \
  else if ($6 == "-") {$3 = $3 - 5} \
  print $0}' | \
gzip -nc sample.tn5.shitf.tagAlign.gz

用偏移之后的文件进行peak calling即可。代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
macs2 callpeak \
-t  sample.tn5.shitf.tagAlign.gz \
-f BED \
--nomodel \
--shift -75 \
--extsize 150 \
-B \
-n sample \
-g hs

在Encode的ATAC分析pipeline中,就是采用上述方法进行reads的偏移和peak calling操作的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
手把手教你计算FRiP score的值
在Encode的ATAC文库质控标准中,认为一个高质量的文库其FRiP score值应该大于0.03,最低也要大于0.02。FRiP全称如下
生信修炼手册
2020/05/07
3.9K0
一个优秀的ATAC-seq数据分析资源实战(二)
之前我们给大家介绍了两篇ATAC-Seq数据分析pipeline的优秀综述:综述:ATAC-Seq 数据分析工具大全 和 Omni-ATAC:更新和优化的ATAC-seq协议(NatProtoc),我们今天就来实战介绍!
生信技能树
2025/02/28
2970
一个优秀的ATAC-seq数据分析资源实战(二)
第3篇:用MACS2软件call peaks
Peak calling即利用计算的方法找出ChIP-seq或ATAC-seq中reads富集的基因组区域。
生信技能树
2018/09/21
9.2K0
第3篇:用MACS2软件call peaks
数据分析-cuttag分析流程分享1-linux代码流程分析
老板最近比较痴迷于各种seq,由于俩师姐外加一师妹的chip-seq建库老不成功,于是改成了CUTTAG建库,其实读了文献,发现都是相似的原理,只不过是CUTTAG用的细胞起始量远低于chip-seq,同时用的酶不同,建库的时间相对少很多。具体可以参考一下这篇文献CUT&Tag for efficient epigenomic profiling of small samples and single cell(doi:10.1038/s41467-019-09982-5)。
小胡子刺猬的生信学习123
2022/04/03
7.9K1
数据分析-cuttag分析流程分享1-linux代码流程分析
ATAC-seq实操
本实操完全学习了:给学徒的ATAC-seq数据实战(附上收费视频) 的代码及流程,首先致谢!
生信技能树
2018/11/05
7.2K2
分享 | ATAC-Seq 分析流程
ATAC-Seq 是“Assay for Transposase-Accessible Chromatin with high-throughput Sequencing”的缩写。 ATAC-Seq 方法依赖于使用高活性转座酶 Tn5 的下一代测序(NGS)文库的构建。将 NGS 接头连接到转座酶上,该转座酶可以使染色质断裂并同时将这些接头整合到开放的染色质区域中。构建的文库可通过 NGS 测序,并使用生物信息学分析具有可及或可访问染色质的基因组区域。
用户7010445
2024/06/18
1.1K0
分享 | ATAC-Seq 分析流程
划重点|ATAC的peak shift需要这样做
ATAC使用Tn5转座酶来完成文库的构建工作,Tn5转座酶在连接adapter序列时,会存在9bp的gap,如下图所示
生信修炼手册
2020/05/07
2.6K1
一篇文章学会ChIP-seq分析(下)
写在前面:《一篇文章学会ChIP-seq分析(上)》《一篇文章学会ChIP-seq分析(下)》为生信菜鸟团博客相关文章合集,共九讲内容。带领你从相关文献解读、资料收集和公共数据下载开始,通过软件安装、数据比对、寻找并注释peak、寻找motif等ChIP-seq分析主要步骤入手学习,最后还会介绍相关可视化工具。 第五讲:测序数据比对 比对就很简单的了,各种mapping工具层出不穷,我们一般常用的就是BWA和bowtie了,我这里就挑选bowtie2吧,反正别人已经做好了各种工具效果差异的比较,我们直接用就
生信技能树
2018/03/08
12.4K0
一篇文章学会ChIP-seq分析(下)
tagAlign格式在MACS软件中的运用
在使用macs进行peak calling时,除了输入样本对应的BAM/SAM文件之外,还可以输入BED文件。BAM文件我们都非常 熟悉,将序列比对到基因组之后就可以产生这样的文件,各个比对软件也支持输出BAM/SAM格式。这种格式的文件记录了序列的比对情况,根据这个文件可以计算出基因组上的测序深度分布,从而比较不同样本的分布进行peak calling, 那么BED文件又是怎么一回事呢?
生信修炼手册
2019/12/19
1.5K0
tagAlign格式在MACS软件中的运用
给学徒的ATAC-seq数据实战
本次给学徒讲解的文章是 :The landscape of accessible chromatin in mammalian preimplantation embryos. Nature 2016
生信技能树
2018/09/21
6.3K0
给学徒的ATAC-seq数据实战
Omni-ATAC:更新和优化的ATAC-seq协议(NatProtoc)
标题:Chromatin accessibility profiling by ATAC-seq
生信技能树
2025/02/05
1540
Omni-ATAC:更新和优化的ATAC-seq协议(NatProtoc)
ATAC-seq或者ChIP-seq等表观测序数据处理服务
ATAC-seq或者ChIP-seq等表观测序数据,需要比对到参考基因组并且找其峰值(peaks)并且进行基因功能元件注释或者motif注释,我们仅仅是收取一个计算机资源的费用,800-1600元人民币(根据样品数量不同收费不一样)即可,并且提供全套代码。不管是公共数据集还是你自己的实验测序数据,一样的费用!我们会代替你跑如下所示的流程:
生信技能树
2021/10/21
1.9K0
ATAC-seq或者ChIP-seq等表观测序数据处理服务
吊打ChIP-seq的CUT&Tag技术
研究者们做了棉花材料的表观测序,主要是比较最新的技术 cleavage under targets and tagmentation (CUT&Tag)和以前的 chromatin immunoprecipitation with sequencing (ChIP-seq) 技术,结论是 CUT&Tag技术实验流程更快,对peaks的分辨率更高,而且背景噪音更小。
生信技能树
2021/04/15
1.6K0
ATAC-seq经典分析流程(上)
--split-3 把双端测序数据拆分成两个文件,对单端测序数据不起作用.fastq-dump默认会把双端测序结果保存到一个文件里
生信菜鸟团
2023/12/28
2.6K0
ATAC-seq经典分析流程(上)
F-seq:一个古老的peak calling工具
F-seq软件发明于2008年,其作用就是peak calling, 从一堆NGS测序数据中发现有意义的位点,既适用chip-seq数据,也适用于DNase-seq的数据,官网如下
生信修炼手册
2020/05/07
7200
引用2000多次的ATAC经典文献也在用的peak calling软件-Genrich
这篇文章中,使用了Genrich这个软件来进行peak calling。该软件适用于chip_seq, DNase_seq, ATAC_seq等多种文库的peak calling,源代码保存在github上,链接如下
生信修炼手册
2020/05/07
1.3K0
10X scATAC-seq的结果 fragment files 含义
参考:https://www.archrproject.com/bookdown/a-brief-primer-on-atac-seq-terminology.html
生信技能树
2025/05/26
1060
10X scATAC-seq的结果 fragment files 含义
narrow,broad, gapped peak:三种格式之间的区别与联系
peak被定义为基因组上一段reads富集的区域,核心信息是在染色体上的起始和终止位置,除此之外,还有软件对于该peak区域的打分,比如常见的pvalue, qvalue, fold_enrichment等值。
生信修炼手册
2019/12/19
1.9K0
narrow,broad, gapped peak:三种格式之间的区别与联系
在R语言中的 ATACseq 数据分析全流程实战(五):peaks质控 & peaks 注释
本帖子学习资源:https://rockefelleruniversity.github.io/RU_ATACseq/
生信技能树
2025/03/31
1440
在R语言中的 ATACseq 数据分析全流程实战(五):peaks质控 & peaks 注释
ChIP-Seq 分析流程-上游
目前来说,分析工具肯定不止这些,每一步都有可替换的工具,甚至有些工具已经有所更新。但我感觉都差不多,感觉不行咱就换!
生信菜鸟团
2025/02/18
2260
ChIP-Seq 分析流程-上游
相关推荐
手把手教你计算FRiP score的值
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验