本系列[1] 将开展全新的CUT&Tag 数据处理和分析专栏。
CUT&Tag 插入文库的构造,采用 Tn5 适配器和带有条形码的 PCR 引物,具体如下所示:
常规操作是在一个 HiSeq 2500 测序通道中,对最多 90 个混合样本进行单索引 25x25 双端 Illumina 测序,每份样本都带有独特的 PCR 引物条形码。每个文库的样本量会经过调整,确保获得大约 500 万对端读数,这样就能用高特异性、高产量的抗体清晰地分析出丰富的染色质特征。那些不太显著的特征通常需要的读数较少,而如果抗体质量不高,则可能需要更多读数来构建可靠的染色质图谱。
##== linux command ==##
cores=8
ref="/path/to/bowtie2Index/hg38"
mkdir -p ${projPath}/alignment/sam/bowtie2_summary
mkdir -p ${projPath}/alignment/bam
mkdir -p ${projPath}/alignment/bed
mkdir -p ${projPath}/alignment/bedgraph
## Build the bowtie2 reference genome index if needed:
## bowtie2-build path/to/hg38/fasta/hg38.fa /path/to/bowtie2Index/hg38
bowtie2 --end-to-end --very-sensitive --no-mixed --no-discordant --phred33 -I 10 -X 700 -p ${cores} -x ${ref} -1 ${projPath}/fastq/${histName}_R1.fastq.gz -2 ${projPath}/fastq/${histName}_R2.fastq.gz -S ${projPath}/alignment/sam/${histName}_bowtie2.sam &> ${projPath}/alignment/sam/bowtie2_summary/${histName}_bowtie2.txt
双端读数使用 Bowtie2 工具进行比对,参数设置为 --end-to-end --very-sensitive --no-mixed --no-discordant --phred33 -I 10 -X 700
,用来定位长度在 10-700 bp 之间的插入片段。
关键步骤:对于我们标准的 25x25 双端测序,不需要修剪读数,因为插入片段超过 25 bp 的读数不会包含适配器序列。但如果用户进行更长的测序,就需要用 Cutadapt 工具修剪读数,并调整参数为 --local --very-sensitive --no-mixed --no-discordant --phred33 -I 10 -X 700
进行比对,以忽略读数 3’ 端可能残留的适配器序列。
Bowtie2 的比对结果概要会存储在 {projPath}/alignment/sam/bowtie2_summary/{histName}_bowtie2.txt 文件中,您可以看到类似的结果。
2984630 reads; of these:
2984630 (100.00%) were paired; of these:
125110 (4.19%) aligned concordantly 0 times
2360430 (79.09%) aligned concordantly exactly 1 time
499090 (16.72%) aligned concordantly >1 times
95.81% overall alignment rate
Reference
[1]
Source: https://yezhengstat.github.io/CUTTag_tutorial/