运行STAR后,我们将reads比对到了参考序列上。接下来,我们需要使用RSEM进行转录本定量。
## 下载 RSEM
wget -c https://github.com/deweylab/RSEM/archive/v1.3.1.tar.gz
## 安装 RSEM
make
make install
在开始定量前,我们同样需要构建索引。
## 构建索引
rsem-prepare-reference --gtf genome.gtf genome.fa reference_name -p 8
--gtf genome.gtf:输入基因组GTF注释文件。
genome.fa:基因组文件。
reference_name:索引名称。
-p:线程数。
构建好索引后,就可以开始定量啦!
## 定量
rsem-calculate-expression --paired-end -no-bam-output --alignments -p 8 input_Aligned.toTranscriptome.out.bam reference_name out_prefix
--paired-end:表示输入的数据为双端测序数据。
-no-bam-output:不输出BAM文件。
--alignments:输入文件为BAM文件。
-p:线程数。
input_Aligned.toTranscriptome.out.bam:运行完STAR后生成的reads比对至转录本的BAM文件。
reference_name:索引名称。
out_prefix:输出文件前缀。
运行完成后,可以看到输出了两个文件和一个文件夹。
genes.results和isoforms.results分别是基于基因和转录本水平的定量结果。
isoforms.results中包含了转录本ID,基因ID,转录本长度,有效长度,expected_count,TPM,FPKM和IsoPct(该转录本表达量占基因总表达量的百分比)。genes.results中的内容与之类似,只是少了IsoPct。
参考资料:
https://deweylab.github.io/RSEM/README.html
https://www.bioinfo-scrounger.com/archives/482/