SAM ( Sequence Alignment Map ) 文件是reads比对到基因组后得到的结果文件,记录了reads mapping到基因组的各项信息。BAM文件是SAM文件的二进制格式,保留SAM文件全部信息的同时极大压缩了SAM文件的体积,我们比对完成后获得的一般都是BAM文件。
SAM文件由两部分组成:注释信息 (header) 和比对结果。
## 查看 BAM 文件的 header
samtools view -h input.bam | head
注释信息 (header) 包括:
@HD:VN表示版本,SO表示排序方式。
@SQ:SN表示参考序列的名称,LN表示参考序列的长度。
@PG:比对时使用的工具指令。
@RG:样本信息。
@CO:其他注释信息。
比对结果主要包括11列信息:
1. QNAME:reads名称。
2. FLAG:reads比对情况。不同的情况对应不同的值,这里的数字是所有情况的和。
3. RNAME:比对至参考序列的名称。
4. POS:比对到的位置。
5. MAPQ:比对质量。
6. CIGAR:比对情况信息。
7. RNEXT:与之配对的另一条reads所在的参考序列名称。"="表示位于同一个参考序列上,"*"表示没有另一条reads。
8. PNEXT:与之配对的另一条reads所在的位置。
9. TLEN:插入片段长度。
10. SEQ:reads序列。
11. QUAL:reads序列质量。
除了这11列信息外,还有一些其他信息:
NH:i:n 表示reads比对到参考序列位置的个数。
AS:i:n 表示比对得分。
遇到不认识的缩写时,可以在https://www.samformat.info/sam-format-alignment-tags查询。
参考资料:
http://samtools.github.io/hts-specs/SAMv1.pdf
http://samtools.github.io/hts-specs/SAMtags.pdf