得到fastq格式的nanopore测序数据就可以开始分析了,但是先别急,我们需要先对fastq格式文件进行一下处理,先不要着急拿过来就开始分析,我见过很多人,拿过来数据之后就开始做拼接,然后就等着错误的结果,然后在使用更多时间来找原因。心有猛虎,也要细嗅蔷薇。
fastq文件格式
fastq格式是一种包含质量值的序列文件,其中的q为quality,一般用来存储原始测序数据,扩展名一般为fastq或者fq。目前illumina测序,BGISEQ,Ion Torrent,pacbio,nanopore都以fastq格式存储测序数据,其中illumina,BGISEQ一般是双末端测序,一般是一对文件,命名为_R1.fq.gz与_R2.fq.gz。下面是fastq格式常见的序列格式。
第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;
第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;
第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。
质量值体系
上面提到fastq格式中的q代表质量值,因此fastq格式中质量值具有重要的作用,在很多的分析中会用到这个质量值,例如数据质控,数据过滤,序列拼接,短序列比对,变异检测中都要用到这个质量值。
图2 Phred质量值
这个质量值是基于phred质量值体系,但是由于单个碱基无法与两位的质量值相匹配,例如A碱基对应的质量值为40,一个A字符对应两个字符40,因此需要将原始质量值加上33或者64,在转换为对应的ASCII码值,为何加33,因为33以下ASCII码无法用键盘字符表示出来。illumina测序1.8版本以上加33,以下加64。
软件安装
处理fastq格式文件可以使用seqkit和seqtk工具,这两个小工具类似,seqkit功能更多一些,可以处理fastq和fasta格式,非常方便,可以说是序列处理的“瑞士军刀,可以使用bioconda进行安装;
fastq文件格式处理案例
案例一:合并guppy结果
案例二:压缩与解压缩
案例三:文件统计
案例四:排序
案例五:过滤短的序列
案例六:质量值转换
案例七:抽样
案例八:拆分数据
案例九:转换为fasta
案例十:截取部分
---------- END ----------
(添加作者微信,请注明单位姓名)
您可能还会感兴趣的
领取专属 10元无门槛券
私享最新 技术干货