首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

nanopore测序技术专题:fastq文件探索

得到fastq格式的nanopore测序数据就可以开始分析了,但是先别急,我们需要先对fastq格式文件进行一下处理,先不要着急拿过来就开始分析,我见过很多人,拿过来数据之后就开始做拼接,然后就等着错误的结果,然后在使用更多时间来找原因。心有猛虎,也要细嗅蔷薇。

fastq文件格式

fastq格式是一种包含质量值的序列文件,其中的q为quality,一般用来存储原始测序数据,扩展名一般为fastq或者fq。目前illumina测序,BGISEQ,Ion Torrent,pacbio,nanopore都以fastq格式存储测序数据,其中illumina,BGISEQ一般是双末端测序,一般是一对文件,命名为_R1.fq.gz与_R2.fq.gz。下面是fastq格式常见的序列格式。

第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;

第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;

第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);

第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。

质量值体系

上面提到fastq格式中的q代表质量值,因此fastq格式中质量值具有重要的作用,在很多的分析中会用到这个质量值,例如数据质控,数据过滤,序列拼接,短序列比对,变异检测中都要用到这个质量值。

图2 Phred质量值

这个质量值是基于phred质量值体系,但是由于单个碱基无法与两位的质量值相匹配,例如A碱基对应的质量值为40,一个A字符对应两个字符40,因此需要将原始质量值加上33或者64,在转换为对应的ASCII码值,为何加33,因为33以下ASCII码无法用键盘字符表示出来。illumina测序1.8版本以上加33,以下加64。

软件安装

处理fastq格式文件可以使用seqkit和seqtk工具,这两个小工具类似,seqkit功能更多一些,可以处理fastq和fasta格式,非常方便,可以说是序列处理的“瑞士军刀,可以使用bioconda进行安装;

fastq文件格式处理案例

案例一:合并guppy结果

案例二:压缩与解压缩

案例三:文件统计

案例四:排序

案例五:过滤短的序列

案例六:质量值转换

案例七:抽样

案例八:拆分数据

案例九:转换为fasta

案例十:截取部分

---------- END ----------

(添加作者微信,请注明单位姓名)

您可能还会感兴趣的

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191113A00F8U00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券