首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >三代测序100问(4):拨开PacBio数据迷雾——Subreads, HiFi与CCS深度解析

三代测序100问(4):拨开PacBio数据迷雾——Subreads, HiFi与CCS深度解析

作者头像
天意生信云
发布2025-05-23 11:33:13
发布2025-05-23 11:33:13
5650
举报

在三代测序的浪潮中,PacBio SMRT测序技术以其独特的长读长和直接检测表观修饰的能力,为组学研究开辟了新的视野。然而,当研究者们,特别是初次接触者,从公共数据库(如NCBI SRA)下载PacBio数据之后常常会被文件名或样本注释中出现的“subreads”、“HiFi”、“CCS”等术语弄得一头雾水。

那面对这些不同的PacBio数据类型,究竟该选择哪一种进行后续分析呢?

今天,我们就跟随山东第一医科大学李冕博士的指引,一起深入PacBio测序的内部,厘清这些概念,确保我们从数据分析的第一步就走在正确的轨道上。

探秘PacBio测序:从SMRTbell到原始信号

要理解这些数据类型的区别,我们首先需要简要回顾一下PacBio测序的核心流程。

1、文库构建——哑铃状的SMRTbell:

在PacBio测序中,待测的DNA片段会被连接上环状的测序接头(adapters),形成一个独特的“哑铃状”闭环结构,这就是所谓的SMRTbell模板。这个结构是后续实现环形测序的关键。中间部分是我们的目标测序片段。

2、环形测序——CCS模式:

测序时,DNA聚合酶会结合到SMRTbell模板的接头区域,并开始沿着环形模板进行DNA合成。由于是环形模板,聚合酶可以围绕同一个DNA分子进行多轮滚环复制。这个过程,即环形一致性测序(Circular Consensus Sequencing, CCS)模式,聚合酶会反复读取同一DNA分子的正反两条链,是PacBio获取高质量数据的核心。

PacBio数据谱系:从Polymerase Read到HiFi Read

基于上述测序过程,我们会得到不同层级的数据:

  • Polymerase Read (酶读长)

这是最原始的、未经处理的长序列。它代表了单个DNA聚合酶在单个ZMW孔中活性时间内产生的所有碱基信号,因此它包含了目标插入片段(可能被测读多次)以及两端的接头序列。一条Polymerase Read可能很长,因为它记录了聚合酶在SMRTbell上“兜圈子”的完整历程。

  • Subread (子读长)

当我们将Polymerase Read中的接头序列去除后,每一次完整通过目标插入片段(无论是正向还是反向链)所产生的序列,就称为一条Subread。因此,一条Polymerase Read通常会产生多条Subreads。这些Subreads是构成后续高质量序列的基础单元。

  • HiFi Read / CCS Read (高保真读长/环形一致性序列)

通过PacBio的CCS算法,来自同一个SMRTbell模板的多条Subreads(它们是对同一原始DNA分子的多次独立测序)会被整合起来。这个过程利用了多次测序的冗余信息进行内部校正,极大地消除了随机测序错误。

李博士打了个生动的比方:“这就像抄写一篇课文。如果你只抄一遍(相当于一条Subread),文章中可能会有不少错别字。但如果你抄写10遍,然后仔细比对每一遍的内容进行自我校正,最终就能得到一篇几乎没有错误的完美课文。”

因为这种通过多遍读取和算法校正后得到的序列具有非常高的准确度(通常碱基质量值QV在Q20即99%准确率以上,很多时候能达到Q30甚至更高),所以被称为高保真序列 (HiFi Read)。又因为它是通过CCS测序模式和算法得到的,所以也常被称为CCS Read。本质上,HiFi Read和CCS Read指的是同一种高质量的长读长序列。

分析抉择:我该用哪种数据?

理解了这些术语的来龙去脉后,李博士给出了明确的建议:

“对于绝大多数下游分析,例如基因组从头组装、结构变异检测、全长转录本分析、单核苷酸多态性(SNP)鉴定等,大家应当优先选择并使用高质量的HiFi Reads(或CCS Reads)。”

如果从公共数据库下载的数据集中只提供了Subread序列,也无需担心。大家可以通过PacBio官方提供的软件工具(如ccs命令行程序),利用这些Subreads自行生成HiFi Reads的.fastq文件,前提是原始的Polymerase Read包含了足够多次数的Subread(即有足够的覆盖度来进行有效的错误校正)。

总结

厘清PacBio的Polymerase Read、Subread与HiFi/CCS Read之间的关系,是确保后续生物信息分析准确性和可靠性的第一步。只有使用了正确类型且高质量的数据,我们才能从海量序列信息中挖掘出真正的生物学意义。

希望今天的分享能帮助同学们在未来的PacBio数据分析之旅中更加得心应手,用正确的数据,获得准确的结果!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BioOmics 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 探秘PacBio测序:从SMRTbell到原始信号
    • 1、文库构建——哑铃状的SMRTbell:
    • 2、环形测序——CCS模式:
  • PacBio数据谱系:从Polymerase Read到HiFi Read
  • 分析抉择:我该用哪种数据?
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档