首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >三代测序100问(18):纳米孔直接RNA测序分析流程(上)——从原始信号到高质量序列

三代测序100问(18):纳米孔直接RNA测序分析流程(上)——从原始信号到高质量序列

作者头像
天意生信云
发布2025-11-20 16:28:11
发布2025-11-20 16:28:11
210
举报

在前面的系列文章中,我们一同领略了纳米孔直接RNA测序(Direct RNA Sequencing, DRS)技术如何为我们打开一扇直视RNA“原始手稿”的窗户。最近,李老师收到了许多老师和同学的进一步咨询,希望了解其详细的分析思路与流程。应大家的要求,我们将分两期内容,系统地梳理DRS数据从原始信号到生物学洞见的完整分析路径。

正如我们所知,DRS技术能够在一个测序反应中,完整地记录RNA分子的多维度信息。它不仅可以准确鉴定转录本并定量其表达水平,还能同步解析RNA上的天然化学修饰(如m6A)并精确计算每个分子的poly(A)尾长度。这种前所未有的信息丰富度,也意味着其下机的原始电流信号数据需要更为精细和专业的处理步骤。

第一步:原始数据格式——从FAST5到POD5的演进

分析之旅的起点,是测序仪产生的最原始的电流信号数据。在纳米孔测序的历史中,存储这些信号的格式经历了一次重要的演进:

  • FAST5格式: 这是早期纳米孔测序平台采用的标准格式。它基于HDF5(Hierarchical Data Format 5)构建,能够将原始电流信号(squiggles)、事件数据以及后续碱基识别的结果存储在同一个文件中。
  • POD5格式: 近两年来,为了提升大规模数据处理中的文件读写速度,并优化计算资源的利用效率,ONT推出了全新的POD5文件格式。POD5格式经过专门优化,显著改善了数据存取性能,现已逐步取代FAST5,成为当前主流的原始信号存储格式。

第二步:碱基识别(Basecalling)——解码电流信号

这是整个分析流程中至关重要的一步,其任务是将原始的、连续的电流信号波形,精准地转化为离散的碱基序列。

  • 核心工具——Dorado: 目前,ONT官方推荐使用其最新一代的高性能basecaller——Dorado。通过调用Dorado的basecaller命令,我们可以高效地完成这一转化过程。
  • 关键参数的设定: 在进行DRS数据的basecalling时,为了充分挖掘其多维信息,必须特别注意几个关键参数的设置: ○ --modified-bases:要启用碱基修饰的检测,必须使用此选项。 ○ --modified-bases-models:紧接着,需要指定需要检测的碱基修饰类型及其上下文序列模型。例如,要检测经典的m6A修饰,就需要指定其所在的DRACH基序模型(如6mA_DRACH)。只有这样,Dorado才会在输出的BAM文件中,为检测到的修饰碱基打上相应的标签。 ○ --estimate-poly-a:为了获得每个转录本的poly(A)尾长度信息,务必加上此参数。Dorado会利用信号特征来估算poly(A)尾的长度,并将结果记录在BAM文件的标签中。

第三步:质量评估与过滤——确保数据纯度

在获得初步的碱基序列后,我们并不能直接进入下游分析,而是需要对其进行严格的质量评估和过滤。

  • 质量评估(Quality Control, QC): 我们可以使用经典的NanoPlot工具,对basecalling后的数据进行全面的质量评估,包括但不限于reads的平均质量分数分布、长度分布、数据产量等,从而对测序运行的整体情况有一个清晰的认识。
  • 数据过滤(Filtering): 根据QC结果,我们可以使用Chopper工具对数据进行过滤,例如去除平均质量分数低于某一阈值的低质量序列,或者剔除长度过短的片段(可能是RNA降解产物)。当然,正如我们之前介绍过的fastp的“长读长兄弟”——fastplong,也可以在这里一步完成质量评估和过滤,为追求效率的研究者提供了便利。

承上启下:为下游分析做好准备

经过以上三个步骤,我们已经将原始的、嘈杂的电流信号,转化为了高质量、信息丰富的碱-基序列文件(通常是包含了修饰和poly(A)信息的BAM或FASTQ格式)。至此,数据预处理阶段基本完成,我们已经为后续的生物学问题解析做好了充分的准备。

关于接下来的核心分析内容,包括常规的转录组定量与差异分析、新转录本的重构与鉴定、可变剪接分析,以及DRS技术特有的RNA甲基化分析和poly(A)尾长度分析等,我们将在下一期节目中为大家详细展开。

好了,这期内容就到这里,我们下期再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BioOmics 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一步:原始数据格式——从FAST5到POD5的演进
  • 第二步:碱基识别(Basecalling)——解码电流信号
  • 第三步:质量评估与过滤——确保数据纯度
  • 承上启下:为下游分析做好准备
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档