在前面的系列文章中,我们一同领略了纳米孔直接RNA测序(Direct RNA Sequencing, DRS)技术如何为我们打开一扇直视RNA“原始手稿”的窗户。最近,李老师收到了许多老师和同学的进一步咨询,希望了解其详细的分析思路与流程。应大家的要求,我们将分两期内容,系统地梳理DRS数据从原始信号到生物学洞见的完整分析路径。
正如我们所知,DRS技术能够在一个测序反应中,完整地记录RNA分子的多维度信息。它不仅可以准确鉴定转录本并定量其表达水平,还能同步解析RNA上的天然化学修饰(如m6A),并精确计算每个分子的poly(A)尾长度。这种前所未有的信息丰富度,也意味着其下机的原始电流信号数据需要更为精细和专业的处理步骤。
分析之旅的起点,是测序仪产生的最原始的电流信号数据。在纳米孔测序的历史中,存储这些信号的格式经历了一次重要的演进:
这是整个分析流程中至关重要的一步,其任务是将原始的、连续的电流信号波形,精准地转化为离散的碱基序列。
--modified-bases:要启用碱基修饰的检测,必须使用此选项。
○ --modified-bases-models:紧接着,需要指定需要检测的碱基修饰类型及其上下文序列模型。例如,要检测经典的m6A修饰,就需要指定其所在的DRACH基序模型(如6mA_DRACH)。只有这样,Dorado才会在输出的BAM文件中,为检测到的修饰碱基打上相应的标签。
○ --estimate-poly-a:为了获得每个转录本的poly(A)尾长度信息,务必加上此参数。Dorado会利用信号特征来估算poly(A)尾的长度,并将结果记录在BAM文件的标签中。

在获得初步的碱基序列后,我们并不能直接进入下游分析,而是需要对其进行严格的质量评估和过滤。
NanoPlot工具,对basecalling后的数据进行全面的质量评估,包括但不限于reads的平均质量分数分布、长度分布、数据产量等,从而对测序运行的整体情况有一个清晰的认识。Chopper工具对数据进行过滤,例如去除平均质量分数低于某一阈值的低质量序列,或者剔除长度过短的片段(可能是RNA降解产物)。当然,正如我们之前介绍过的fastp的“长读长兄弟”——fastplong,也可以在这里一步完成质量评估和过滤,为追求效率的研究者提供了便利。经过以上三个步骤,我们已经将原始的、嘈杂的电流信号,转化为了高质量、信息丰富的碱-基序列文件(通常是包含了修饰和poly(A)信息的BAM或FASTQ格式)。至此,数据预处理阶段基本完成,我们已经为后续的生物学问题解析做好了充分的准备。
关于接下来的核心分析内容,包括常规的转录组定量与差异分析、新转录本的重构与鉴定、可变剪接分析,以及DRS技术特有的RNA甲基化分析和poly(A)尾长度分析等,我们将在下一期节目中为大家详细展开。
好了,这期内容就到这里,我们下期再见!