条码是插入到捕获序列中的特定点的小片段寡核苷酸,它们提供了关于序列的两个信息点:
当序列与参考基因组进行比对时,我们便可以看到它与哪个基因位点对齐,并据此定性地断言,结合上述两条信息,该序列描绘了来自特定细胞的特定基因的转录本。
条码有多种格式,在本教程中,我们将研究用于基于液滴的单细胞 RNA-seq 的 CEL-Seq2 协议。
CEL-Seq2 是一种配对末端协议,意味着两个引物结合到 cDNA 链的两端以进行测序。每个引物都有特定的角色。
在这种情况下;Read1 包含条码信息,随后是信使 RNA 的 polyT 尾部,而 Read2 包含实际的序列。在这里,Read1 被视为“正向”链,Read2 被视为“反向”链,尽管这更多是处理成对末端数据时的惯例,而不是实际链方向的指示。
细胞条码主要设计用于区分一个细胞与另一个细胞,这样包含不同细胞条码的读取转录本可以轻易地说是来自不同的细胞。
转录本条码,是同时添加到每个转录物上的随机核苷酸序列。
请注意两件事情:
转录条码通常不是唯一的。当你考虑到一个哺乳动物细胞中大约有 200,000 个 mRNA 时(Shapiro et al. 2013),这一点就变得很明显了,这将需要超过 9 个核苷酸长度的条码来捕获,假设没有测序错误的情况下。
转录本条码的目的是为了减少在扩增过程中非线性发生的重复读取的影响。
为此,转录本条码不需要是唯一的。只要我们知道给定的读取映射到特定的转录本(即映射到转录组后),我们就可以基于以下因素评估该读取的独特性:
为了充分探索计数的独特性,我们必须讨论在单细胞分析中包含唯一分子标识符(UMIs)。
单细胞测序中一个主要的问题是,测序前需要对读片段进行扩增。一个基因如果只有一个 mRNA 转录本,大多数测序仪是无法检测到的,因此需要将其复制 100-1000 倍,以便测序仪能够“看到”它。
扩增是一个不精确的过程,因为一些读段比其他读段扩增得更多,随后的扩增可能会导致这些过度扩增的读段进一步过度扩增,导致某些读段相对于其他读段的指数级偏差。
注意: 下面的例子中没有显示细胞条形码,我们假设它们之前已经添加到我们的转录本中了。
考虑上述例子,其中来自不同转录本的两个读取被不均匀地放大。
但实际上是完全不同的(即基因红应该有 1 个计数,基因蓝也应该有 1 个计数)。我们如何纠正这种偏差?
唯一分子标识符(或称 UMIs)构成了条码的第二部分,它们的作用是唯一地计数读数,以便相同读数的扩增子只计算一次,例如:
在这里,我们看到了来自红色基因的两个独特转录本和来自蓝色基因的两个独特转录本,每个都被赋予了一个(有颜色的)唯一分子标识符(UMI)。经过扩增后,红色基因的读段比蓝色基因多。如果我们像以前一样构建一个频率表来统计读段,我们会得到:
这个信息是错误的,因为它显示红色表达量是蓝色的两倍。然而,我们可以通过考虑 UMI 信息来重新计算真实的计数:
从这里我们可以做出决定,忽略这些 UMI 的频率,仅仅计算每个基因中我们观察到的独特 UMI 的数量:
这便为我们提供了每个基因真实转录本数量的真实计数,正如我们最初的数字所给出的。
我们现在知道了 UMIs(唯一分子标识符)和细胞条码的作用,但我们在分析中如何处理它们呢?让我们来看一下我们配对末端 FASTQ 数据中的 4 个示例序列。
具体验证过程请到教程网站进行,本文略。
https://usegalaxy.cn/training-material/topics/single-cell/tutorials/scrna-umis/tutorial_ZH-CN.html
阅读原文有更好的体验:
https://usegalaxy.cn/training-material/topics/single-cell/tutorials/scrna-umis/tutorial_ZH-CN.html
21天精通单细胞数据分析Day01: 单细胞测序简介 (内附 62 页精美 PPT)
云上转录组分析流程(点击图片跳转)
什么生信流程语言让你极度爽?(点击图片跳转)