1. 测序原理和过程
参考文章链接1
参考文章链接1
参考文章链接1
测序:检测DNA或RNA上AT(U)GC顺序和数量。
1.1 第一代测序:
Sanger-双脱氧链终止法原理:设置4个反应体系,分别加入DNA、引物、酶、4种dNTP,和其中1种带有标记ddNTP。在加入ddATP反应体系中,当ddATP和T碱基结合,反应终止,在这个反应体系中,ddATP会结合DNA上所有T位点,其余3种反应体系同上。
1.2 第二代测序
目前二代测序应用最广泛的是illumina公司的边合成边测序。
二代测序:分为样品收集 > 文库建库 > 测序三个步骤。将待测DNA打断成200-800bp片段,经过末端补齐并加A、与特有的测序接头连接,经过扩增建立测序文库。
接头:
双端index接头
加接头方式:
- 先在fragment DNA的两端加上PE adapter, 然后再引入和P5/P7 oligo互补配对的序列以及index序列(上图所示)
- 直接在fragment DNA的两端直接加上full Y-adapter, adapter中已经包括了和P5/P7 oligo互补的序列, index, 以及Read1/Read2的测序引物。
接头包含:P5/P7 是和测序仪上配对的序列;index1/2是barcode,用于区分不同样本;PE adaptor是建库PCR富集时候需要用的引物序列,另一部分是测序时需要用的引物。
测序仪1个flow有8条lane,lane上随机分布两种接头,__p5‘(与P5互补),P7(与P7'互补)。 __
测序过程:
- 序列只能一开始是利用p5接头互补,然后第一轮扩增(p5 > p7是模版链,需要的测序),形成互补链。
- 洗脱:互补链('p7>'p5)由于'p5在lane上不会被洗脱,而模版链被洗脱。
-桥式形成:互补链'p7和lane上p7互补结合形成桥,可以快速扩增p7链(Forward strand,模版链)。
- 35轮桥式扩增形成cluster(一群完全相同的序列,放大信号作用)。
- 解链:甲酰胺基嘧啶糖苷酶(Fpg)选择性切掉'p5连接的链(互补链)
- 双端测序之Forward Strand:illumina采取了“一次加一个荧光碱基,用完失效。先是primer结合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP【它的3‘ 羟基被叠氮基团替代,因此每次只能添加一个dNTP;还含有荧光基团,能激发不同颜色】;在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉;
再加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号的记录,计算机将光学信号转化为测序碱基。再加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,这样能继续向下进行再加一个,并且保证这个不再发出荧光。如此重复直至所有链的碱基序列被检测出。得到了Forward Strand序列。
- Index测序: 上面的循环结束后,read product被冲掉,index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱。
- 双端测序之Reverse Strand: 洗脱掉index2 产物后,还是一个桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。
1.3 三代测序
在第二代测序的基础上,人们还希望提高测序效率、提高测序通量、提高测序准确率、避免PCR扩增和避免荧光检测等。
根据不同的发展方向,目前发展出多种不同的三代测序方法。
1.3.1 实时单分子测序(real-time single-molecule)
边合成边测序,四种分别荧光标记的dNTPs参与到DNA聚合酶主导的链合成反应中,每类碱基在被添加上去的时候,会显示不同的荧光。当把这个链合成反应控制在一个DNA母板链、一个DNA聚合酶,一个相对封闭的反应空间的时候,就可以方便地对每次加入的荧光进行判别。
1.3.2 complete genomics公司的复合探针-锚定连接技术(combinatorial probe-anchor ligation,cPAL):依靠荧光检测来测序,提高了测序速度和通量
1.3.3 Life technologies公司的离子流探测测序设备(Ion torrent)
使用离子流场效应半导体感应器(ion-sensitive field effect transistor),依靠边合成边测序的中心概念,检测每次添加碱基时候释放出的离子流,从而避免了传统第二代的荧光检测。
1.3.4 Oxford nanopore公司的纳米孔单分子测序技术,避免了荧光检测和对主体DNA序列的PCR扩增。
1.4 第一代、二代、三代测序比较
- 一代测序最大的优势在准确性上,但是成本高、通量低。
- 二代测序大幅度提高了测序速度,降低了测序成本,保持了高准确性。缺点是读长短,拼接困难,pcr技术增加了测序的错误率。在进行基因组组装或者结构变异分析的时候没有优势。
- 三代测序,解决了二代测序中PCR复制引入的误差以及复制偏倚,并且因为三代读长长的优势,测序后不用拼接,直接读出整个基因的全长。这解决的二代没法解决的生物学问题:鉴定新的转录本。但其成本高,测序准确性差。
2. 常用数据格式
参考文章链接
数据格式详解链接
2.1 DNA序列表征
A、C、G、T、U、R(GA)、Y(TC)、K(GT酮)、M(AC氨基)、S(GC)、W(AT)、B(GTC)、D(GAT)、H(ACT)、V(GCA)、N(AGCT)
2.2 fastq和fasta
fastq格式:基于文本,保存生物序列和测序质量信息的格式。一般包含4行。
- 第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的。
- 第二行:碱基序列;
- 第三行:由‘+’开始,后面是序列的描述信息;
- 第二行序列的质量评价(quality value)
fasta格式:
- 以“>”为开头,fasta格式标志。
- 序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
- 序列描述。
- 碱基序列,序列中允许空格、换行、空行,一般一行60个。
2.3 GenBank格式
以LOCUS和一些注释行开始。
序列的开头以“ORIGIN”标记,末尾以“//”标记。
2.4 EMBL格式
以标识符行(ID)开头,后面跟着更多注释行。
序列的开头以“SQ”开头标记,序末尾以“//”标记。