常用测序机器及其原理-1(自学用)
常用的测序机器包括Sanger测序、二代测序(如Illumina测序)、三代测序(如PacBio和Nanopore测序)等
1. Sanger测序(第一代测序,双脱氧法测序)
原理:Sanger测序使用特定的碱基终止反应。即在DNA合成过程中加入了少量的链终止核苷酸(ddNTPs),这些核苷酸一旦加入到DNA链中,就会阻止链的延伸,产生不同长度的DNA片段。每种碱基(A、T、C、G)都带有不同的荧光标签,通过电泳分离并读取荧光信号,可以确定DNA序列。
设置四个反应体系1-4,分别加入引物、DNA聚合酶、四种dNTP、一定比例的ddNTP(带有放射性标记)例如1中是ddATP,它就负责测定T碱基的位置;依次2是ddCTP,3是ddTTP, 4是ddGTP。假如扩增过程中ddATP遇到了T位点,就结合并终止(因为ddNTP的2‘和3'都没有羟基),一段时间内大量的ddNTP会结合完所有测序位点。最后利用凝胶电泳和放射自显影只能看到带有荧光标记的ddNTP,他们的排列顺序先利用电泳条带前后关系确定下,再用A-T, T-A, C-G, G-C关系反转一下,就能知道我们的测序序列。
一代测序技术的主要特点就是测序读长可达1000bp,准确性高达99.999%,二三代所不能及),但它的通量低,成本高。目前一代测序在验证序列(就是平时送公司测序返回来自己blast的那些)以及验证基因组组装完整性方面都是金标准。
2. 二代测序
2.1 Illumina
Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术标志第二代测序技术诞生。其中Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台。
其中Illumina市场规模占到75%以上,主要包括Miseq,Hiseq。下面👇就主要介绍它的PE(Pair End双端)测序原理:
2.1.1 名词:
flowcell: 测序反应的载体/容器,1个flowcell有8个lane
lane: 测序反应的平行泳道,其内表面是做了专门的化学修饰(共价键连接)的(将2种DNA引物种在玻璃表面,与测序的接头序列相互补),试剂添加、洗脱等过程的发生位置
DNA引物种在玻璃表面,与测序的接头序列相互补
双端测序: 可能序列比较长有四五百bp,两边各测120-150bp
junction: 双端测序中间一些没有测到的区域
index(barcode):一个lane通常要测多个样品,每个样品都加上特定的序列标签,用于区分不同样品。
flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)
2.1.2 文库构建
1.超声断裂
2. 平末端
打断以后会出现末端不平整的情况,用酶补平,所以现在的序列是。
3. 3’ 端加A 尾(Klenow酶)
4. 连接酶连接特定接头
2.1.3 桥式PCR
将已经构建好的文库,种到芯片上去,然后进行扩增的一个过程
1.加入DNA文库,形成与芯片引物结合状态
2.加入d NTP和聚合酶,合成新的DNA
3.加入NaOH溶液。解离DNA双链
4. 没有和芯片共价(原来的链)的DNA单链解离冲走
5. 加入中性溶液,形成桥接
互补链的p7‘和lane上的p7互补(但还是一个lane中的)就像下图这样(摘自illumina官网)目的是快速扩增lane p7接头连接的链,也就是下图中的Forward Strand,它和我们的模版链是一致的。我们后来测序只用这一半。
6. 加入dNTP和聚合酶,形成桥状DNA
7. 加入NaOH溶液,解离DNA
8. 重复加入中和液,NaOH,形成cluster
9. 解链:
桥式PCR完成后,形成了很多的桥形的互补双链,再次强碱解链。这一次不再进行复制,而是利用一种酶--甲酰胺基嘧啶糖苷酶(Fpg)选择性的切掉lane 上p5‘ 连接的链,只留下了与lane p7连接的链即Forward Strand。
2.1.4 目标 RNA 测序
1.先是primer结合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP【它的3‘ 羟基被叠氮基团替代,因此每次只能添加一个dNTP;还含有荧光基团,能激发不同颜色】;
2.在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉;再加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号的记录,计算机将光学信号转化为测序碱基,这一个循环就能测定flowcell上成千上万的cluster,这就实现了高通量。
3.再加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,这样能继续向下进行再加一个,并且保证这个不再发出荧光。如此重复直至所有链的碱基序列被检测出。得到了Forward Strand序列。
4.因为一个cluster的序列是一样的,所以理论上cluster的荧光颜色应该一致。
2.1.5 index测序
上面的循环结束后,read product被冲掉,index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱。
2.1.6 双端测序之Reverse Strand
洗脱掉index2 产物后,还是一个桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。
思考?
为什么Illumina测序会有长度限制呢?
1.测序时,经过长时间的PCR,会有不同步的情况。通俗一点讲,比如一开始1个cluster中是100个完全一样的DNA链,但是经过1轮增加碱基,其中99个都加入了1个碱基,显示了红色,另外1个没有加入碱基,不显示颜色。这时候整体为红色,我们可以顺利得到结果。随后,在第2轮再加入碱基进行合成的时候,就变成了,之前没有加入的加入了1个碱基显示红色,剩下的99个显示绿色,这个时候就会出现杂信号。当测序长度不断延长,这个杂信号会越来越多,最后很有可能出现,50个红,50个绿色,这时候我们判断不出来到底是什么碱基被合成。
2.测序过程中,使用的碱基是特殊处理的,有一个非常大的荧光基团修饰。在使用DNA ploymerase的时候,酶的状态也会受到底物的影响,越来越差。
数据产生
Hiseq2000测序仪
测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)
数据量=单端reads长度 * 单端reads个数 * 2(PE)
测序深度=数据量大小/ 参考基因组大小
共有 0 条评论