全基因组测序(WGS)数据分析:第1节 测序技术

第1节 测序技术

全基因组测序的英文是Whole Genome Sequencing,简称WGS,目前默认指的是人类的全基因组测序。

所谓全(Whole),指的就是把 物种细胞里面完整的基因组序列从第1个DNA开始一直到最后一个DNA,完完整整地检测出来,并排列好,因此这个技术几乎能够鉴定出基因组上任何类型的突变。

全基因组测序的价值是极大的,它包含了所有基因和生命特征之间的内在关联性,当然这也意味着更大的数据解读和更高的技术挑战。

1、那么什么是全基因组测序以及该如何构造流程分析全基因组测序(WGS)数据呢?

2、测序分为哪几代,分别是什么呢?

不同代测序技术的名称及常用缩写:

第三代测序并没有一个统一的简称,但 TGS(Third-Generation Sequencing) 是较为通用的描述方式。此外,不同的第三代测序平台也有各自的技术缩写:PacBio 使用 SMRT(Single Molecule Real-Time sequencing)。Oxford Nanopore 使用 ONT(Oxford Nanopore Technologies)。

一、测序的原理(如何将那些原本存在于细胞中的DNA信息获取出来?)

测序,简单来说就是将DNA化学信号转变为计算机可处理的数字信号。

它从1977年的第一代Sanger测序技术发展至今,已经足有40年时间。这个技术的发展之路可谓跌宕起伏,测序读长从长到短,再从短到长。虽然就当前形势看第二代短读长测序技术在全球范围内上占有着绝对的垄断位置,但第三测序技术也已在这几年快速地发展着。测序技术的每一次变革和突破,都对基因组学研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。接下来,就对当前最主流的测序技术以及它们的测序原理做一个全面的介绍。

测序技术发展历程


第一代测序技术

这两种方法开创了DNA测序的先河,为现代基因组学的发展奠定了基础。其中,Sanger法的改良版本至今仍被广泛用于小规模的高精度测序任务。

例如,2001 年完成的首个人类基因组图谱正是基于改良的 Sanger 法测序完成的。其核心原理在于使用双脱氧核苷酸(ddNTP),即 2’ 和 3’ 位均无羟基的核苷酸。这种分子无法形成磷酸二酯键,从而中断 DNA 合成反应。在 4 个反应体系中,分别加入放射性或荧光标记的 ddATP、ddCTP、ddGTP 和 ddTTP,随后通过凝胶电泳及自显影技术解析 DNA 序列(见图 )。

Sanger测序发原理

在测序技术发展的早期,除了 Sanger 法,还涌现出一些其他技术,如焦磷酸测序法和连接酶法。焦磷酸测序法后来被 Roche 的 454 技术采用,连接酶法则成为 ABI 的 SOLiD 技术的基础。尽管方法不同,这些技术的核心均基于 DNA 合成反应的可控中断。


第二代测序技术

第一代测序技术的主要优势在于读长较长(可达 1,000 bp)和准确性极高(99.999%),但其高成本低通量的局限性阻碍了大规模应用。虽然为基因组学奠定了基础,但并非理想的测序方案。

经过不断的技术革新,以 Roche 的 454 技术、Illumina 的 Solexa/HiSeq 技术,以及 ABI 的 SOLiD 技术为代表的第二代测序技术应运而生。相比于第一代技术,二代测序在以下方面实现了重大突破。

测序成本比较(来源:NIH网站) ,图中对比了第一代和第二代测序技术的成本曲线,可以直观地看到,二代测序技术的出现引领了测序技术的历史性飞跃,为基因组研究的普及奠定了基础。

以illumina(目前最大、最成功的NGS测序仪公司)的技术为基础简要介绍第二代测序测序技术的原理和特点。

目前illumina的测序仪占全球75%以上,以HiSeq系列为主。它的机器采用的都是边合成边测序的方法,主要分为以下4个步骤:

图1  illumina测序原理

1)构建DNA测序文库(图1-1)

构建测序文库的第一步是将基因组DNA分子用超声波打断,生成长度在300–800 bp范围内的小片段。随后,在这些片段的两端添加接头,形成单链DNA文库以备测序。

① Illumina测序中的P5和P7接头:一端包含与flowcell上的探针序列反向互补的序列,用于结合DNA片段和flowcell。另一端带有barcode序列,用于区分不同的样本。

② 接头连接的原理:DNA片段打断后加上单碱基A,接头T通过互补配对连接至片段末端。

2)测序流动槽(Flowcell)(图1-2)

Flowcell是测序的核心反应容器,其槽道表面附有大量与DNA接头互补的探针序列。构建好的文库通过流动槽时,会随机附着在槽道(称为lane)表面。

Flowcell的结构:每个flowcell包含8个lane,lane表面的接头与文库DNA片段的接头配对结合,支持DNA在其表面进行桥式PCR扩增。(图2)

独立反应:各lane之间相互独立,测序过程中不会互相影响。

图2 flowcell(实物 VS 示意图)

3)桥式PCR扩增与变性(图1-3)

图3 桥式PCR扩增(来源:illumina官网)

桥式PCR是NGS(Next-Generation Sequencing)技术的关键步骤之一。通过flowcell表面的固定接头,DNA片段在其表面进行桥式扩增(图3)。

扩增过程

每个DNA片段在flowcell表面不断扩增,形成局部集中的DNA拷贝簇(“束”)。

每个束由原始DNA片段的多个拷贝组成。

目的:放大信号强度,以确保后续测序中碱基信号的检测灵敏度。

4)测序过程(图1-4)

图4 边合成边测序(来源:illumina官网)

测序方法采用的是一种边合成边测序的策略。其原理类似于 Sanger 测序:在反应体系中加入 DNA 聚合酶、接头引物,以及带有碱基特异荧光标记的 4 种 dNTP(核苷酸)。特别之处在于,这些 dNTP 的 3'-OH 基团被化学修饰,从而每次只能加入一个碱基,确保了测序的准确性。

当一个碱基成功加入到 DNA 合成链上后,未被使用的游离 dNTP 和 DNA 聚合酶会被清洗掉。随后,加入荧光激发所需的缓冲液,使用激光激发荧光信号(如图 4 所示),并通过光学设备记录信号。计算机随后将这些荧光信号解析为具体的碱基序列。

完成荧光记录后,通过化学试剂去除荧光标记和 dNTP 的 3'-OH 保护基团,使下一轮反应可以顺利进行。如此循环往复,逐步完成目标序列的测定。


第三代测序技术:

单分子测序的里程碑

PacBio SMRT技术

PacBio SMRT 技术结合了边合成边测序的原理,使用SMRT芯片作为测序载体,通过检测DNA聚合酶作用过程中荧光信号实现测序。

PacBio SMRT 测序read读长分布(来源:PacBio官网)
PacBio SMRT 测序原理(来源:Chris Miller)

DNA聚合酶是实现超长读长的关键,其读长主要依赖于酶活性的持续性,而酶活性又容易受到激光照射造成的损伤影响。为了确保测序信号的精确性并减少背景噪音,PacBio SMRT 技术引入了ZMW(零模波导孔)原理。

ZMW:这一原理可以类比为微波炉门上的小孔设计:当孔径大于波长时,能量会因衍射效应穿透面板并向四周扩散,导致干扰。而当孔径小于波长时,能量被限制在直线方向,不会向外泄露,从而达到隔离效果。

在 SMRT 测序系统中,这些微小的 ZMW 孔径(约 100 纳米)小于检测激光的波长(数百纳米)。激光从底部照射,只能集中在一个极小的体积范围(约 20 飞升升,图 10-A),覆盖住需要检测的反应区域。由于激光无法穿透孔径,孔外的游离核苷酸单体处于“黑暗”中,从而避免干扰信号。这种设计成功将背景噪音降到最低,确保了测序的高灵敏度和高精度。

通过这样的机制,PacBio SMRT 技术能够精确区分目标信号与背景噪音,大幅提高了测序质量,同时保留了单分子测序的超长读长优势。

PacBio SMRT 检测甲基化修饰(来源:PacBio官网)
好在它的出错是随机的,并不会像第二代测序技术那样存在一定的碱基偏向,因此可以通过多次测序来进行有效纠错


Oxford Nanopore

Oxford Nanopore 的 MinION 是另一个很受关注的第三代测序仪,俗称U盘测序仪,如图,这家公司开发的纳米单分子测序技术与以往的测序技术相比都不一样,它是基于电信号而不是光信号的测序技术!

Oxford Nanopore MinION

这一技术的核心在于设计了一种特殊的纳米孔,孔内带有共价结合的分子接头。当 DNA 分子通过纳米孔时,会引发电荷的变化,进而短暂地影响流经纳米孔的电流强度。由于每种碱基对电流的影响程度不同,高灵敏度的电子设备能够精确检测这些变化,从而识别通过的碱基序列。

MinION测序原理

1.纳米孔测序的原理与优势

纳米孔测序是第三代测序技术的重要分支,具有独特的测序原理和应用优势:

特殊纳米孔设计:纳米孔内共价结合的分子接头在DNA通过时,引起电流的微小变化。每种碱基(A、T、C、G)的影响幅度不同,通过高灵敏度电子设备实时检测这些电流变化,进而鉴定DNA序列。

无损检测:DNA在测序过程中保持完整性,不会被破坏。

实时数据输出:测序过程中即可获得数据,极大提升了效率。

读长超长:读长通常在数十到数百kb,最新数据显示可达900kb,远超PacBio。

2.MinION 的主要特点

便携性:MinION 测序仪体积小,便于携带,支持野外实验和即时测序。

表观遗传学研究的创新

能直接读取修饰碱基(如甲基化胞嘧啶)所引起的电流变化,无需传统的bisulfite 处理

提供了在基因组水平研究表观遗传调控的新工具。

错误率:5%-15%,有时甚至高达30%,但错误模式随机,通过高覆盖率测序可校正。

两种三代测序技术的比较

三代测序技术之间的比较

未来展望

第三代测序技术在读长、实时性和表观遗传检测上的突破,为基因组研究和精准医学开辟了新方向。然而,技术成本与测序质量的改进仍是主要挑战。随着纳米孔技术和单分子实时测序技术的逐步成熟,测序成本有望降低,错误率进一步优化,使其更广泛地应用于科研和临床领域。


参考文献

1. Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).

2. Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).

3. Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).

4. Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).

5. Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).

6. Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011).

生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~

版权声明:
作者:dingding
链接:https://www.techfm.club/p/170202.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>