宏基因组分析实战(0)-前言
宏基因组分析,在微生物研究中应用广泛。目前已有许多文章介绍了宏基因组的应用,这些文章多以实战代码和可视化为主,但关于其分析原理和分析流程的文章并不多见。
本系列计划介绍宏基因组的基础分类、数据下载与处理、分析流程以及实战等多个内容,尽可能将多的有效信息压缩,方便小白们快速系统了解宏基因组分析原理与流程,以及帮助关从业人员回顾分析知识。
知识分享不易,欢迎转发打赏支持!
1. 背景
在宏基因组学兴起之前,微生物学的研究主要依赖于传统的培养组学方法。这种方法虽然能够提供一定的微生物信息,但其局限性在于只能分离和培养一部分微生物,无法全面揭示微生物群落的真实状态和多样性。此外,许多微生物属于不可培养微生物,这使得传统的培养方法无法覆盖微生物世界的全貌,限制了我们对微生物生态和功能的理解。
随着高通量测序技术的发展,尤其是下一代测序(Next-Generation Sequencing, NGS)技术的广泛应用,我们对微生物的认知迎来了革命性的变革。宏基因组学(Metagenomics)和对应的测序也因此诞生,这使得研究者能够直接从环境样本中获取全部微生物的遗传信息,无需进行培养,极大地拓宽了微生物研究的范围。通过宏基因组测序,不仅能够获取丰富的可培养微生物信息,还能深入了解那些以往难以培养的微生物群体,从而全面揭示微生物群落的复杂性和多样性。
然而,高通量测序技术所带来的海量数据也给研究者带来了新的挑战。如何有效处理和分析这些数据,从中提取有价值的信息,成为了一个亟待解决的问题。幸运的是,随着生物信息学的发展,已经形成了一套相对成熟的数据处理流程和方法帮助研究者从复杂的数据中提炼出有用的科学结论。
在这里,我们将深入探讨宏基因组测序的原理,并详细介绍如何对原始下机数据进行处理。希望通过这些内容的介绍和指导,能够让小白萌新更好地理解宏基因组数据的处理流程,掌握分析技巧,最终能够独立地从数据中得到有意义的结果。
话不多说,Let's go!
图片来源:https://www.nature.com/articles/s44220-023-00148-3/figures/1
2. 宏基因组测序策略
目前来讲,宏基因组测序主要分为两种策略:16S rRNA基因测序和鸟枪法(Shotgun)宏基因组测序。我们将在下文中逐个介绍。
2.1 16S rRNA基因测序
2.1.1 概述
细菌的rRNA(核糖体RNA)按沉降系数分为3种,分别为5S、16S和23S rRNA。其中16S rRNA的编码基因由于其在结构上的高度保守性,是细菌系统分类研究中最有用的和最常用的分子钟。加上它成本非常低,二代测序的费用仅仅为120元左右,因此是主要的宏基因组分析方法。所以16S测序其实测的是DNA,而非RNA。
2.1.2 原理
16S rRNA的编码基因长度约为1,542 nt,分为9个可变区(V1-V9)和保守区。不同的测序策略便是选择不同的可变区来设计引物并测序。比如其中二代测序中illumina MiSeq便是选择V3-V4区域,具体如下图:
数据来源:https://help.ezbiocloud.net/16s-rrna-and-16s-rrna-gene/
NGS systems | 16S region | PCR primers | Estimated insert size (E. coli) | Sequencing format |
---|---|---|---|---|
Illumina MiSeq | V3V4 | 341F & 805R | 428 bp | 250 x 2 |
Illumina iSeq 100 | V4 | 515FB & 806RB | 252 bp | 300 x 1 |
Illumina HiSeq | V4 | 515FB & 806RB | 252 bp | 150 x 2 |
2.1.3 分析流程
对于16s测序数据的处理,现在以qiime2为主流的分析软件。这款软件嵌合了各个分析步骤所需的软件,具有高度集成性和可重复性的优点,而且对于二、三代测序数据都可分析,因此成为分析首选。其分析流程如下图所示,大概分为数据导入→样本拆分→去噪/聚类→下游分析(物种注释,差异分析,多样性分析等),具体的操作将会在后续的分享中介绍。
图片来源:https://docs.qiime2.org/2024.2/tutorials/overview/
2.2 鸟枪法测序(shotgun sequencing)
2.2.1 概述
这种方法是对环境样本中的全部DNA进行无差别的测序,然后通过生物信息学方法进行组装和分析。因此严格来讲,鸟枪法测序并不完全属于微生物测序,它可以完成对群落中的细菌、古菌、病毒、真核生物的DNA测序。由于覆盖了环境群落中的完整DNA信息,Shotgun测序能够提供更全面的信息,包括微生物的种类、功能基因、代谢途径等。
2.2.2 原理
我们通过具体的步骤来讲解鸟枪法测序的原理,其主要步骤如下:
-
样本收集:首先,从特定的环境(如土壤、水体、人体肠道等)中收集样本。
-
DNA提取:从样本中提取总DNA,这些DNA包含了所有微生物的遗传信息。
-
DNA片段化:将提取的DNA物理或酶促地打碎成较小的片段,以适应测序平台的要求。这也是被称为鸟枪法测序的原因,就像用一把霰弹枪将DNA打碎成随机的片段。
-
文库构建:对打碎的DNA片段进行处理,主要是进行末端修复、添加A尾、添加测序接头和扩增。构建好的文库还需要进行检测质控,确保满足上机要求。
-
高通量测序:使用二代测序技术(如Illumina平台)对构建好的文库进行测序,获得大量的短序列读取(short reads)。
-
生物信息学分析:由于下机数据是经放大后的reads,无法直接获得想要的生物学信息。因此需要通过生物信息学工具对获得的序列数据进行分析,包括序列拼接、分类学分析、功能基因预测等,以识别和表征样本中的微生物组成和功能。
图片来源:https://www.researchgate.net/figure/A-simple-illustration-of-the-shotgun-sequencing-stepsfig1333247567
2.2.3 分析流程
由于鸟枪法测序的下机文件非常大,里面涵盖的信息也非常多,因此分析的维度也非常多,例如基于reads、基于contigs、基于MAG(metagenome-assembled genomes)等等。不过这些都已经算是细的分支了,在大的枝干上,鸟枪法测序结果的分析还是具有一定的套路的。其中metaWRAP就是一个集成化分析的代表,其主要分析步骤包括质控→组装→分箱(binning)→下游分析,能够解决大部分的分析需求。
但是集成化也会带来一些问题,例如太过笨重,就比如metaWRAP只能接受后缀为“.fastq”的输入文件,如果你的下机数据是压缩后的gz文件,或者后缀名为”fq“的时候就会非常麻烦。所以在某些情况下,学会或者精通每个分析步骤是非常有意义的。接下来,我们也将带领大家一步一步地去如何分析数据,获取想要的结果!
图片来源:https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-018-0541-1/figures/1
3. 总结
总的来说,16s测序和鸟枪法测序是宏基因组学分析的两个主要策略,而后者更习惯被直接称为宏基因组测序(后文也会如此称呼),由于其庞大的数据量和复杂的分析方法,让很多人望而却步。因此,我们将先以宏基因组测序数据的分析为例,与大家分享。
欲知后事如何,请见下回分解!
本文由博客一文多发平台 OpenWrite 发布!
共有 0 条评论