1 基因组生物学和多样性介绍

本章收获

这一章将生物划分为病毒、细菌、古菌和原核生物,并分别介绍了各类群生物基因组特征。对于我来讲,认识了不同的生物的基因组成分,对于后续做分析可以有更具体的认识,很棒的一章内容。

Abstract

生物体表现出惊人的细胞和分子多样性,包括基因组的大小、形状和结构。在本章中,我们回顾了如何将基因组视为生物多样性的一个结构和信息单元,并明确地定义了我们对遗传信息的意义。我们简要概述了细菌、古菌、真核生物和病毒的细胞类型的特征,为回顾它们的基因组的组织、大小和封装策略奠定了基础。我们还详细回顾了在主要染色体结构之外发现的遗传元素,因为这些元素提供了有关如何将基因组有时视为不完整的信息实体的见解。最后,我们根据我们对基因组结构多样性和遗传信息在细胞内表达机制的最新认识,重新评估了基因组的定义。这些主题共同构成了对基因组生物学的一个很好的介绍,适合刚接触这一领域的新手,并为那些在基因组学中开发新的统计或计算方法的人提供了一个有价值的参考。这篇综述还为读者准备了随着基因组生物学领域的进展而预期的思维转变。
关键词:生物多样性、病毒、原核生物、真核生物、细胞器、DNA、RNA、蛋白、调控DNA、表观遗传学、质粒、转录、翻译、DNA复制、染色质、基因结构

1 引言

自从1920年引入基因组的概念以来,基因组科学领域已经发展到涵盖了一系列相互关联的主题(例如,核酸化学、分子结构、复制和表达生物化学、突变过程、进化动力学和与细胞过程的相互作用)。尽管基因组作为一个基本的生物单元的概念已经伴随我们近一个世纪,但只有在过去十年里,基因组学才成为生物学和健康科学领域的一种变革性的学科。它的快速发展在很大程度上是由于大规模并行的下一代测序技术的进步,这产生了前所未有的基因组数据数据量。这些数据显示了基因组在结构和功能上的广泛的自然变异性。这导致了现代生物学家重新评估基因组的基本定义。
基因组的典型定义通常涉及两个方面,既包含结构特征,又包含其存储和传递生物信息的功能。例如,美国国立卫生研究院(NIH)使用以下定义:“基因组是一个生物体完整的DNA集合,包括所有的基因。每个基因组包含了构建和维持该生物体所需的所有信息。在人类中,整个基因组的一份拷贝——超过30亿个DNA碱基对——包含在所有具有细胞核的细胞中。”这种概念,与其他许多概念一样,是从物理特征(即基因和DNA碱基对)方面考虑的结构性的,也是从执行细胞功能(即构建和维持生物体)方面考虑的信息性的。通过对基因组多样性的更深入的了解,该领域已经认识到,基因组的这两种概念有时是不够的。我们现在明白,基因组的物理结构是短暂的,而基因组中包含的信息的表达往往取决于非基因组因素。基因组生物学的科学正在进入一个新的时代,基于对基因型和表型之间关系的更深入的理解。
这篇综述的目的是提供一个对基因组生物学的简要概述,并预测随着该领域的发展,思维方式将发生的变化。本文的其余部分分为四个部分,下一部分简要介绍了生物体细胞类型的多样性。接下来的两个部分分别介绍了基因组的结构和信息方面。在最后一部分,我们通过一些精选的生物学例子,重新审视了基因组的定义,并以对基因组作为信息实体本质的更新观点进行了总结。

2 生物多样性和细胞类型

细胞是生物体的最小生命单位。所有细胞都有三个共同的特征:细胞膜、细胞质和基因组。从结构上看,细胞可以分为两种基本类型:原核细胞和真核细胞。真核细胞往往更复杂。它们具有细胞核和其他有膜的细胞器,这些细胞器是细胞中执行特定功能的专门组成部分(例如,细胞核、线粒体、质体)。相反,原核细胞缺乏有膜的细胞器。虽然在细胞结构上相似,但原核生物包括两个截然相反两个领域:真细菌(真正的细菌,通常简称为细菌)和古菌。
细胞生命几乎在地球上的每一个环境中都被发现。随着生命占领和适应了大量的生态位,细胞在大小、形态、生活方式和复杂度方面演化出了令人难以置信的多样性。理解这种多样性的基础仍然是生物学的一个中心目标。各位读者若是对地球生物多样性的最新信息,各种生物的独特特征,以及现存和灭绝生物之间的亲缘关系感兴趣,可以参考以下资源:加州大学古生物博物馆的“生命历史展”,生命树网站项目,生命百科全书。

2.1 病毒

病毒是寄生于活细胞的传染性因子,它们在没有宿主的情况下无法繁殖。病毒不被认为是细胞实体,因为它们缺乏定义细胞的两个基本特征:它们既没有细胞膜,也没有细胞质。病毒噬菌体的发现,即寄生于其他病毒的病毒,重新引发了关于它们是否为生命体的分类的争论。有些人认为病毒是生命体,因为它们可以作为其他病毒的宿主,病毒噬菌体的感染会导致宿主病毒的最终死亡,暗示了一个初始的“活”状态。相反的观点认为,病毒在细胞宿主之外无法繁殖的能力使它们成为非生命体 。不管它们是被划分为生命还是非生命,病毒与这篇综述是有关的,因为它们拥有基因组,并且是生物圈中最丰富的生物复制者。
在宿主之外,病毒以病毒颗粒(病毒子)的形式存在,由一个保护和包裹它们基因组的蛋白质囊壳组成。一旦病毒子进入了宿主细胞,它就“劫持”了宿主的细胞结构和功能,来执行病毒生命周期的代谢活跃阶段。在这个阶段,病毒表现出类似于活细胞的生理特性;它们进行代谢、生长和繁殖。病毒的生活方式有很多种,相应地,病毒的形态、大小、宿主和基因组也有很多种。已知最大的病毒是拟病毒,它最初被认为是变形虫的一种传染因子,并且它本身可以成为病毒噬菌体的宿主。为了说明这一点,拟病毒的病毒子可以比一些原核细胞还要大。另一个极端的例子是一些病毒,如环状病毒,它们的基因组由不到2000个核苷酸组成。关于病毒多样性的更详细的介绍可以在ViralZone网站上找到。

2.2 细菌

细菌细胞是原核细胞,与真核细胞相比相对简单。它没有膜结构的细胞器,染色体(通常只有一个)也没有与细胞的其他组分分离。虽然细菌主要是单细胞生物,但它们经常生活在生物膜中,这是一种由分泌的聚合物基质将细胞绑在一起的群体,表现出一系列的协作行为。它们还可以表现出调节分化成不同的细胞类型,其中具有相同基因组的两个细胞具有不同的形态和功能。
只有非常小的一部分细菌多样性(不到1%)可以在实验室中培养和生长。无法培养的细菌的问题是我们对其生理多样性和生长所必需的相互作用知识的限制的结果。为此,正在努力在自然环境中研究细菌,但鉴于细菌的巨大代谢多样性,取得的进展有限。即使在不完整的可培养细菌采样中,细胞形状、繁殖方式和细胞周期调节也存在相当大的多样性。
细菌的细胞周期涉及基因组复制和将复制的拷贝分配到子细胞的协调,然后进行细胞分裂。这样,遗传物质的传递是从一个细胞代到下一代的“垂直”传递。在某些条件下,一些细菌,如大肠杆菌,可以在细胞分裂完成之前启动新一轮的基因组复制 ,从而导致与较晚复制的位点相比,复制起点附近的基因拷贝数增加。其他细菌,如Caulobacter,保持着严格调控的细胞周期,以确保每次分裂只发生一次复制事件。在最佳条件下,一些物种可以在每20分钟内完成它们的细胞周期,这意味着一个单细胞可以在短短10小时内产生超过十亿个后代。除了垂直转移,遗传信息还可以通过转化、共轭或转导等过程在非相关细胞之间“水平”转移。将基因(或细胞)在不同物种(或细胞)之间通过这三种过程中的任何一种转移的事件被称为水平基因转移(HGT)事件。

2.3 古菌

古菌是一类单细胞微菌,用光学显微镜和电子显微镜观察时与细菌非常相似。它们像细菌一样通常有一个单一的环状染色体,没有细胞核,而且很长一段时间内,古菌被错误地归类为细菌。古菌可能是生命的一个单独领域的第一个迹象是从16S rRNA基因的系统发育分析中获得的。基因组测序和分析的进步进一步证明了细菌和古菌领域之间的进化区别。尽管古菌在细胞水平上与细菌相似,但古菌在分子水平上与真核菌有许多相似之处,这使研究人员假设真核菌的祖先是在古菌内部产生的。
以前,古菌被认为是一小群生活在超出细菌耐受范围的极端环境中的菌(盐卤、深海热液喷口、酸性和缺氧条件等)。通过非培养方法,发现古菌分布更广泛,代谢更多样化。现在已知古菌存在于人类的肠道中,并通过共生的群落关系,在人类的健康和代谢中起着关键作用。越来越多的证据表明,古菌在全球营养循环中发挥着重要作用。它们为厌氧甲烷氧化、氨氧化和氮循环的其他部分,包括固氮,提供了主要的机制。古菌也似乎在生态上与细菌有竞争力,因为它们对非极端的土壤、水生和海洋环境的微菌群落做出了重要的贡献。尽管它们在这些环境中可能非常丰富,但古菌的多样性在更极端的栖息地中最大。
古菌具有细菌状、真核状和古菌状特有的特征。古菌的细胞壁在化学和结构上是多样的,但它们系统地缺乏细胞壁肽聚糖,也就是细菌中普遍存在的莫氏酸。它们的膜脂与细菌或真核生物中发现的膜脂在化学上有所不同,并且它们具有许多新颖的酶,这些酶是合成它们独特的膜所必需的。因此,大多数古病毒都是古菌特有的。即使是最初看起来与细菌附属物同源的结构附属物,也经常在结构上有所不同,并且与细菌对应物有不同的遗传基础。在生化水平上,古菌利用许多能源,代谢多样化,可能比细菌或真核菌更多样化。

2.4 真核生物

所有复杂的多细胞生物都是真核生物(动物、植物、真菌、红藻和褐藻),还有许多单细胞生物也是真核生物。真核细胞在大小和形状上有很多不同。它们通常比细菌和古生物更大,内部结构也更复杂。真核细胞内部结构的一个关键特征是使用脂质膜将它们的内容分隔成不同的区域。真核细胞的大部分遗传物质被核膜包围,因此保存在一个单独的细胞器中,即细胞核。这提供了一个基本的视角,用来说明真核细胞与细菌和古生物细胞的不同之处,对真核遗传信息的表达也有重要的影响。
除了细胞核外,其他细胞器(线粒体和质体)也含有小的基因组,编码额外的基因。线粒体和质体都是由原始真核细胞和细菌生物之间的古老共生事件产生的。在这些事件之后,入侵的细菌经历了一个基因组缩减的过程,从自主的生物转变为依赖细胞的细胞器。
尽管我们对植物、动物和真菌很熟悉,但绝大多数的真核生物多样性都不属于这些类群,而且主要是微生物。这些“其他”的真核生物统称为原生生物。它们不构成一个单系群,即原生生物不是由一个共同祖先和它的所有后代组成的系统发育群。原生生物这个术语主要是为了方便,用来分类所有不是植物、动物或真菌的真核生物。原生生物具有广泛的生态和结构多样性,包括一些与人类疾病相关的重要的单细胞真核生物类群。例如,单细胞的顶复门真核生物疟原虫是疟疾的致病原,影响了全球约10%的人口。更积极地,原生生物物种是重要的初级生产者,是海洋生物地球化学循环中的一个重要环节。

3 基因组结构和组织

基因作为遗传信息的物质载体的概念,在其物理和化学结构被知道之前就已经存在了。1902年,萨顿提供了染色体遗传理论的第一个清晰的支持,将基因分配到染色体上的片段。现代对基因的看法更多地集中在核酸的特定化学序列上,而不是染色体的位点,但这两者并不独立。编码在生物体的核酸分子中的遗传指令构成了生物体的基因型。这种遗传信息的物理表现,将取决于环境的相互作用,构成了生物体的表型。
有两种类型的核酸:脱氧核糖核酸(DNA)和核糖核酸(RNA)。它们都是由核苷酸链组成的聚合物。每个核苷酸包括三个组分:一个5碳糖、一个磷酸基和一个含氮碱基。含氮碱基和糖(不含磷酸基)一起称为核苷。RNA中的糖组分,核糖,是一种普通的糖,每个碳原子上都有一个羟基(OH)连接。DNA中存在的糖,脱氧核糖,只是在2’碳原子上缺少一个氧原子(H代替OH)。这种化学差异对于使酶能够区分RNA和DNA聚合物是至关重要的。5’糖碳上带有一个磷酸基,被称为多核苷酸分子(DNA或RNA)的5’端。3’端有一个游离的羟基(OH)基团,可以与其他原子形成化学键。因此,细胞中的DNA和RNA的合成是通过在3’末端羟基上加入一个核苷酸来进行的。因此,多核苷酸具有方向性,合成是以5’到3’的方向进行的。
所有活细胞都利用DNA的双螺旋结构作为一种化学手段来储存信息。两条纵向链中的每一条都是磷酸和5碳糖的交替序列。在每个糖上,两条链由两个含氮碱基相连,一个是嘌呤分子(类型为腺嘌呤[A]或鸟嘌呤[G]),另一个是嘧啶分子(类型为胞嘧啶[C]、胸腺嘧啶[T]或尿嘧啶[U])。嘌呤和嘧啶分子之间的化学桥(称为碱基对)是由氢键连接的。每个嘌呤只能与一个嘧啶互补:A与T(或RNA中的U)形成两个氢键,C与G形成三个氢键。这些被称为规范的或沃森-克里克配对。由于这种配对模式,双链DNA的序列被称为互补的,一条链的序列可以从它的互补链的序列推断出来。DNA(或RNA)中含氮碱基的顺序是赋予基因组编码的信息含义的。
遗传信息的一个重要特征是它能够被复制并传递给子细胞。复制DNA的核心机制在所有三个细胞生命领域中都是保守的:细菌、古生物和真核生物。准确的DNA复制对于产生可行的后代是必不可少的——DNA中的过多改变会妨碍功能蛋白的产生,从而增加非可行后代的可能性。因此,大多数DNA都以高保真度复制。然而,错误也会发生。在人类中,平均每个细胞分裂复制的3000万个碱基中会发生一个错误。由这些改变了的基因产生的细胞被称为突变体。
虽然所有的生物都携带DNA,但遗传信息从DNA到RNA(称为转录)的物理转移过程,以及用来创建具有独特氨基酸序列的多肽分子(称为翻译)的过程,是在生命的领域之间有所不同的。原核生物缺乏膜包围的细胞核,允许转录和翻译同时发生。在真核生物中,这些过程被核膜分隔;DNA首先在细胞核中转录为RNA,然后RNA产物在细胞质中翻译为氨基酸序列,最终导致蛋白质的构建。
所有生命领域的生物,以及许多寄生于它们的病毒,都有一个非常大的基因组,与它所限制的细胞或区室的大小相比。例如,人类的核DNA由大约30亿个碱基对组成;拉伸后,每个细胞的总DNA量约为2米。人类细胞的平均大小仅为10微米。基因组包装过程使得DNA能够在细胞内储存的能力令人印象深刻。在真核生物和一些古生物中,DNA围绕组蛋白包裹,形成核小体。在人类中,这导致了大小减少了两百万倍,使得DNA能够压缩到细胞核中。原核生物的DNA压缩是通过超螺旋、大分子拥挤和与DNA结合蛋白的结合来实现的。原核生物中使用的超螺旋的程度在不同的物种之间有很大的差异。
原核细胞倾向于拥有高效的基因组,它们的大部分遗传物质由编码蛋白质的区域组成。古生物的基因组平均比细菌的基因组更紧凑。因此,原核基因组大小的增加通常伴随着编码的基因数目的增加。这种趋势在真核生物中并不明显,真核生物的基因组大小和编码蛋白质的基因数目之间几乎没有关联。考虑大肠杆菌的基因组,它的DNA中有90%以上是编码蛋白质的。这与人类DNA中仅有的2%的编码蛋白质区域形成了鲜明的对比。大多数真核基因组充满了非编码蛋白质的区域(见4.2小节,了解一个进化机制)。这导致它们的基因组大小平均比原核细胞大。

3.1 病毒基因组

病毒使用任何组合的RNA或DNA,单链或双链分子,圆形或线性形式,来编码它们的遗传指令。病毒的遗传物质通常被称为片段而不是染色体。由多个片段组成的病毒基因组被称为分段的。当同一分段的病毒物种的不同株感染一个细胞时,来自不同株的基因组可以混合产生杂交体,这个过程被称为重排。像H1N1猪流感A型病毒这样的杂交流感就是以这种方式产生的。
病毒株以各种方式包装它们的基因组。大多数具有小基因组(<20 kb)的DNA和RNA病毒使用能量无关的包装系统,其中衣壳组装和基因组凝缩是耦合的。一个例子是HIV逆转录病毒的RNA基因组,在成熟的病毒粒子中,它与Gag多肽的一种裂解产物形成一个RNA-蛋白复合物。其他病毒,如噬菌体λ,需要ATP来将它们的基因组直接泵入一个预先组装的衣壳。后一种类型的机制在细菌病毒中很普遍。另外,大型病毒使用类似组蛋白的蛋白质来包装它们的基因组,这对于真核生物的基因组包装是至关重要的。关于病毒中的基因组包装的综述,参见参考文献。

3.2 细菌基因组

尽管没有被限制在一个有膜的区室内,但原核基因组在细胞内的分布是不均匀的。它经常聚集在一个不规则的粘性区域,称为核状体,占据了细胞内部体积的大约四分之一。核状体的组织和分布是动态的,取决于生长速率和抗生素的存在。
以前人们认为所有的细菌细胞都有一个单一的环状染色体。1989年,发现了第一个线性细菌染色体,它存在于螺旋体中,是莱姆病的致病原。此外,最近的进展显示,许多细胞保留了多个环状或线性的染色体。这些通常由一个主要的染色体组成,它比次要的染色体更大,而且含有更高密度的必需基因。
细菌DNA的复制是从一个明确定义的序列开始的,称为复制起点。参与复制的蛋白质结合到起点位点,DNA合成在两个方向上进行。环状染色体只需要一个起点,复制终止于一个停止信号或两个复制叉相遇。线性细菌染色体通常有一个中心起点,复制双向进行,与环状染色体类似。然而,复制酶不能在线性染色体的末端合成新的DNA,这导致每次复制事件后DNA逐渐缩短。因此,线性染色体需要终端结构,称为端粒,来保护DNA免受降解。端粒的特征是存在多个短的非编码核苷酸序列的串联重复。
线性原核染色体演化出两种不同类型的端粒。第一种,在链霉菌中最好理解,使用一个与DNA分子的5’端共价连接的末端蛋白复合物。在复制过程中,DNA聚合酶直接将第一个合成的核苷酸结合到末端蛋白上。这种复制策略允许完整地复制线性分子,没有遗传信息的丢失。第二种,在螺旋体中最好研究,涉及在末端形成闭合的发夹结构线性DNA的复制如预期进行。一旦每条DNA链的复制完成,新合成的DNA暂时仍然相连,形成一个表面上类似于环状染色体的结构。然后招募一个特定的酶来分离两条线性链,并重新形成端粒。关于端粒结构的概述,参见参考文献。

3.3 古菌基因组

古菌的基因组既有细菌的特征,又有真核生物的特征。古菌通常具有类似于细菌基因组的环状染色体;有些物种只有一个染色体和一个复制起点,而其他物种有多个染色体和每个染色体上有多个起点。由于古菌具有原核细胞类型,缺乏有膜的细胞器(因此也没有细胞核),它们与细菌相似,允许转录和翻译同时发生。然而,在基因组信息的处理方面,它们与细菌有根本的不同。古菌中氨基酸合成的启动更接近于真核生物转录过程中使用的方式。此外,古菌的核心转录机制与真核生物更为相关。古菌和真核生物的DNA复制和修复系统也被证明有许多共同的特征。
关于古菌基因组的结构,人们知之甚少,但有些是通过组蛋白将基因组包装成染色质。染色质是一种紧凑和有组织的染色体结构,由与蛋白质密切相关的DNA组成。有趣的是,这种形式的染色质存在于所有的真核生物中,而细菌中缺乏。在使用组蛋白的古菌中(例如,热蛋白目和古埃菌),它们的组蛋白介导的染色质的几何形状与真核生物相同。然而,古菌的组蛋白通常比真核生物的组蛋白短。缺乏组蛋白的古菌类群(例如,嵴古菌)编码了与细菌染色质的结构相关的其他DNA结合蛋白。另一类DNA结合蛋白叫做Alba(乙酰化降低结合亲和力),在古菌中普遍存在。它们是丰富的小蛋白,有助于基因组的压缩,在决定古菌染色质的结构方面起着关键作用,并在基因组水平上调节基因表达。Alba蛋白已经在缺乏组蛋白和含有组蛋白的古菌中被检测到。

3.4 真核生物基因组

真核生物将它们的线性染色体隔离在一个有膜的细胞核内。线性真核染色体有三个基本的结构元素:着丝点、一对端粒和复制起点。着丝点是纺锤微管的附着点,纺锤微管是在细胞分裂过程中负责物理移动染色体的纤维。端粒是线性染色体的保护性末端。复制起点是DNA合成开始的地方。真核生物通常有多条线性染色体,每条染色体上有多个复制起点。真核生物更大的基因组大小和更慢的复制机制,使得需要多个起点来加速复制过程。
在真核细胞中,核DNA的压缩涉及到DNA与一组基因的蛋白质产物的结合,这些基因是组蛋白,它们的序列变异提供了不同的功能。真核染色体在最低水平上的组织是通过将DNA围绕组蛋白包裹,形成核小体。这种结构构成了染色质纤维的基本单元,它进一步组织成由其他蛋白质介导的高级结构。组蛋白的序列变异,结合蛋白质的翻译后修饰,影响染色体核小体的结构特性和基因表达。
真核生物DNA由至少三种类型的序列组成:独特序列DNA、中等重复DNA和高度重复DNA。独特序列DNA是指只存在一次或最多几次的基因组区域。大多数编码蛋白质的区域属于这一类别。另外,所有真核基因组中一半以上的总DNA是由中等或高度重复的序列基元组成的。中等重复DNA是指长度为160到180个碱基对(bp)的序列,重复数千次。这些序列中的一些对细胞有重要的功能,如编码RNA的类型。高度重复DNA是指长度小于60 bp的短序列,它们以数十万个拷贝的形式重复出现在基因组中。2-10 bp的重复被称为微卫星,而10-60 bp的基元被称为小卫星。

3.5 辅助DNA结构

无论是原核生物还是真核生物,都有次级染色体结构。对于真核生物,这指的是任何存在于细胞核之外的DNA形式——尽管microDNA的发现扩展了这个分类。真核生物的辅助DNA通常包含一些必需的基因,这些基因对于正常的细胞产生是必要的。例如,位于线粒体细胞器内的DNA染色体编码了一些参与氧化磷酸化和产生不同类型RNA的基因。对于原核生物,辅助DNA指的是任何与主染色体无关的DNA,与真核生物不同的是,这些DNA编码的基因通常是可有可无的。例如,一些小的环状染色体,称为质粒,通常包含一些让细菌能够在各种环境条件下生存的基因;但是它们通常不是正常细胞功能所必需的。

3.5.1 线粒体DNA

线粒体是一种双层膜结构的细胞器,它在所有真核细胞中都普遍存在。目前只有一种已知的真核细胞能够在没有线粒体的情况下存活。线粒体是必不可少的,因为它们是细胞的大部分能量的产生场所,这些能量以ATP的形式通过氧化磷酸化代谢途径产生。此外,线粒体还是铁硫(Fe/S)簇的组装场所。Fe/S簇是一种蛋白质辅因子,对于各种线粒体外的途径是必需的。缺少线粒体的真核生物,一种单角虫属的物种,是独一无二的,因为它只生活在豪猪的肠道内,并且进化出了不同的Fe/S簇形成和从环境中吸收能量的策略。
线粒体是原核细胞的衍生物,它们被所有真核生物的共同祖先吞噬。这些细胞器内的DNA是原始原核共生体的DNA基因组的残留物。因此,线粒体DNA(mtDNA)更像一个原核基因组。例如,在大多数动物和真菌中,mtDNA由一个单环染色体组成。然而,在各种原生生物、动物和真菌中,也发现了具有明确定义端粒的小线性mtDNA染色体 。此外,mtDNA的结构不是由组蛋白决定的,而是由一组小的DNA结合蛋白引起的,这些蛋白诱导类似于细菌染色质的结构。根据形状、大小、结构和数量的不同,线粒体基因组被分为六种不同的类型。
在人类中,线粒体基因组编码了直接参与氧化磷酸化的80种蛋白质中的13种。其余的蛋白质由核染色体编码。线粒体和核基因组的具体贡献在不同的真核生物中有所不同。然而,在绝大多数已知的真核生物物种中,mtDNA对于产生参与能量生产的重要蛋白质是必不可少的,这就要求所有的细胞都忠实地遗传了mtDNA。

3.5.2 质体DNA

质体是通过与一种细菌发生共生而衍生出来的,这种细胞器保留了那个原始细菌基因组的残余。与线粒体一样,质体是一种双层膜结构的细胞质细胞器。与线粒体不同的是,质体通常含有参与光合作用的色素。质体存在于原生生物和所有高等植物的细胞质中。质体DNA(ptDNA)相对于现存的光合细菌的基因组大大缩减。基因组大小的减少部分是由于基因的丢失,一些区域被切除并嵌入到宿主的核DNA中。ptDNA编码了一些对细胞活力至关重要的蛋白质。几乎所有的质体都有环状的DNA,只有隔壁虫类的Chromera velia是已知的具有线性ptDNA的唯一例子。这种线性的细胞质外的ptDNA具有类似于线性mtDNA的端粒排列。
ptDNA编码的基因参与了各种细胞组分的合成和储存,包括那些对光合作用必需的组分。质体已经分化出了不同的功能,有多种类型被鉴定出来。例如,叶绿体专门用于进行光合作用;色素体含有提供花瓣颜色的色素,而淀粉体则用于大量储存淀粉。

3.5.3 核形体DNA

核形体是一种退化的真核细胞核,存在于隐藻和绿色裸藻中,这两种都是含有质体的藻类。核形体位于这些生物的质体的内外膜之间,被认为是由一个较大的真核细胞吞噬的一种共生藻类细胞的细胞核衍生而来。因此,这种情况下的质体细胞器是由两次共生事件演化而来的:一个原核生物被一个真核生物吞噬,从而变成了光合自养的生物,然后这个细胞又被另一个真核生物吞噬。核形体的基因组非常小,与典型的核基因组相比,它们主要由单拷贝的保守基因组成,没有移动元件。隐藻的核形体基因组表明它是由一个红藻祖先衍生而来的,而绿色裸藻的核形体基因组表明它是由一个绿藻祖先衍生而来的。

3.5.4 质粒DNA

质粒是一种存在于细菌、古菌和真核生物中的DNA分子。大多数质粒是环状的,尽管也发现了线性质粒。质粒上携带的基因倾向于与一些能够在特定条件下促进或增强生存和生长的功能相关联。它们可以在原核细胞之间水平转移,是一种重要的遗传信息共享的载体。例如,一种进化出抗生素抗性基因的质粒可以转移到邻近的细菌中,促进它们对抗生素环境相关的各种压力的快速适应。
真细菌E. coli估计有超过270种质粒,它们在细胞内外有不同的分布;一些促进交配,而另一些含有杀死其他细菌的基因。已知和测序的质粒的数量在细菌中比古菌高得多,而在真核生物中则最低。近年来,质粒被广泛地用于遗传工程,作为引入和修改目标基因的一种手段。

3.5.5 microDNA

2012年,Shibata等人发现了一种真核生物中的新型细胞外DNA,称为microDNA。与其他辅助DNA不同,microDNA是由非重复序列衍生的,这些序列通常与功能基因相关联。它们是200到400 bp之间的环状DNA,存在于哺乳动物细胞的核中。microDNA被认为与核DNA的修复和维护过程有关。目前还不清楚microDNA在这些过程中是否起到功能作用,或者它们只是不可避免的副产品。目前,检测特定的microDNA被提出作为一种筛查手段,以帮助人类成功消灭肿瘤,以及一种潜在的癌症诊断和预后的方法。

4 基因组信息储存和处理

在了解DNA的结构之前,要理解遗传信息是如何编码和在代际间传递的是不可能的。DNA结构的知识导致了一种以结构为导向的基因组概念,即基因组是有序核苷酸的线性序列。一旦蛋白质合成与基因序列联系起来,基因组的结构观就开始被信息观所取代。遗传信息最初被视为一种属于特定有序亚基序列的静态属性。然而,也有人认为静态的信息观是不令人满意的(例如 )。Barbieri认为,“只有当一个序列为一个复制者提供了一个指导方针,它才成为它的信息。换句话说,只有复制的行为,才能使有机信息产生。”基于Barbieri的观点,信息并不总是一种特定结构(例如DNA或RNA)的属性;相反,他的观点是,这些分子只有在用于执行生物功能时才具有信息意义。例如,一个DNA序列被认为具有信息,如果它被转录或以一种生物学上相关的方式与一种蛋白质相互作用。同样,一个mRNA转录本也编码了信息,因为它被翻译成一种蛋白质。那么,一个蛋白质也可以被视为一个信息实体,因为它是执行生物功能所必需的。因此,在这种新的概念下,以及静态的观点下,很明显,生物信息可以在不同的生物分子中表现出来;这一观察使得基因组作为生物信息的基本单位的概念变得复杂了。
我们现在明白,维持生命所需的遗传信息的存储并不需要局限于生物分子。这一点在实验室中得到了生动的说明,当一个细菌基因组被化学测序,它的信息存储在一个计算机中(一个完全不同的由二进制状态组成的介质),然后以一种新的DNA染色体的形式重新合成,最终这种合成的DNA被用作维持一个活细胞的唯一手段。尽管生命所需的信息可以独立于DNA的化学结构而存储,但是如果没有各种蛋白质和RNA分子,它就无法以一种生物学上有用的形式表达。因此,基因组内编码的信息的表达(使这些信息产生)取决于它的细胞环境。在本节中,我们将探讨基因组中可能包含信息的不同方式,以及导致信息有用表达的机制。

4.1 基因表达

仅仅知道一个基因组的DNA序列通常是不足以预测表型的。基因表达的量和时机起着关键的作用。例如,具有细胞核的人类细胞拥有几乎相同的DNA序列的副本。然而,细胞执行不同的功能,并且它们组织起来形成构成人体的多个器官。细胞主要通过差异地调节基因的转录和/或翻译的速率来实现这一点。
DNA转录和蛋白质翻译构成了从基因型到表型的信息传递的基本层次。控制这些过程的维持对于所有生物都是基本的。参与调节基因表达的遗传元素被称为调节元件。它们通常代表DNA或RNA上发现的序列。通过这种方式,调节信息可以直接编码在核酸序列中。直接的结构邻近往往不是必要的,因为调节元件可能位于它们影响的基因的近端或远端。在人类中,大约8%的核DNA由直接参与调节的元件组成,如启动子、增强子、沉默子和绝缘子(在第4.1.1小节中定义)。
如果所有的遗传和调节信息都编码在DNA序列中,为什么任何具有完整基因组的细胞都不能用来产生一个可行的生物呢?细胞的特异性表明,除了主要的DNA序列之外,还存在其他的调节标记。这种类型的调节是表观遗传的(在基因之上的),对于正常的发育是必不可少的。表观遗传信息来源于染色体的化学修饰(例如DNA甲基化或组蛋白修饰),这些修饰不改变染色体DNA的主要序列,并且可以从一代传递到下一代。只有通过所有细胞过程的集体作用,基因产物才能贡献到生化途径中,并参与到调节相互作用的网络中,从而产生一个复杂的生物或表型。

4.1.1 转录调控

DNA转录是一种化学过程,通过它,信息从DNA转移到RNA。转录的RNA本身可能执行一些生物功能,或者可能是一种中间信息携带类的RNA,称为信使RNA(mRNA)。mRNA以及其他RNA分子(tRNA和rRNA)是用于合成蛋白质的机器的一部分。从DNA到RNA再到蛋白质的遗传信息的流动存在于所有形式的生命中。然而,重要的是要注意,信息传递并不完全是单向的。反转录酶可以将遗传信息从RNA模板转移到DNA上。
转录调节的基本模型要求调节蛋白质,即转录因子(TFs),结合到调节模块(RMs)中的特定DNA序列上。TFs是蛋白质产物,它们本身也受到基因表达的调节。RMs是根据TFs结合的DNA序列和它们在调节基因表达过程中的作用来定义的。一种RMs是启动子。它们是DNA上的特定基序,是原核生物和真核生物RNA转录的必需的调节元件。它们结合基本的转录机器,RNA聚合酶和一般的TFs。增强子是结合激活蛋白的RMs,它们增强了RNA聚合酶与启动子区域的亲和力。因此,它们导致了一个基因或一组基因的转录的上调。增强子通常是通过结构组蛋白修饰来稳定RNA聚合酶的结合而起作用的。沉默子是一种调节元件,当它们结合到抑制蛋白时,它们的功能是阻止基因的转录。沉默子和增强子通常是距离无关的,意味着它们可以作用于距离它们位置近或远的基因。增强子可以被认为是基因表达的开关,而沉默子是关闭开关。

4.1.2 翻译调控

从蛋白质编码基因转录的所有mRNA的命运并不相同。mRNA通常根据细胞和环境条件受到翻译调节的影响。这些调节机制影响蛋白质合成的速率。在原核生物和真核生物中,大多数的翻译调节涉及mRNA分子的结构变化,影响它的可及性。mRNA可以被隔离在应激颗粒中,或者定位在细胞细胞质的特定区域。另一种翻译调节的机制是RNA干扰(RNAi)。这种调节策略在真核生物中很常见,涉及到一些短的非编码RNA——微RNA(miRNA)或小干扰RNA(siRNA)——它们与它们的靶mRNA转录本不完全互补地结合。miRNA(或siRNA)与mRNA的结合使靶mRNA不稳定(或降解),从而抑制了它的翻译。不完全的配对使得一个RNAi分子能够影响多个基因的表达。在人类基因组中,几乎有50%的mRNA转录本受到一个或多个miRNA的调节。
在原核生物中,转录和翻译比在真核生物中更紧密地耦合,这使得原核生物能够主要通过控制转录的量来调节它们的基因表达。然而,原核生物仍然可以进行翻译调节。它们可以利用一些根本不同的翻译调节机器:最近发现的CRISPR-Cas系统。尽管CRISPR位点最早在1987年就在原核生物中被发现,但它直到最近才被描述为一种细菌免疫防御系统。CRISP-Cas系统最常被认为是针对外源DNA(病毒或质粒)并在它们被转录或翻译之前降解它们。最近的进展表明,一些CRISPR-Cas系统更加通用,具有靶向RNA分子的能力。这最初是在Pyrococcus furiosus中发现的;类似的RNA靶向后来在Sufolobus solfataricus中被发现。在这些进展中,CRISPR-Cas系统仍然被严格地视为一种针对和降解外源核酸分子的免疫反应。直到2016年,才发现了一种CRISPR-Cas系统,它能够靶向细胞内的mRNA,从而参与翻译调节。

4.1.3 表观遗传

表观遗传这个术语是由Waddington在1942年提出的。他将其定义为生物表型的变化,而不涉及其基因组的改变。现在我们知道,表观遗传效应导致了表型的变异,这些变异不是由于DNA的主要序列的改变,而是由于DNA的化学改变。考虑这样一个类比:在这篇综述中,每当一个词被定义时,它都是以这种格式写的。如果这一章被重写,去掉所有的粗体和斜体,那么信息的内容就不会改变;然而,强调的方式就会不同。字体中的这些“装饰性”变化类似于附加到DNA上的化学表观遗传标记。DNA甲基化是一种化学装饰的类型,类似于划掉一句话。具体来说,它对应于甲基基团添加到DNA的部分,导致基因的沉默。这些额外的信息不是直接编码在主要的DNA序列中,而是通过核苷酸的化学变化表现出来。因此,DNA甲基化是一种表观遗传的基因表达控制形式。表观遗传因素也可能通过改变蛋白质-DNA的结合来影响调节。在真核生物中,表观遗传因素可以结合到连续的组蛋白上,使它们彼此靠近。这导致了局部的DNA压缩,阻止了这个位置的基因的表达。
重要的是,生物暴露于某些环境条件下,可以影响其基因组上的表观遗传标记。因为表观遗传机制最终影响染色体的生理形式,这样的环境暴露可以导致基因表达的遗传变化,而不改变潜在的DNA序列。最初认为这些改变是不可遗传的,受精后所有的表观遗传标记都从合子基因组中移除。越来越多的证据表明,这种表观遗传标记的清除发生在大多数但不是所有的基因上。

4.2 可移动遗传元件

也被称为转座子或跳跃基因,移动遗传元素是一些可以在基因组内独立于复杂的基因表达调节网络而移动的序列。通过它们的移动,转座子通常会导致突变,要么是通过插入到一个基因中并干扰其功能,要么是通过促进DNA的重排。如果一个转座子插入到一个蛋白质编码区域,那么它无疑会影响这个基因的表达,通过改变最终的蛋白质产物。转座子也可能被插入到调节区域,导致某些基因的过度或不足表达。这些DNA序列产生自身新拷贝并插入到基因组中其他位置的能力被称为转座。转座有两种类型:
复制性(拷贝-粘贴)转座:转座子的一个新拷贝被插入到一个新的位点,而旧的拷贝仍然保留在原来的位点。这种类型的转座需要将信息转移到一个RNA中间体(逆转录转座子),然后再逆转录成DNA。这种机制导致了转座子拷贝数的增加。
非复制性(剪切-粘贴)转座:转座子从旧的位点切除,并插入到基因组中的一个新的位点。在这种情况下,转座子的数量不会增加。
转座子在所有类型的细胞中都存在。转座子的种类在原核生物和真核生物内部和之间是不同的。它们通常被视为遗传寄生物,因为它们依赖于宿主细胞的信息处理系统(复制、转录和/或翻译)。在人类中,大约44%的基因组由与转座子相关的序列组成。这些移动遗传元素对于真核生物的进化有着重要的影响。例如,siRNA调节被认为是为了重新控制转座子的表达而进化的。关于转座子的调节机制的综述,参见文献。

5 基因组在生物学中作为信息实体的角色

尽管基因组中包含的信息对于维持一个活细胞是必要的,但它本身并不足够。生物学上有用的信息的表达需要一个复杂的细胞组分网络来处理和调节基因组。这种对外部细胞组分的依赖性使得信息存储的方式具有相当大的灵活性。正如我们所看到的,对于真核生物来说,生命所必需的信息是分散在核和细胞器的染色体之间的,其中一些核编码的蛋白质被运输到细胞器中,与细胞器内合成的其他蛋白质组装在一起。因此,只要细胞的表达和处理机制到位,基因组信息就可以在细胞内物理上分散。隐藻已经将这一点发挥到了极致,它们的基因组信息分布在四个细胞区域:核、核形体、线粒体和质体。显然,基因组的物理位置不是信息存储和处理的限制。此外,信息的存储也不需要保持在特定的物理位置。在温和噬菌体的情况下,基因组信息在一段时间内被转移到宿主的基因组中,由宿主的复制过程维持。这些例子,以及其他的例子(例如),强调了将基因组首先视为一个信息实体而不考虑其物理位置的重要性。
在对传统基因组概念的批判中,Goldman和Landweber认为,将DNA视为信息的唯一来源会导致更多的困难。回想一下,NIH的定义是指基因组包含了构建和维持该生物所需的所有信息。我们现在明白,即使是细胞及其相关的细胞质也不一定足以实现基因组编码的所有功能能力。换句话说,基因组,按照传统的定义,似乎是一个不完整的信息实体。基因组研究已经发现了各种细胞外的信息实体,它们可以影响,甚至在某些情况下,对于创建和维持一个生物是必不可少的。在下面,我们回顾了这种现象的一些例子,然后根据现代基因组科学重新评估基因组的定义。
海洋蓝细菌(原绿球藻和拟球藻)是世界海洋中最丰富的光合生物之一。感染它们的病毒(蓝藻噬菌体)被发现具有它们的宿主光合作用基因的一些拷贝(例如PsbA和PsbD:)。通过水平基因转移(HGT)的过程,蓝藻噬菌体获得了宿主基因,它们在感染后表达这些基因,以优化它们自己的基因表达和扩大它们的宿主范围。这一发现虽然很新颖,但完全出乎意料的是,蓝藻和它们的噬菌体通过同源重组继续交换遗传变异。通过这种交换,PsbA和PsbD基因参与到超越光合生物物种边界的基因库中。考虑到蓝藻在全球范围内贡献了多达30%的碳固定,这些发现表明,病毒基因库的动态影响了海洋光合作用的进化。这个例子表明,要完全理解光合作用多样性的起源和分布,人们必须意识到相关的遗传信息可以存在于光合生物的基因组之外。
细菌属李斯特菌由生态上分化的谱系组成,它们通过同源重组的过程共享基因库。李斯特菌单核细胞增生杆菌是一种与无毒的李斯特菌无害菌密切相关的病原体。李斯特菌单核细胞增生杆菌通过HGT的过程进化为一种病原体,然后进一步进化为在种群结构和应对环境压力的能力上不同的生态分化的谱系。在李斯特菌中,重组的频率足够高,以使自然选择能够独立于未连锁的位点上存在的变异而起作用,从而促进或阻碍了不同生态型在不同生态位中的基因交换。这只是“镶嵌基因组”模型的一个例子,这种模型描述了原核生物基因组进化的过程,其中重组、漂变和选择的综合效应导致了由不同程度可扩展的跨物种基因库组成的基因组。现在有很多细菌物种被认为具有与镶嵌基因组模型一致的基因组动态。在某些情况下,基因组分化的过程甚至可以与生态分化的过程脱钩。因此,一些原核生物物种的物理基因组是不完整的信息实体。
单细胞的刺毛虫类原生动物氧曲尾藻和刺尾藻有两个核,它们以非常不同的形式存储基因组信息。一个核,叫做大核,包含了细胞生长和维持所需的信息。因此,大核DNA通常被称为“活跃的”。另一个核,叫做小核,以一种“存储”的形式包含了相同的信息,它用于在下一代中产生DNA的活跃形式。然而,小核中的信息存储非常复杂。大核表达的蛋白质编码基因被分割成小片段,倒置和打乱,混杂在小核中约1 GB的其他DNA序列中。此外,下一代中一个有效的大核的产生,不能没有包含在母体大核的细胞质中通过代际传递的小RNA分子(piRNA)和长RNA模板(lncRNA)中的信息。piRNA对于在活跃的大核发育过程中消除DNA是至关重要的,而lncRNA介导(1)不活跃的小核DNA的解扰,(2)大核中的基因剂量的调节,以及(3)表观遗传的转移,这些转移是在生殖系(小核)DNA中没有发现的体细胞(大核)的改变。因此,没有这些RNA分子,刺毛虫类原生动物的DNA基因组就是一个不完整的信息实体。此外,关于氧曲尾藻和刺尾藻的新近的工作表明,它们的DNA的表观遗传修饰可能在产生活跃的大核DNA中起作用。
复杂的微生物群落与人体密切相关,对人类的健康和疾病有着强烈的影响。已知宿主的遗传变异会影响这些群落的组成,反之,微生物的变异也被认为会影响各种宿主的疾病状态。这种关联是如此密切,以至于微生物组被称为另一种“人类器官”,并且许多复杂的人类疾病的遗传性的很大一部分现在被归因于,部分原因是没有充分考虑到微生物的遗传变异。以炎症性肠病(IBD)为例,人类的遗传变异只能解释其估计的遗传性的不到50%。这个结果意味着存在着未被发现的人类遗传变异对IBD的情境依赖性。我们现在已经了解到,肠道微生物组的遗传组成在个体之间存在着广泛的变异,这种变异可以影响健康和失调的人类免疫反应,并且可以预测IBD患者的结果。因为IBD表型的发展与肠道微生物组的变异相关,而且因为遗传相似的人类宿主可以有不同的微生物组,所以人类DNA变异的遗传性估计将受到影响。换句话说,人类中相似的IBD表型的表达是人类和微生物遗传的一个函数。无论这种相互作用是否应该被正式地包含在任何未来的基因组概念中,这个例子说明了人类基因组在预测健康和疾病状态方面也是一个不完整的信息实体。
Goldman和Landweber建议,应该根据我们对基因组多样性和信息存储和处理机制的现代和更深入的理解,重新构思基因组的概念。我们同意并遵循Goldman和Landweber的说法,他们呼吁“一个更广泛的基因组的定义,作为一个信息实体,通常但不总是以DNA的形式表现,编码了一系列广泛的功能能力,这些能力与其他信息来源一起,产生和维持生物”。乍一看,这似乎与一个有争议的观点是一致的,即一个由功能整合的生物组成的集合,称为全生物体,是生物组织的一个基本单元,它们的一组基因组,称为全基因组,本身是一个受自然选择影响的单元。然而,我们不能走这么远。我们预期,任何由具有一点独立性的信息实体组成的全基因组,都类似于只有一点重组的基因组内的上位性。在后一种情况下,通过补偿性替换使系统在适应度景观上移动的适应性共进化并不是很有效。此外,当信息实体在很大程度上是独立的,无论是通过高度重组(如在李斯特菌中观察到的)还是通过独立复制(如在人类肠道微生物组中),基因组分化的过程就可以与生态动态脱钩。因此,我们不能同意将全基因组作为一个选择单元的观点。相反,我们将基因组视为一个潜在的基因库的镶嵌体,受到不同的进化动力学的影响,我们遵循Goldman和Landweber的观点,首先将它视为一个信息实体,它可能是不完整的,也不必完全以一个物种边界内的DNA的形式表现。

版权声明:
作者:siwei
链接:https://www.techfm.club/p/88461.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>