病原微生物测序怎么看同源性?溯源的原理是什么?

思路

第一步 你们的核苷酸有多相似(初步判断)

拿到病原微生物基因测序的结果,先从宏观上可以看一下他们的相似性--盲人摸象 ,给了你一个大肠杆菌的基因组和一个金黄色葡萄球菌的基因组,你如何判断他们不属于同一种的细菌。我们可以把基因分成一段一段地去比较,如果相似我们才可以去看他们的同源性,这就引出一个概念

平均核苷酸同一性(ANI, Average Nucleotide Identity)的原理是通过比较两个微生物基因组中相应的DNA序列片段,来计算它们在核苷酸水平上的相似性。以下是ANI计算的详细步骤和原理:

计算步骤和原理

  • 序列分割

  • 将两个待比较的基因组分别分割成固定长度的非重叠片段,通常每个片段长度为1,000个碱基。这一步是为了使比对更为精确和高效。

  • 序列比对

  • 使用序列比对工具(如BLAST或MUMmer)将一个基因组中的每个片段与另一个基因组进行比对。比对的目的是找到每个片段在另一个基因组中的最佳匹配位置。

  • 计算相似性

  • 对于每对比对片段,计算它们的核苷酸相似性。这通常是通过计算匹配的核苷酸数占总比对长度的比例来完成的。例如,如果一个片段在比对中有950个碱基匹配,那么它们的相似性就是95%。

  • 平均相似性

  • 对所有片段的相似性值取平均,得到两个基因组之间的平均核苷酸同一性(ANI)。即:ANI=∑(相似性)片段总数/text{ANI} = /frac{/sum (/text{相似性})}{/text{片段总数}}ANI=片段总数∑(相似性)

  • ANI计算的数学表示

    假设我们有两个基因组A和B,它们分别被分割成n个片段:A={a1,a2,...,an}

    B={b1,b2,...,bn}

    对于每个片段

    aia_i(基因组A中的第i个片段),在基因组B中找到与之最佳匹配的片段bjb_j,计算它们的核苷酸相似性S(ai,bj)S(a_i, b_j)。

    ANI的计算公式为:ANI=1n∑i=1nS(ai,bj)

    其中,S(ai,bj) 是片段ai和bjj 的相似性值,通常表示为百分比(0到100之间的值)。

    几种常用的ANI计算工具包括:

  • BLAST-based ANI

  • 使用BLAST比对基因组片段,计算相似性。尽管BLAST比较慢,但它是非常常用和标准化的工具。

  • MUMmer-based ANI

  • 使用MUMmer进行快速基因组比对,特别适用于处理大规模基因组数据。

  • FastANI

  • 一个专门设计用于快速计算ANI的工具,适用于处理大量基因组数据,速度快且计算资源消耗少。

  • 第二步 你们之间太相似了怎么看同源性(仔细判断)

    如果相似度不高,溯源的意义也不大,上图中结果ANI值达到99.99%,这个基本是同一个种了,那后续应该怎么分析。就好像有一次疫情,你拿到了病原菌的测序结果,怎么去判断他们同源呢.此时就要从基因的结构上去考虑。就好像你去评判一对姐妹到底有多相像,可以说他们鼻子,嘴巴,眼睛,头发,脸型都很像

    泛基因组(Pangenome)是指一个物种或一个分类群中所有基因的总集合。这个概念最早是在细菌和微生物的基因组研究中提出的,用于描述一个物种内存在的所有基因的多样性和变异性。

    泛基因组通常可以分为以下几个部分:

  • 核心基因组(Core Genome)

  • 包含在所有个体或菌株中都存在的基因。这些基因通常与基本的细胞功能和生存相关,如基础代谢、DNA复制和翻译机制。核心基因组是物种的遗传特征和定义部分。

  • 分散基因组(Accessory Genome)

  • 也称为可变基因组,包含不是所有个体或菌株都拥有的基因。这些基因可能只在部分菌株中存在,通常与特定环境适应性、毒力因子、抗生素抗性和其它特定功能相关。分散基因组反映了个体或菌株之间的遗传多样性。

  • 特异基因组(Unique Genome)

  • 包含仅在某些特定个体或菌株中存在的基因。这些基因可能代表非常特定的功能或适应性,通常用于识别特定菌株或进行分型分析。

                                   同源性及溯源的原理

    当我们将基因进行分类后,就可以去比对,这时可以选择一个参考基因组,我们看每一个菌相对于参考基因组 有哪些变异,这些变异发生在泛基因组的哪一部分(这个变异的重要性,如果是核心基因组的某些不重要的SNP,是不是就可以把它忽略,当然也可能是测序错误)

    最后进行汇总,根据变异的(数量)趋势走向,综合判断他们是不是同源,并对其进行溯源

    分析流程

  • 1. 基因预测和注释

  • 基因预测:如果基因组数据尚未注释,需要使用工具(如Prokka、RAST)进行基因预测,即识别基因的编码序列(CDS)。

  • 功能注释:为识别出的基因分配功能注释,这通常依赖于与已知数据库(如Pfam、COG、KEGG)的比对。

  • 2. 基因聚类

  • 同源基因簇(Orthologous Clustering):使用基因比对工具(如BLASTP、DIAMOND)将所有基因组中的基因按相似性聚类。常用的工具包括OrthoMCL、OrthoFinder和Roary等。这一步的目的是识别同源基因(orthologs)和同源基因簇(orthologous groups)。

  • 核心基因组和可变基因组识别:根据基因在不同菌株中的分布情况,确定核心基因组(所有菌株共有的基因)、可变基因组(部分菌株特有的基因)和独特基因(仅存在于单个菌株中的基因)。

  • 3. 泛基因组分析

  • 基因存在-缺失矩阵:生成一个基因存在-缺失矩阵,记录每个基因在各个菌株中的存在情况。这有助于分析基因的分布模式。

  • 泛基因组曲线:绘制泛基因组曲线(pan-genome curve),展示随着样本数量增加,核心基因组和可变基因组大小的变化。这可以帮助理解基因多样性的动态。

  • 功能注释和富集分析:分析核心和可变基因组的功能,识别特定功能的基因在菌株间的分布差异。

  • 4. 数据可视化

  • 基因组比较图:使用工具(如BRIG、Mauve、ACT)可视化基因组之间的同源关系和结构差异。

  • 基因组树和系统发育分析:基于核心基因组或全基因组数据,构建系统发育树,揭示菌株间的进化关系。

    当然我们最终的目的是绘制出 基因组比较图、或者系统发育树。在后面的我们会推出实战视频

    创作不易,麻烦大家关注!!!

    您的关注是我不断前进的动力!!!

  • 版权声明:
    作者:dingding
    链接:https://www.techfm.club/p/143436.html
    来源:TechFM
    文章版权归作者所有,未经允许请勿转载。

    THE END
    分享
    二维码
    < <上一篇
    下一篇>>