重复基因鉴定原理
Gene duplication and evolution in recurring polyploidization–diploidization cycles in plants
使用 dupGen_finder 识别不同的基因重复模式。
- 首先,使用蛋白质序列( E < 1e-10,前5个匹配和 m8格式输出) 进行全对全局的局部 BLASTP 以搜索每个基因组内所有潜在的同源基因对。
- 使用 MCScanX 算法来鉴定 WGD 衍生的基因对。
- 将这些 WGD 对从整个同源对(或 BLASTP 命中)中排除,以进一步确定单基因复制。
- 如果 BLASTP 中的两个基因在同一染色体上相邻,它们就被定义为串联基因对。
- 近端基因对被定义为在同一染色体上由10个或更少的基因分离的非串联对。
- 为了鉴定转座重复,从整套同源基因对中推导出 WGD、串联基因和近端基因对。转座重复对需要满足以下标准: 一个基因存在于其祖先基因座(命名为亲本拷贝) ,另一个位于非祖先基因座(转座拷贝)。两类基因可视为祖先位点: (i)种内共线基因和(ii)种间共线基因。种内共线性基因可以从 WGD 衍生的基因对中获得,这些基因对已经在上面被鉴定。通过基因组间同线性分析识别种间共线性基因,在目标基因组和外群基因组之间的种间 BLASTP 文件上执行 MCScanX。
- 比如:以 Nelumbo nucifera 和 Spirodela polyrhiza 为外群,分别对所有的双子叶植物和单子叶植物进行鉴别。以 Amborella trichopoda 为外群,寻找 Nelumbo nucifera 和 Spirodela polyrhiza 祖先的共线块。位于这些保守的同线性区块中的基因被认为是祖先基因座。
- Chlorophytes (绿藻)、Bryophytes (苔藓植物)、 Lycophytes (石松类植物) 和其他植物之间共线区块的稀少阻碍了通过应用种间共线分析来鉴定这些物种的祖先基因座。因此,我们构建了这些具有较大进化距离的物种的基因之间的直系同源关系,从而推导出保守的祖先基因。为了鉴定 p. patens (一种苔藓植物)和 s. moellendorffii (一种石松)中的祖先基因座,我们使用 OrthoFinder 和全基因组蛋白质序列来推断这两个物种和其他五个物种的正交群: P. abies ,S. polyrhiza ,N. nucifera ,Amborella trichopoda 和 Arabidopsis thaliana 。基于上述直系同源群,如果 P. patens 或 S. moellendorffii 中的一个基因在至少两个其他谱系中具有直系同源对,则认为该基因是古代的,并且可能存在于陆生植物的共同祖先中。同样,我们在八种绿藻中建立了正交群,以确定每种绿藻基因组内的祖先位点。在以上步骤的基础上,BLASTP 命中一个祖先位点和一个新的位点被定义为转座重复。
- 最后,从整套同源基因对中去除 WGD、串联、近端和转座重复后,剩余的基因对被归类为散在重复。注意到同一个散在的基因可能有几个 BLASTP 命中导致一个基因的多个基因对,我们只考虑在这种情况下具有最高相似性的散在的基因对。
WGD >> TD >> PD >> TRD >> DSD
WGD:全基因组复制
TD:串联重复(相邻的两个重复基因)
PD:近端重复(相隔10个以内基因的重复基因)
TRD:转置重复(祖先和新基因座组成的重复基因)
DSD:分散重复(不相邻也不共线性的重复基因)
SL:单拷贝
共有 0 条评论