生信分析22:完整的转座子注释流程

本次推送是文献分享22的对应内容。

我与生信,公众号:我与生信文献分享22:泛基因组解析柑橘亚科进化以及柑橘果实中柠檬酸积累的关键基因

EDTA是比较推荐的一款注释TE的软件,图1是其运行流程图。

图1

第一步,EDTA利用内置的其他软件进行初始注释,这一步的注释结果并不是最终结果,而是构建一个该物种特异性的转座子库。

第二步,对初始注释的结果进行过滤。

第三步构建该物种特异性的TE库,这一步可以加入其他库进行补充。注释的本质还是基于同源性,所以这一步库越丰富越好。

第四步 注释得到最终结果。

分析流程

图2 

软件依赖:EDTA (https://github.com/oushujun/EDTA),安装代码为图2。

输入文件:基因组序列文件(fa格式)和注释文件(gtf格式)

EDTA进行转座子注释存在两个问题:

1、SINE和LINE类型的转座子注释效果很差,可以提供人工矫正的SINE和LINE库用以补充。

2、注释出的LTR型转座子很多是未分类的,可以利用DeepTE软件进行进一步分类。

下面开始介绍整合这两个解决方案后的EDTA完整注释流程。

图3

第一步 使用EDTA进行初步注释(图3)

注意提前进入EDTA环境

图4 

EDTA参数说明(图4)

--genome 指定参考基因组

--species 指定注释TIR转座子的方法,该软件一开始是针对玉米和水稻设计的,因此选项里带有玉米和水稻,对于其他物种,选择others即可。

--step 运行注释流程的哪一步,见图 1中的流程。

--curatedlib 提供额外数据库。

--cds 是否进行CDS过滤,一般没必要。

--sensitive 1指定运行RepeatModeler,0不运行,运行RepeatModeler会极其慢,需注意。

--exclude 用于屏蔽某些区域,一般也没必要。

--repeatmodeler和—repeatmasker 指定两个软件的安装目录,一般没必要,可自行查找。

--u 指定核苷酸变异速率,用来计算LTR插入时间。

图5

图6

--curatedlib参数加入了额外的SINE/LINE库,可以从SIINE base数据库(https://sines.eimb.ru/)下载(图5和图6)。

第二步 利用DeepTE对未分类的LTR进一步分类(图7)

DeepTE基于深度学习进行进一步分类

图7

第三步 重新运行EDTA进行最终注释(图8)

图8

图9

genome.fa.mod.EDTA.TEanno.sum文件包含了最终的统计信息(图9)。

参考链接

https://genek.cn/

版权声明:
作者:感冒的梵高
链接:https://www.techfm.club/p/77815.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>