生信分析22:完整的转座子注释流程
本次推送是文献分享22的对应内容。
我与生信,公众号:我与生信文献分享22:泛基因组解析柑橘亚科进化以及柑橘果实中柠檬酸积累的关键基因
EDTA是比较推荐的一款注释TE的软件,图1是其运行流程图。
图1
第一步,EDTA利用内置的其他软件进行初始注释,这一步的注释结果并不是最终结果,而是构建一个该物种特异性的转座子库。
第二步,对初始注释的结果进行过滤。
第三步构建该物种特异性的TE库,这一步可以加入其他库进行补充。注释的本质还是基于同源性,所以这一步库越丰富越好。
第四步 注释得到最终结果。
分析流程
图2
软件依赖:EDTA (https://github.com/oushujun/EDTA),安装代码为图2。
输入文件:基因组序列文件(fa格式)和注释文件(gtf格式)
EDTA进行转座子注释存在两个问题:
1、SINE和LINE类型的转座子注释效果很差,可以提供人工矫正的SINE和LINE库用以补充。
2、注释出的LTR型转座子很多是未分类的,可以利用DeepTE软件进行进一步分类。
下面开始介绍整合这两个解决方案后的EDTA完整注释流程。
图3
第一步 使用EDTA进行初步注释(图3)
注意提前进入EDTA环境
图4
EDTA参数说明(图4)
--genome 指定参考基因组
--species 指定注释TIR转座子的方法,该软件一开始是针对玉米和水稻设计的,因此选项里带有玉米和水稻,对于其他物种,选择others即可。
--step 运行注释流程的哪一步,见图 1中的流程。
--curatedlib 提供额外数据库。
--cds 是否进行CDS过滤,一般没必要。
--sensitive 1指定运行RepeatModeler,0不运行,运行RepeatModeler会极其慢,需注意。
--exclude 用于屏蔽某些区域,一般也没必要。
--repeatmodeler和—repeatmasker 指定两个软件的安装目录,一般没必要,可自行查找。
--u 指定核苷酸变异速率,用来计算LTR插入时间。
图5
图6
--curatedlib参数加入了额外的SINE/LINE库,可以从SIINE base数据库(https://sines.eimb.ru/)下载(图5和图6)。
第二步 利用DeepTE对未分类的LTR进一步分类(图7)
DeepTE基于深度学习进行进一步分类
图7
第三步 重新运行EDTA进行最终注释(图8)
图8
图9
genome.fa.mod.EDTA.TEanno.sum文件包含了最终的统计信息(图9)。
参考链接
https://genek.cn/
共有 0 条评论