生信分析22：完整的转座子注释流程

感冒的梵高 • 2023-10-19 12:01 • 杂文

本次推送是文献分享22的对应内容。

我与生信，公众号：我与生信文献分享22：泛基因组解析柑橘亚科进化以及柑橘果实中柠檬酸积累的关键基因

EDTA是比较推荐的一款注释TE的软件，图1是其运行流程图。

图1

第一步，EDTA利用内置的其他软件进行初始注释，这一步的注释结果并不是最终结果，而是构建一个该物种特异性的转座子库。

第二步，对初始注释的结果进行过滤。

第三步构建该物种特异性的TE库，这一步可以加入其他库进行补充。注释的本质还是基于同源性，所以这一步库越丰富越好。

第四步注释得到最终结果。

分析流程

图2

软件依赖：EDTA (https://github.com/oushujun/EDTA)，安装代码为图2。

输入文件：基因组序列文件(fa格式)和注释文件(gtf格式)

EDTA进行转座子注释存在两个问题：

1、SINE和LINE类型的转座子注释效果很差，可以提供人工矫正的SINE和LINE库用以补充。

2、注释出的LTR型转座子很多是未分类的，可以利用DeepTE软件进行进一步分类。

下面开始介绍整合这两个解决方案后的EDTA完整注释流程。

图3

第一步使用EDTA进行初步注释（图3）

注意提前进入EDTA环境

图4

EDTA参数说明（图4）

--genome 指定参考基因组

--species 指定注释TIR转座子的方法，该软件一开始是针对玉米和水稻设计的，因此选项里带有玉米和水稻，对于其他物种，选择others即可。

--step 运行注释流程的哪一步，见图 1中的流程。

--curatedlib 提供额外数据库。

--cds 是否进行CDS过滤，一般没必要。

--sensitive 1指定运行RepeatModeler，0不运行，运行RepeatModeler会极其慢，需注意。

--exclude 用于屏蔽某些区域，一般也没必要。

--repeatmodeler和—repeatmasker 指定两个软件的安装目录，一般没必要，可自行查找。

--u 指定核苷酸变异速率，用来计算LTR插入时间。

图5

图6

--curatedlib参数加入了额外的SINE/LINE库，可以从SIINE base数据库(https://sines.eimb.ru/)下载（图5和图6）。

第二步利用DeepTE对未分类的LTR进一步分类（图7）

DeepTE基于深度学习进行进一步分类

图7

第三步重新运行EDTA进行最终注释（图8）

图8

图9

genome.fa.mod.EDTA.TEanno.sum文件包含了最终的统计信息（图9）。

参考链接

https://genek.cn/

版权声明：
作者：感冒的梵高
链接：https://www.techfm.club/p/77815.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

GitHub 代码

二维码

#消息#CloudSilk ，德国9929 VPS涨价(已购用户不受影响)，年付￥299.9起/500Mbps带宽

< <上一篇

【硕士论文开题报告】干货满满，不看后悔！

下一篇>>

搜索内容

生信分析22：完整的转座子注释流程

取消回复

共有 0 条评论

Ads