生信步骤|原核生物基因组注释–Prokka
全基因组注释是鉴定生物基因组特征的过程。Prokka是一个适用于原核生物基因组注释工具,可以注释细菌,古菌和病毒基因组。Prokka在预测基因组CDS区域时采用了多种数据库,内置的三个核心数据库包括ISfinder数据库,NCBI细菌抗性数据库和UniprotKB数据库。
此外,prokka内置基因CDS预测工具prodigal引用量较高,是目前十分可靠的原核生物基因组快速注释工具。其结果不仅能够注释出基因的位置,亦能够给出注释基因的功能信息。
1.软件安装
$ conda install -c bioconda prokka -y
2.运行Prokka开始预测
Prokka核心运行命令非常简单,仅用一行即可。参数可以根据需求自行修改。
$ prokka genome.fna --outdir ./annotation --prefix test_bacteria --kingdom Bacteria
#第一个参数为待注释的基因组文件,格式为fasta。
#--outdir指定预测结果文件夹,请勿提前新建,否则会报错!
#--prefix指定预测结果前缀,此处指定前缀为test_bacteria。
#--kingdom指定待预测物种类型,共有四种:Archaea|Bacteria|Mitochondria|Viruses。
输出文件:
.txt
prokka注释出的各类型序列统计信息。
.faa
输出的氨基酸序列文件,包含了功能注释。
.gff
输出的编码基因注释文件。
.fna
输入的核苷酸序列文件。
该软件使用简单,运行快速。掌握上述常用命令可以满足大部分使用场景。如需调整参数或自定义注释蛋白库,可以参考Prokka在Github的主页:https://github.com/tseemann/prokka
参考信息:
- Prokka Github. https://github.com/tseemann/prokka
- 原核生物基因组快速注释——Prokka。https://zhuanlan.zhihu.com/p/379981540
共有 0 条评论