「基因组」OMArk评估蛋白

OMArk依赖于查询蛋白质组和生命树中预先计算的基因家族之间的快速、无比对的序列比较,可评估整个基因库相对于密切相关物种的完整性和一致性。与BUSCO软件相比,OMArk可以同时量化编码基因库存在的基因缺失、基因模型定义不准确、非编码序列错误等。OMArk引入了两套评价体系,可以进行基因组完整性(Completeness)和一致性(Consistency)评价,可以获得更清晰的注释质量图片。
文章来源:Nature Biotechnology在线发表论文:Quality assessment of gene repertoire annotations with OMArk,描述了一个用于评估蛋白质编码基因注释质量的OMArk软件包

软件地址

https://github.com/DessimozLab/OMArk

软件安装

conda install -c bioconda omark

软件使用

export PATH=/share/nas1/pengzw/software/anaconda3/2023.09/envs/omark_0.3.0/bin:$PATH
source /share/nas1/pengzw/software/anaconda3/2023.09/bin/activate 
conda activate omark_0.3.0

omamer search --db LUCA.h5 --query /share/nas1/pengzw/database/Arabidopsis_thaliana/Col-PEK1.5/pep.fa --out pep.fa.db
mkdir output1
#第一次运行需要网连接ncbi下载
omark -f pep.fa.db -d LUCA.h5 -o output1
plot_all_results.py -i output -o fig.png
2个重要评估结果:完整性(Completeness)和一致性(Consistency),都是用柱状图展示,其中missing和unknown比例越少越好。

版权声明:
作者:感冒的梵高
链接:https://www.techfm.club/p/148505.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>