annovar基因注释
1.annovar安装
https://annovar.openbioinformatics.org/en/latest/user-guide/download/官网下载压缩包(注册后邮箱会收到下载地址)上传至服务器进行解压
mkdir annotation
可以看到目录下包含的文件
2.构建数据库**
annovar目录下新建数据库目录
mkdir species
上传fa与gff文件
2.1. 将基因组的注释文件转换为ANNOVAR所识别的格式
2.1.1gffread是一个用于处理GFF格式文件的工具,它可以从GFF文件中提取基因组注释信息,并将其转换为其他格式,使用gffread将gff文件转换为gtf文件
gffread species.gff -T -o species.gtf
2.1.2使用gtfToGenePred生成建库需要的 genePred 文件,使用annovar的retrieve_seq_from_fasta.pl软件生成转录组序列文件
gtfToGenePred -genePredExt species.gtf S_refGene.txt
2.2 将vcf文件转换为ANNOVAR格式
annotate_variation.pl程序需要一个简单的基于文本的格式,我们称之为ANNOVAR输入格式。convert2annovar.pl 脚本可以将其他“基因型调用”格式转换为ANNOVAR格式。-format vcf4 参数可用于将 VCF 文件转换为 ANNOVAR 输入格式,老版本使用-format vcf4 -allsample -withfreq代替,代码如下:
perl convert2annovar.pl -format vcf4 file.vcf > file.avinput
3 .进行变异文件的注释(所有文件放在同一目录下)
annotate_variation.pl -geneanno -buildver species file.avinput annovar/
-geneanno/-regionanno/-filter分别对应于基于基因、基于区域和基于过滤的注释。常用基于基因注释结果文件:第一个文件variant_function包含所有变体的注释,第二个输出文件exonic_variant_function包含由于外显子变体而导致的氨基酸变化。
微信公众号生信小树同名
共有 0 条评论