annovar好用却又不完全会用
annovar作为老牌变异注释软件,用起来还是挺方便的,速度也挺快,可以输出txt格式的结果,是一个不错的选择。支持的输入格式有pileup、cg、cgmastervar、gff3-solid、soap、maq、casava、vcf4、vcf4old、rsid。
annovar将注释分成三大类:gene-based (注释突变发生的基因组功能区及对功能的影响)、region-based (注释突变与基因组特定片段的关系)、filter-based (基于已知变异数据库注释突变),程序操控时 (即operation参数) 对应的字段分别为g、r、f。注释程序为table_annovar.pl、annotate_variation.pl,前者依赖于后者且一次性可完成三种注释,后者一次只能完成一种注释,推荐使用前者。
常规使用还是相当方便的,先下载需要的数据库:
# 所有可用的数据库:https://annovar.openbioinformatics.org/en/latest/user-guide/download/#additional-databases
annotate_variation.pl -buildver hg38 -downdb -webfrom annovar refGene hg38db
然后,就可以愉快的注释了:
table_annovar.pl sample.vcf hg38db /
--buildver hg38 /
--outfile sample /
--protocol refGene,cytoBand,gnomad211_exome /
--operation g,r,f /
--remove --nastring . /
--vcfinput
如果需要三种注释方法对应的额外参数,可以查看annotate_variation.pl的所有参数,后面括号里面标明了参数属于gene-based、region-based、filter-based中的哪一类,然后使用如下的方式提供:
table_annovar.pl sample.vcf hg38db /
--buildver hg38 /
--outfile sample /
--protocol refGene,cytoBand,gnomad211_exome /
--operation g,r,f /
--argument '-hgvs --separate',, /
--remove --nastring . /
--vcfinput -csvout
基因提供的数据库的常规注释方法确实很方便,基本也已经可以满足日常需求。但软件还是提供了一些参数可以自定义数据库文件,如--gff3dbfile、--bedfile、--genericdbfile、--vcfdbfile参数,前两个属于region-based,后两个属于filter-based,指定operation参数值时分别为gff3、bed、generic、vcf。以下是解析相应文件时的一些关键提示:
-
解析gff3文件时,只会体用1、4、5、6、9这几列的信息,后面两列分别为score、attribute信息。默认输出score,是否输出attribute信息由gff3attribute参数控制。
-
解析bed文件时,文件至少还有3列分别为chr、start、end,多余的列会用逗号分隔作为一个字段输出,如果没有则为NA。
-
解析genericdb文件时前6列,分别为chr、start、end、ref、obs、 score,其余的列为otherinfo。文件至少包含5列,若只有5列则score为NA。如果score为数值型会先用于过滤结果,否则会直接输出。
-
解析vcf文件时,默认会检查是否有AF或者AF1,不存在时检查是否有AC或者AN,然后基于此计算score值,如果没有则为NA。如果使用了infoasscore参数,则score替换为INFO列信息;或者使用了idasscore参数,则score替换为ID列信息。
在官方文档和网络上都没有找到对自定义数据库的使用描述,这些参数使用起来略显吃力,记录一下:
table_annovar.pl sample.vcf hg38db /
--buildver hg38 /
--outfile sample /
--protocol vcf /
--operation f /
--vcfdbfile customer.vcf /
--remove --nastring . /
--vcfinput -csvout
如果不知道自定义数据库文件怎么用也没有关系,可以直接下载官方的数据库,常规方法就可以搞定,实在不行也可以换个软件来搞定,比如snpEff、SnpSift也挺好用。
共有 0 条评论