全外显子组测序(WES)分析3: 变异功能注释(SnpEff / VEP )
1. 使用注释 VCF 文件
1.1 下载和安装 SnpEff
# 下载 SnpEff
$ wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
# 解压
$ unzip snpEff_latest_core.zip
# 进入 SnpEff 目录
$ cd snpEff
1.2 下载参考基因组数据库
$ java -jar snpEff.jar download GRCh38.92
$ unzip snpEff_v4_3_GRCh38.92.zip # 解压
$ vi snpEff.config
# 添加:
# GRCh38.92.genome : Homo_sapiens
- 手动下载(选择符合自己需要的物种及版本):https://sourceforge.net/projects/snpeff/files/databases
- 也可根据基因组fasta序列信息和GTF注释信息,自行构建数据库(java -jar snpEff.jar build)
1.3 注释 VCF 文件
$ java -jar snpEff.jar ann GRCh38.92 CC56tissueA.markdup.filtered.vcf > CC56tissueA_snpEff_annotated.vcf
1.4 结果解读
注释完成后会生成snpEff_genes.txt文件和snpEff_summary.html文件,记录了注释的摘要信息,并另外生成一个新的vcf文件包含详细注释信息
-
Summary(摘要信息):
从上往下依次是:基因组(物种名)、注释日期、snpEff版本、注释命令、警告信息、错误信息、输入文件行数、变异位点数(过滤之前)、非变异位点数(与参考基因组碱基一致)、变异位点数(过滤之后)、具有ID的变异位点数、非双等位基因组SNP位点数、effects个数、参考基因组总长度、参考基因组有效长度、变异率(参考基因组有效长度/变异位点数)
2) Variants rate details(各染色体变异率):
从上往下:染色体编号、长度、变异位点数、变异率(多少个碱基中有一个变异位点)
3)Number variants by type(变异类型):
从上往下:SNP(单核苷酸多态性)、MNP(多核苷酸多态性)、INS(插入变异)、DEL(缺失变异)、MIXED(混合变异)、INV(倒位变异)、DUP(重复变异)、BED(易位变异)、INTERVAL(间隔变异)
4) Number of effects by impact(有效影响数量):
从上往下:HIGH(变异对基因或蛋白质功能有严重破坏性影响,比如:移码突变(frameshift)、无义突变(nonsense)、剪接位点变异(splice site variants)等)、LOW(变异对基因或蛋白质功能有轻微影响,比如:同义突变(synonymous),即不改变氨基酸序列的突变)、MODERATE(变异对基因或蛋白质功能有显著但不太严重的影响,比如:错义突变(missense)、非同义突变(nonsynonymous)等)、MODIFIER(变异对基因或蛋白质功能影响未知或极小,比如:位于基因间区的变异(intergenic variants)、下游基因变异(downstream variants)、上游基因变异(upstream variants)等)
5)Number of effects by functional class(功能分级有效数):
从上往下:MiSSENSE(错义突变)、NONSENSE(无义突变)、SILENT(沉默突变)
6)Number of effects by type and region(有效变异数和百分比):
左边为按类型划分有效变异数,包括(从上往下):3’端主要UTR变异(UTR是成熟mRNA分子5'或3'端不被翻译的部分,一般在mRNA转运、稳定性和翻译调节中起重要作用)、5’端主要UTR提前启动子获得变异、5’端主要UTR变异、下游基因变异、起始密码子编码变异、基因间隔区、内含子变异、剪接受体变异、剪接供体变异、剪接区域变异、起始缺失、起始保留变异、终止获得、终止缺失、终止保留变异、同义变异、上游基因变异。
右边为按区域划分有效变异数,包括(从上往下):下游、外显子、间隔区、内含子、剪接位点受体、剪接位点供体、剪接位点区域、上游、3’UTR区、5’UTR区
7) Base changes (SNPs)(SNP位点碱基变异表):
可以看出SNP中哪些碱基的转换比较多(A腺嘌呤、C胞嘧啶、G鸟嘌呤、T胸腺嘧啶)
8)Ts/Tv (transitions / transversions)(转换/颠换):
显示转换/颠换的比例和数量,以及不同类型的转换/颠换的数量和百分比。转换是指嘌呤与嘌呤或嘧啶与嘧啶之间的替代,颠换是指嘌呤与嘧啶之间的替代
2. 使用注释 VCF 文件
2.1 下载和安装 VEP
# 下载 VEP
$ wget https://github.com/Ensembl/ensembl-vep/archive/refs/tags/release/112.0.tar.gz
$ tar -zxf ensembl-vep-release-112.0.tar.gz
$ cd ensembl-vep-release-112.0
# 安装依赖
$ sudo apt-get update
$ sudo apt-get install -y perl build-essential libdbi-perl libdbd-mysql-perl libmysqlclient-dev cpanminus
# 安装 HTSlib 及其 Perl 绑定(HTSlib 是 VEP 处理 VCF 文件时所需的库)
$ sudo apt-get install -y libhts-dev libhts2
$ sudo cpanm Bio::DB::HTS
$ ./vep # 检测是否安装成功
##
## #----------------------------------#
## # ENSEMBL VARIANT EFFECT PREDICTOR #
## #----------------------------------#
##
## Versions:
## ensembl : 112.3add379
## ensembl-funcgen : 112.be19ffa
## ensembl-io : 112.2851b6f
## ensembl-variation : 112.4113356
## ensembl-vep : 112.0
##
## Help: [email protected] , [email protected]
## Twitter: @ensembl
##
## http://www.ensembl.org/info/docs/tools/vep/script/index.html
##
## Usage:
## ./vep [--cache|--offline|--database] [arguments]
##
## Basic options
## =============
##
## --help Display this message and quit
##
## -i | --input_file Input file
## -o | --output_file Output file
## --force_overwrite Force overwriting of output file
## --species [species] Species to use [default: "human"]
##
## --everything Shortcut switch to turn on commonly used options. See web
## documentation for details [default: off]
## --fork [num_forks] Use forking to improve script runtime
##
## For full option documentation see:
## http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html
##
2.2 下载所需的参考数据
$ perl INSTALL.pl -a cf -s homo_sapiens -y GRCh38 # 下载速度缓慢
# 或手动下载(也慢)
$ wget http://ftp.ensembl.org/pub/release-112/variation/vep/homo_sapiens_vep_112_GRCh38.tar.gz
$ wget https://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
$ tar -xvzf homo_sapiens_vep_112_GRCh38.tar.gz # 解压
$ gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
$ samtools faidx Homo_sapiens.GRCh38.dna.primary_assembly.fa # 建立索引
2.3 注释 VCF 文件
$ ./vep -i CC56tissueA.markdup.filtered.vcf --fork 4 -o CC56tissueA_VEP_annotated.vcf --assembly GRCh38 --cache --dir_cache /data/shumin/software/ensembl-vep-release-112.0/vep_cache --assembly GRCh38 --offline --fasta /data/shumin/software/ensembl-vep-release-112.0/vep_cache/Homo_sapiens.GRCh38.dna.primary_assembly.fa --vcf
2.4 结果解读
注释完成后同样会生成“CC56tissueA_VEP_annotated.vcf_summary.html”文件,记录注释信息
:
共有 0 条评论