全外显子组测序(WES)分析3: 变异功能注释(SnpEff / VEP )

1. 使用/color{green}{SnpEff}注释 VCF 文件

1.1 下载和安装 SnpEff

# 下载 SnpEff
$ wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip

# 解压
$ unzip snpEff_latest_core.zip

# 进入 SnpEff 目录
$ cd snpEff

1.2 下载参考基因组数据库

$ java -jar snpEff.jar download GRCh38.92
$ unzip snpEff_v4_3_GRCh38.92.zip # 解压

$ vi snpEff.config
# 添加:
# GRCh38.92.genome : Homo_sapiens

1.3 注释 VCF 文件

$ java -jar snpEff.jar ann GRCh38.92 CC56tissueA.markdup.filtered.vcf > CC56tissueA_snpEff_annotated.vcf

1.4 结果解读

注释完成后会生成snpEff_genes.txt文件和snpEff_summary.html文件,记录了注释的摘要信息,并另外生成一个新的vcf文件包含详细注释信息

  1. Summary(摘要信息):
    从上往下依次是:基因组(物种名)、注释日期、snpEff版本、注释命令、警告信息、错误信息、输入文件行数、变异位点数(过滤之前)、非变异位点数(与参考基因组碱基一致)、变异位点数(过滤之后)、具有ID的变异位点数、非双等位基因组SNP位点数、effects个数、参考基因组总长度、参考基因组有效长度、变异率(参考基因组有效长度/变异位点数)

    snpEff-1

2) Variants rate details(各染色体变异率):
从上往下:染色体编号、长度、变异位点数、变异率(多少个碱基中有一个变异位点)

3)Number variants by type(变异类型):
从上往下:SNP(单核苷酸多态性)、MNP(多核苷酸多态性)、INS(插入变异)、DEL(缺失变异)、MIXED(混合变异)、INV(倒位变异)、DUP(重复变异)、BED(易位变异)、INTERVAL(间隔变异)

4) Number of effects by impact(有效影响数量):
从上往下:HIGH(变异对基因或蛋白质功能有严重破坏性影响,比如:移码突变(frameshift)、无义突变(nonsense)、剪接位点变异(splice site variants)等)、LOW(变异对基因或蛋白质功能有轻微影响,比如:同义突变(synonymous),即不改变氨基酸序列的突变)、MODERATE(变异对基因或蛋白质功能有显著但不太严重的影响,比如:错义突变(missense)、非同义突变(nonsynonymous)等)、MODIFIER(变异对基因或蛋白质功能影响未知或极小,比如:位于基因间区的变异(intergenic variants)、下游基因变异(downstream variants)、上游基因变异(upstream variants)等)

5)Number of effects by functional class(功能分级有效数):
从上往下:MiSSENSE(错义突变)、NONSENSE(无义突变)、SILENT(沉默突变)

snpEff-2

6)Number of effects by type and region(有效变异数和百分比):
左边为按类型划分有效变异数,包括(从上往下):3’端主要UTR变异(UTR是成熟mRNA分子5'或3'端不被翻译的部分,一般在mRNA转运、稳定性和翻译调节中起重要作用)、5’端主要UTR提前启动子获得变异、5’端主要UTR变异、下游基因变异、起始密码子编码变异、基因间隔区、内含子变异、剪接受体变异、剪接供体变异、剪接区域变异、起始缺失、起始保留变异、终止获得、终止缺失、终止保留变异、同义变异、上游基因变异。
右边为按区域划分有效变异数,包括(从上往下):下游、外显子、间隔区、内含子、剪接位点受体、剪接位点供体、剪接位点区域、上游、3’UTR区、5’UTR区

snpEff-3

7) Base changes (SNPs)(SNP位点碱基变异表):
可以看出SNP中哪些碱基的转换比较多(A腺嘌呤、C胞嘧啶、G鸟嘌呤、T胸腺嘧啶)

8)Ts/Tv (transitions / transversions)(转换/颠换):
显示转换/颠换的比例和数量,以及不同类型的转换/颠换的数量和百分比。转换是指嘌呤与嘌呤或嘧啶与嘧啶之间的替代,颠换是指嘌呤与嘧啶之间的替代

snpEff-4

2. 使用/color{green}{VEP}注释 VCF 文件

2.1 下载和安装 VEP

# 下载 VEP
$ wget https://github.com/Ensembl/ensembl-vep/archive/refs/tags/release/112.0.tar.gz

$ tar -zxf ensembl-vep-release-112.0.tar.gz
$ cd ensembl-vep-release-112.0

# 安装依赖
$ sudo apt-get update
$ sudo apt-get install -y perl build-essential libdbi-perl libdbd-mysql-perl libmysqlclient-dev cpanminus

# 安装 HTSlib 及其 Perl 绑定(HTSlib 是 VEP 处理 VCF 文件时所需的库)
$ sudo apt-get install -y libhts-dev libhts2
$ sudo cpanm Bio::DB::HTS

$ ./vep # 检测是否安装成功
## 
## #----------------------------------#
## # ENSEMBL VARIANT EFFECT PREDICTOR #
## #----------------------------------#
## 
## Versions:
##   ensembl              : 112.3add379
##   ensembl-funcgen      : 112.be19ffa
##   ensembl-io           : 112.2851b6f
##   ensembl-variation    : 112.4113356
##   ensembl-vep          : 112.0
## 
## Help: [email protected] , [email protected]
## Twitter: @ensembl
## 
## http://www.ensembl.org/info/docs/tools/vep/script/index.html
## 
## Usage:
## ./vep [--cache|--offline|--database] [arguments]
## 
## Basic options
## =============
## 
## --help                 Display this message and quit
## 
## -i | --input_file      Input file
## -o | --output_file     Output file
## --force_overwrite      Force overwriting of output file
## --species [species]    Species to use [default: "human"]
## 
## --everything           Shortcut switch to turn on commonly used options. See web
##                        documentation for details [default: off]
## --fork [num_forks]     Use forking to improve script runtime
## 
## For full option documentation see:
## http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html
## 

2.2 下载所需的参考数据

$ perl INSTALL.pl -a cf -s homo_sapiens -y GRCh38 # 下载速度缓慢

# 或手动下载(也慢)
$ wget  http://ftp.ensembl.org/pub/release-112/variation/vep/homo_sapiens_vep_112_GRCh38.tar.gz
$ wget https://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

$ tar -xvzf homo_sapiens_vep_112_GRCh38.tar.gz # 解压
$ gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

$ samtools faidx Homo_sapiens.GRCh38.dna.primary_assembly.fa # 建立索引

2.3 注释 VCF 文件

$ ./vep -i CC56tissueA.markdup.filtered.vcf --fork 4 -o CC56tissueA_VEP_annotated.vcf --assembly GRCh38 --cache --dir_cache /data/shumin/software/ensembl-vep-release-112.0/vep_cache --assembly GRCh38 --offline --fasta /data/shumin/software/ensembl-vep-release-112.0/vep_cache/Homo_sapiens.GRCh38.dna.primary_assembly.fa --vcf

2.4 结果解读

注释完成后同样会生成“CC56tissueA_VEP_annotated.vcf_summary.html”文件,记录注释信息

版权声明:
作者:玉兰
链接:https://www.techfm.club/p/137236.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>