SNP x SNP 上位效应(epistasis)分析
1、什么是SNP上位效应
SNP(单核苷酸多态性)的上位效应(epistatic effect) 是指不同基因位点间的相互作用对表型或性状的影响。当两个SNP共同作用时,其对表型的影响可能显著不同于单独考察时的效应。
在传统的全基因组关联分析(GWAS)中,通常只计算单个SNP与表型的相关性。然而,分析SNP之间的互作效应(上位效应)能够揭示更多遗传学机制。本教程将介绍如何进行全基因组的SNP间上位效应与表型的相关性分析。
2、上位效应模型公式
上位效应的回归模型为:
上位效应的公式为:Y ~ b0 + b1.A + b2.B + b3.AB + e
注释:
- Y: 表型
- A、B: 两个变异位点(通常为SNP)
- AB: 两位点交互项
- b3: 表示交互效应,若显著,表明存在上位效应。
3、分析步骤
1)准备基因型文件(可参考之前发过的GWAS全基因组关联分析教程生成基因型文件)
基因型文件:文件格式可以是.ped/.map或者.bed/.bim/.fam,这里以 .ped/.map 格式为例:
.ped文件:包含个体的基因型信息。
.map文件:包含SNP的位置信息。
2)准备表型文件
表型分为二分类和非二分类表型(多分类或者连续型表型)。
① 二分类表型文件phenocc.txt:
第一列为FID(可以是群体等)
第二列为IID(个体唯一ID)
第三列为表型(1是control,2是case)
② 多分类或者连续型表型文件phenoq.txt:
第一列为FID(可以是群体等)
第二列为IID(个体唯一ID)
第三列为表型
举例如下:
3)全基因组所有SNP的上位效应分析
① 二分类表型的命令如下:plink --file test --pheno phenocc.txt --epistasis --epi1 1 --noweb --out test
生成结果文件:
- test.epi.cc:包含SNP间交互的统计结果。
- test.epi.cc.summary:摘要统计,包括显著交互对数量。
不同列所代表的意思:
CHR1 Chromosome of first SNP
SNP1 Identifier for first SNP
CHR2 Chromosome of second SNP
SNP2 Identifier for second SNP
OR_INT Odds ratio for interaction
STAT Chi-square statistic, 1df
P Asymptotic p-value
不同列所代表的意思:
CHR Chromosome
SNP SNP identifier
N_SIG # significant epistatic tests (p <= "--epi2" threshold)
N_TOT # of valid tests (i.e. non-zero allele counts, etc)
PROP Proportion significant of valid tests
BEST_CHISQ Highest statistic for this SNP
BEST_CHR Chromosome of best SNP
BEST_SNP SNP identifier of best SNP
② 连续型表型分析命令:plink --file test --pheno phenoq.txt --epistasis --epi1 1 --noweb --out test
生成结果文件:
- test.epi.qt:交互结果。
- test.epi.qt.summary:摘要统计。
每列所代表的意思同二分类表型结果文件。
4)指定SNP之间的上位效应分析
准备包含指定SNP的文件(如epi.set1),格式如下:
分析命令:plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --epi1 1 --epi2 0.3 --noweb --out testset1
注释:--epi2指的是对显著的test进行计数,阈值可以是0.05,0.01等,这里设定为0.3,该值针对N_SIG一列设定的。
生成结果如下:
5)指定SNP与全基因组SNP的上位效应分析
准备文件(如epi.set2),格式如下:
分析命令:plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set2 --epi1 1 --epi2 0.3 --noweb --out testset2
生成的结果如下所示:
6)指定SNP与全基因组SNP的上位效应分析
命令如下:plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --set-by-all --epi1 1 --epi2 1 --noweb --out testset1
结果如下:
总结
通过PLINK软件的--epistasis参数,可以高效分析SNP之间的上位效应,进一步挖掘遗传基础。推荐根据研究规模和需求调整阈值参数(如--epi1、--epi2),优化结果输出。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~
共有 0 条评论