SNP x SNP 上位效应(epistasis)分析

1、什么是SNP上位效应

SNP(单核苷酸多态性)的上位效应(epistatic effect) 是指不同基因位点间的相互作用对表型或性状的影响。当两个SNP共同作用时,其对表型的影响可能显著不同于单独考察时的效应。

在传统的全基因组关联分析(GWAS)中,通常只计算单个SNP与表型的相关性。然而,分析SNP之间的互作效应(上位效应)能够揭示更多遗传学机制。本教程将介绍如何进行全基因组的SNP间上位效应与表型的相关性分析。

2、上位效应模型公式

上位效应的回归模型为:

上位效应的公式为:Y ~ b0 + b1.A + b2.B + b3.AB + e

注释:

- Y: 表型

- A、B: 两个变异位点(通常为SNP)

- AB: 两位点交互项

- b3: 表示交互效应,若显著,表明存在上位效应。

3、分析步骤

1)准备基因型文件(可参考之前发过的GWAS全基因组关联分析教程生成基因型文件)

基因型文件:文件格式可以是.ped/.map或者.bed/.bim/.fam,这里以 .ped/.map 格式为例:

.ped文件:包含个体的基因型信息。

.map文件:包含SNP的位置信息。

基因型文件test.ped
基因型文件test.map

2)准备表型文件

表型分为二分类和非二分类表型(多分类或者连续型表型)。

① 二分类表型文件phenocc.txt: 

第一列为FID(可以是群体等)

第二列为IID(个体唯一ID)

第三列为表型(1是control,2是case)

② 多分类或者连续型表型文件phenoq.txt: 

第一列为FID(可以是群体等)

第二列为IID(个体唯一ID)

第三列为表型

举例如下:

第一列为FID(可以是群体等),第二列为IID(个体唯一ID),第三列为表型

3)全基因组所有SNP的上位效应分析

① 二分类表型的命令如下:plink --file test --pheno phenocc.txt --epistasis --epi1 1 --noweb --out test

生成结果文件:

- test.epi.cc:包含SNP间交互的统计结果。

- test.epi.cc.summary:摘要统计,包括显著交互对数量。

test.epi.cc

不同列所代表的意思:

CHR1   Chromosome of first SNP

SNP1    Identifier for first SNP

CHR2    Chromosome of second SNP

SNP2     Identifier for second SNP

OR_INT  Odds ratio for interaction

STAT      Chi-square statistic, 1df

P             Asymptotic p-value

test.epi.cc.summary

不同列所代表的意思:
CHR                        Chromosome

SNP                        SNP identifier

N_SIG                     # significant epistatic tests (p <= "--epi2" threshold) 

N_TOT                    # of valid tests (i.e. non-zero allele counts, etc) 

PROP                     Proportion significant of valid tests

BEST_CHISQ         Highest statistic for this SNP

BEST_CHR             Chromosome of best SNP

BEST_SNP             SNP identifier of best SNP

② 连续型表型分析命令:plink --file test --pheno phenoq.txt --epistasis --epi1 1 --noweb --out test

生成结果文件:

- test.epi.qt:交互结果。

- test.epi.qt.summary:摘要统计。

每列所代表的意思同二分类表型结果文件。

test.epi.qt
test.epi.qt.summary

4)指定SNP之间的上位效应分析

准备包含指定SNP的文件(如epi.set1),格式如下:

指定的SNP放中间,以START和END作为开头和结尾

分析命令:plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --epi1 1 --epi2 0.3 --noweb --out testset1

注释:--epi2指的是对显著的test进行计数,阈值可以是0.05,0.01等,这里设定为0.3,该值针对N_SIG一列设定的。

生成结果如下:

5)指定SNP与全基因组SNP的上位效应分析

准备文件(如epi.set2),格式如下:

分析命令:plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set2 --epi1 1 --epi2 0.3 --noweb --out testset2

生成的结果如下所示:

6)指定SNP与全基因组SNP的上位效应分析

命令如下:plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --set-by-all --epi1 1 --epi2 1 --noweb --out testset1

结果如下:

总结

通过PLINK软件的--epistasis参数,可以高效分析SNP之间的上位效应,进一步挖掘遗传基础。推荐根据研究规模和需求调整阈值参数(如--epi1、--epi2),优化结果输出。


生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~

版权声明:
作者:admin
链接:https://www.techfm.club/p/172287.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>