Popgene微卫星使用笔记
1. 输入文件准备
1. 从GeneMaker阅读汇总微卫星的位点信息
2. 转换为ABCD...基因型
按照固定的规则转换基因型,各个位点的ABCD...独立
3. 加表头
/* Diploid alphabetic data of 2 populations each with varying records (genotypes) & 4 loci */
Number of populations = 2
Number of loci = 4
Locus name :
4. 分群体
第2及之后的群体需空两行
5. 创建分析文件
将以上内容复制粘贴到一个txt文件中,文件位置无所谓
2. 分析
1. 读取文件
软件左上角file → Load Data → 导入模式(co-domainant marker data)
共显性标记数据(Co-dominant marker data):指在杂合子中,两个等位基因都能表现出来的标记数据。例如,SNP标记和微卫星标记都属于共显性标记。
显性标记数据(Dominant marker data):指在杂合子中,只有一个等位基因能表现出来的标记数据。例如,AFLP和RAPD标记都属于显性标记。
数量性状数据(Quantitative Trait Data):指用来描述数量性状的数据。数量性状是由多个基因控制的,表现为连续变化的性状。例如,身高、体重和血压都属于数量性状。
2. 分析
左上角Co-Dominant→Diploid Data(二倍体)
1.Data Formal
不是很清楚,选默认的Variable column
2.Hirarchical Structure
单个亚群分析选Single Populations
多个亚群一起分析选Multiple Populations
多个亚群分别分析选Groups
3. Single-locus —— 按需选择
1.Genotypic Frequency
分位点计算每个基因型的频率
观测到的基因型频率(Observed Genotype Frequency, Obs. (O)):指在一个群体中,某个基因型所占的比例。
期望的基因型频率(Expected Genotype Frequency, Exp. (E)):指根据遗传学原理,预计在一个群体中,某个基因型所占的比例。
卡方值(Chi-Square Value, (O-E)?E):用来衡量观测到的基因型频率与期望的基因型频率之间的差异。卡方值越大,表示观测到的基因型频率与期望的基因型频率之间的差异越大。
似然比值(Likelihood Ratio, 2OLn(O/E)):用来衡量观测到的数据与期望数据之间的拟合程度。似然比值越大,表示观测到的数据与期望数据之间拟合得越差。
2.HW test
第一个表是卡方检验,第二个表是似然比检验
需要关注的是Probability,如该表的结果表明该位点符合哈温平衡。若两表结果不一致,则自由心证了
3.Fixation Index
衡量群体因遗传结构而分化的指标
结果为负值代表该位点杂合子多,遗传多样性高
反之则遗传多样性低
4.Allele Frequency
即每个位点的频率
5.Allele Number & Effective Allele Number
6.polymorphic loci
似乎是具有多态性的位点
7.Obs Homozygosity & Exp Homozygosity
观测纯合度与期望纯合度
8.Shannon Index
衡量物种多样性的指标
9.Obs Heterozygosity & Exp Heterozygosity
观测杂合度与期望杂合度
如题
10.Homogeneity test
检测样本是否来自同一总体
11.F-statistics
12.Gene Flow
这里及后续分析似乎应选择Multiple Populations
13.Gene Distance
对角线以上为遗传同一性
对角线以下为遗传距离
14.Dendrogram
15.Neutrality test
在Ewens-Watterson中性检验中,F值是一种用于衡量群体中等位基因频率分布与中性演化模型预期分布之间差异的统计量。它是基于群体中等位基因数量和频率计算的。
F值越接近1,表示群体中等位基因频率分布与中性演化模型预期分布越接近;F值越接近0,表示群体中等位基因频率分布与中性演化模型预期分布越不接近。在Ewens-Watterson检验中,如果观察到的F值显著低于预期值,则拒绝零假设,认为群体不符合中性演化模型。
每行表示一个基因座的检验结果。第一列(Locus)表示基因座名称,第二列(n)表示样本大小,第三列(k)表示等位基因数量。第四列(Obs. F)表示观察到的F值,第五列(Min F)和第六列(Max F)分别表示F值的最小值和最大值。第七列(Mean*)表示F值的平均值,第八列(SE*)表示标准误差,第九列(L95*)和第十列(U95*)分别表示F值的95%置信区间的下限和上限。
4. multilocus
two-locus ld和smouse分别表示两位点连锁不平衡(two-locus linkage disequilibrium)和Smouse检验。
两位点连锁不平衡是指两个基因座之间的连锁不平衡。连锁不平衡是指不同基因座之间的等位基因频率不是独立的。两位点连锁不平衡可以用来研究基因座之间的关联性。
Smouse检验是一种用于检验群体中等位基因频率分布与中性演化模型预期分布之间差异的方法。它基于群体中等位基因数量和频率计算,可以用来检验群体是否符合中性演化模型。
5.区别
单位点分析是指对单个基因座进行分析。它只考虑一个基因座的信息,可以用来研究单个基因座的遗传变异、连锁不平衡和自然选择等问题。
多位点分析是指同时对多个基因座进行分析。它考虑了多个基因座之间的关联性,可以用来研究群体遗传结构、基因流和群体演化历史等问题。
共有 0 条评论