二进制文件转vcf文件时样本名重名?
1.plink文件与vcf文件格式的相互转换
vcf转plink
plink --vcf i.vcf--recode --out i
生成i.map及i.ped文件
plink --file i --make-bed --out i
生成bed/bim/fam的二进制文件
plink转vcf
plink --bfile i --export vcf --out i
2.转换过程中遇到的一个小问题
大家在做二进制格式(BED/BIM/FAM)转为vcf文件时是否遇到这种情况:样本名Y1 变为Y1_Y1,后续分析过程中如进化树枝名称为样本名重名显得繁琐,造成这种问题的原因是plink在使用--export vcf命令会合并family IDs 和 within-family IDs并在它们之间添加下划线
3.解决方案
3.1不同版本的plink解决方案不同
plink1.9版本
plink --bfile file --recode vcf-iid --out file1
plink2.0版本
plink2 --bfile file --recode vcf id-paste=iid --out file1
更多内容可查看官网,附官网地址
plink1.9版本:https://www.cog-genomics.org/plink/1.9/
plink2.0版本:https://www.cog-genomics.org/plink/2.0/
3.2bcftools
如果已经转为样本名重名的vcf文件,我们可以使用bcftools的reheader命令对样本名进行重命名
bcftools reheader -s file.txt file.vcf -o output.vcf
-s后跟替换的样本名文件(单名文件)
微信公众号生信小树同名
共有 0 条评论