二进制文件转vcf文件时样本名重名?

1.plink文件与vcf文件格式的相互转换

vcf转plink

plink --vcf i.vcf--recode --out i

生成i.map及i.ped文件

plink --file i --make-bed --out i

生成bed/bim/fam的二进制文件
plink转vcf

plink --bfile i --export vcf --out i

2.转换过程中遇到的一个小问题

大家在做二进制格式(BED/BIM/FAM)转为vcf文件时是否遇到这种情况:样本名Y1 变为Y1_Y1,后续分析过程中如进化树枝名称为样本名重名显得繁琐,造成这种问题的原因是plink在使用--export vcf命令会合并family IDs 和 within-family IDs并在它们之间添加下划线

3.解决方案

3.1不同版本的plink解决方案不同

plink1.9版本

plink --bfile file --recode vcf-iid --out file1

plink2.0版本

plink2 --bfile file --recode vcf id-paste=iid --out file1

更多内容可查看官网,附官网地址

plink1.9版本:https://www.cog-genomics.org/plink/1.9/

plink2.0版本:https://www.cog-genomics.org/plink/2.0/

3.2bcftools

如果已经转为样本名重名的vcf文件,我们可以使用bcftools的reheader命令对样本名进行重命名

bcftools reheader -s file.txt file.vcf -o output.vcf

-s后跟替换的样本名文件(单名文件)

微信公众号生信小树同名

版权声明:
作者:dingding
链接:https://www.techfm.club/p/68590.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>