跟着Nature Communications学数据分析:基因组水平的比对鉴定结构变异

论文

Pan-genome inversion index reveals evolutionary insights into the subpopulation structure of Asian rice

https://www.nature.com/articles/s41467-023-37004-y

水稻PangenomeInversionNC.pdf

基因组水平比对然后鉴定结构变异的代码

https://github.com/YongZhou2019/YongZhou2019.github.io/tree/main/Rice-Population-Reference-Panel/software/sv-for-o.sativa

论文中关注的结构变异主要是Inversion

用4个流程鉴定Inversion,然后对4个流程的结果进行评估

1和2流程是把已经组装好的染色体进行滑动窗口的切分,相当于是把组装好的染色体重新打散成为了long reads,比对软件选择NGMLR,变异检测软件分别选择SVIM和Sniffles

3和4流程是在全基因组水平进行比对,比对软件分别选择minimap2和nucmer,然后变异检测软件选择的是syri

然后是对着四种方法进行评估,具体怎么评估没太看明白,还需要再仔细看,最终选择的是mummer完整基因组水平上的比对 然后用syri软件去检测变异的方法

接下来参考论文中提供的第四个流程的代码,用拟南芥的数据试试

首先是mummer比对

 nucmer -t 8 -p output An1.fa Ler.fa
delta-filter -i 95 -l 15000 -o 95 output.delta -1 > output.delta.best
show-snps -Clr output.delta.best > output.delta.best.snps
# 这一步会获得ps格式的图
mummerplot -p output.best output.delta.best -t postscript
# ps转换成pdf
ps2pdf output.best.ps output.best.pdf
# pdf 转换成png
convert -density 300 output.best.pdf output.best.png
image.png

接下来是利用syri做变异检测

syri直接使用conda安装就可以

delta-filter -m -i 80 -l 100 output.delta > m_i80_l100.delta
show-coords -THrd m_i80_l100.delta > m_i80_l100.coords
syri -c m_i80_l100.coords -d m_i80_l100.delta -r An1.fa -q Ler.fa --prefix An1Ler --nc 8
# 运行完会对应着生成一个vcf文件
# syri这个软件有着一个对应的画图程序plostr

plotsr --sr An1Lersyri.out --genomes genomes.txt -W 10 -H 8 -o An1Ler.pdf

最终出图

image.png

拟南芥小基因组的整个过程计算还是挺快的

抽空再仔细看看论文的结果描述和讨论

image.png

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

微信公众号好像又有改动,如果没有将这个公众号设为星标的话,会经常错过公众号的推文,个人建议将 小明的数据分析笔记本 公众号添加星标,添加方法是

点开公众号的页面,右上角有三个点

image.png

点击三个点,会跳出界面

image.png

直接点击 设为星标 就可以了

版权声明:
作者:倾城
链接:https://www.techfm.club/p/42243.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>