跟着Nature Communications学数据分析:基因组水平的比对鉴定结构变异
论文
Pan-genome inversion index reveals evolutionary insights into the subpopulation structure of Asian rice
https://www.nature.com/articles/s41467-023-37004-y
水稻PangenomeInversionNC.pdf
基因组水平比对然后鉴定结构变异的代码
论文中关注的结构变异主要是Inversion
用4个流程鉴定Inversion,然后对4个流程的结果进行评估
1和2流程是把已经组装好的染色体进行滑动窗口的切分,相当于是把组装好的染色体重新打散成为了long reads,比对软件选择NGMLR,变异检测软件分别选择SVIM和Sniffles
3和4流程是在全基因组水平进行比对,比对软件分别选择minimap2和nucmer,然后变异检测软件选择的是syri
然后是对着四种方法进行评估,具体怎么评估没太看明白,还需要再仔细看,最终选择的是mummer完整基因组水平上的比对 然后用syri软件去检测变异的方法
接下来参考论文中提供的第四个流程的代码,用拟南芥的数据试试
首先是mummer比对
nucmer -t 8 -p output An1.fa Ler.fa
delta-filter -i 95 -l 15000 -o 95 output.delta -1 > output.delta.best
show-snps -Clr output.delta.best > output.delta.best.snps
# 这一步会获得ps格式的图
mummerplot -p output.best output.delta.best -t postscript
# ps转换成pdf
ps2pdf output.best.ps output.best.pdf
# pdf 转换成png
convert -density 300 output.best.pdf output.best.png
接下来是利用syri做变异检测
syri直接使用conda安装就可以
delta-filter -m -i 80 -l 100 output.delta > m_i80_l100.delta
show-coords -THrd m_i80_l100.delta > m_i80_l100.coords
syri -c m_i80_l100.coords -d m_i80_l100.delta -r An1.fa -q Ler.fa --prefix An1Ler --nc 8
# 运行完会对应着生成一个vcf文件
# syri这个软件有着一个对应的画图程序plostr
plotsr --sr An1Lersyri.out --genomes genomes.txt -W 10 -H 8 -o An1Ler.pdf
最终出图
拟南芥小基因组的整个过程计算还是挺快的
抽空再仔细看看论文的结果描述和讨论
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!
微信公众号好像又有改动,如果没有将这个公众号设为星标的话,会经常错过公众号的推文,个人建议将 小明的数据分析笔记本 公众号添加星标,添加方法是
共有 0 条评论