超大基因组,hisat2 超长染色体物种的转录组分析?windows下生信分析效率区别?

各种原因,今晚晚睡。
想想还是简单记录一下,大体是好友刘教授最近在搞一个超大基因组,总大小是 12G+,同时只有 5 个染色体。这意味着每条染色体的长度都很长,超过 1G 很正常。这当然让我想起来大蒜基因组。
两个人折腾了两天,愣是没怎么找到原因。后来想想,基因组太大的可能性不大,因为小麦有 16G。于是剩下的或许是单个染色体太长?与朋友大鸡哥确认了下,bing测试了下。初步结果,确实如此。
大体是 hisat2-build 可以支持超长染色体,但实际上 hisat2-align 则无法支持。所以一旦装载了染色体,开始比对时,就会报错,error 代码 134。
解决的办法简单,
结合 IGV 和 基因结构注释信息,找几个断点,把染色体都分为单条长度不超过 1G 的基因组,随后用做基因组,进行比对测试。逻辑上,这个并不会影响到基因表达量估算。或者其他转录组数据分析....
另外一个有趣的发现是,WSL2 模式的运行效率远远低于 TBtools 插件。或许多了一层虚拟机(WSL2本质也是虚拟机),到底还是慢了很多,无论是 IO 还是 CPU 效率。或许,真是是 10 倍差异。那么是 1个小时 和 10个小时的区别。

版权声明:
作者:Mr李
链接:https://www.techfm.club/p/75162.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>