超大基因组，hisat2 超长染色体物种的转录组分析？windows下生信分析效率区别？

Mr李 • 2023-10-09 12:11 • 杂文

各种原因，今晚晚睡。
想想还是简单记录一下，大体是好友刘教授最近在搞一个超大基因组，总大小是 12G+，同时只有 5 个染色体。这意味着每条染色体的长度都很长，超过 1G 很正常。这当然让我想起来大蒜基因组。
两个人折腾了两天，愣是没怎么找到原因。后来想想，基因组太大的可能性不大，因为小麦有 16G。于是剩下的或许是单个染色体太长？与朋友大鸡哥确认了下，bing测试了下。初步结果，确实如此。
大体是 hisat2-build 可以支持超长染色体，但实际上 hisat2-align 则无法支持。所以一旦装载了染色体，开始比对时，就会报错，error 代码 134。
解决的办法简单，
结合 IGV 和基因结构注释信息，找几个断点，把染色体都分为单条长度不超过 1G 的基因组，随后用做基因组，进行比对测试。逻辑上，这个并不会影响到基因表达量估算。或者其他转录组数据分析....
另外一个有趣的发现是，WSL2 模式的运行效率远远低于 TBtools 插件。或许多了一层虚拟机（WSL2本质也是虚拟机），到底还是慢了很多，无论是 IO 还是 CPU 效率。或许，真是是 10 倍差异。那么是 1个小时和 10个小时的区别。

版权声明：
作者：Mr李
链接：https://www.techfm.club/p/75162.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

代码

二维码

《无眠之境》：守护正义之责，无所畏惧

< <上一篇

中科院/太原理工/大工CEJ：修饰氮化碳实现高效光催化产氢

下一篇>>

搜索内容

超大基因组，hisat2 超长染色体物种的转录组分析？windows下生信分析效率区别？

取消回复

共有 0 条评论

Ads