求助：megahit拼装会出现重复的contig

zhangchen • 2023-12-22 22:40 • 杂文

按照megahit+prodigal+cd-hit+salmon的流程，在进行salmon的时候会出现报错[puff::index::jointLog] [error] In FixFasta, two references with the same name but different sequences: k149_99354_1. We require that all input records have a unique name up to the first whitespace (or user-provided separator) character.

由于样本量较多，是采用的单样本组装，组装之后通过cat将所有的样本合并，之后再进行基因预测以及基因定量。最后一步步检查发现是经过megahit之后会出现在每个样本的组装结果中都会出现k149_99354这个序列名，导致最终的final.contigs.fa会重复出现两个一样的序列名，情况如下：

图1 megahit结果

单样本megahit的结果中会出现大量重复的序列名，这两个样本在第一个空格之前的序列名是相同的，这样就会导致后续salmon的分析出错。

请问我应该怎么合并这两个文件，才能让他不重复。我在网上看到有一种方法是对megahit之后的文件序列名进行重命名，如果按照这种方法的话我应该重命名为什么格式比较恰当。以及会影响后续的binning等分析吗？

或者我可以先尝试一下，对megahit之后的fa先进行cd-hit-est,在合并cd-hit之后的文件，在进行基因预测。

版权声明：
作者：zhangchen
链接：https://www.techfm.club/p/93088.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

“最佳”与”完美”

< <上一篇

今天24节气冬至，看长春新区

下一篇>>

搜索内容

求助：megahit拼装会出现重复的contig

取消回复

共有 0 条评论

Ads