求助:megahit拼装会出现重复的contig
按照megahit+prodigal+cd-hit+salmon的流程,在进行salmon的时候会出现报错[puff::index::jointLog] [error] In FixFasta, two references with the same name but different sequences: k149_99354_1. We require that all input records have a unique name up to the first whitespace (or user-provided separator) character.
由于样本量较多,是采用的单样本组装,组装之后通过cat将所有的样本合并,之后再进行基因预测以及基因定量。最后一步步检查发现是经过megahit之后会出现在每个样本的组装结果中都会出现k149_99354这个序列名,导致最终的final.contigs.fa会重复出现两个一样的序列名,情况如下:
单样本megahit的结果中会出现大量重复的序列名,这两个样本在第一个空格之前的序列名是相同的,这样就会导致后续salmon的分析出错。
请问我应该怎么合并这两个文件,才能让他不重复。我在网上看到有一种方法是对megahit之后的文件序列名进行重命名,如果按照这种方法的话我应该重命名为什么格式比较恰当。以及会影响后续的binning等分析吗?
或者我可以先尝试一下,对megahit之后的fa先进行cd-hit-est,在合并cd-hit之后的文件,在进行基因预测。
版权声明:
作者:zhangchen
链接:https://www.techfm.club/p/93088.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论