生信工具 | 宏基因组测序数据的基因组组装方法基准测试
宏基因组组装的目的是从宏基因组测序数据中重建微生物基因组。这种方法从根本上推进了对宿主相关微生物群落和自由生活微生物的研究。2023年3月,《Briefings in Bioinformatics》发表了一项研究结果,使用模拟、模拟群落和人类肠道微生物组的宏基因组测序数据集,对19种宏基因组组装工具进行了基准测试。

该基准测试涉及比较基本的contig统计信息,包括总组装长度(AL),基因组分数(GF),contig N50,NA50,归一化NGA50,错配和错误组装。我们还评估了在contig binning 后宏基因组组装基因组(MAG)的连续性(MAG N50)、质量(#MQ:中等质量MAG的数量;#HQ:高质量MAG的数量;#NC:近完整MAG的数量)和微生物的注释(可以从MAG中注释的微生物数量)。

基准测试表明:长读长组装工具生成了高contig N50,但未能揭示一些中等和高质量的MAGs。linked-read组装工具从人类肠道微生物组中获得了最多的近完整MAGs。使用短读长和长读长测序的混合组装工具是改善总组装长度和近完整MAGs数量的有希望的方法。





小结:
1)短读长组装工具生成的contig连续性和#NC最低。
2)在高深度测序数据集(>100X)上,MEGAHIT优于IDBA-UD和metaSPAdes;在低复杂度数据集(深度<100X)上metaSPAdes的结果优于MEGAHIT和IDBA-UD。
3)linked-read组装工具的contig N50显著高于短读长组装工具。
4)Athena在来自人类肠道微生物组的数据集中表现出比cloudSPAdes更高的contig N50,并且在所有组装器中生成了最高的#NC。
5)长读长组装工具表现出较高的contig N50,但生成的#MQ和#HQ较短读长和linked-read组装工具要小。
6)MetaFlye、Canu和Lathe比其他长读长组装工具表现更好。MetaFlye在ONT和PacBio CLR数据集上生成了最高的GFs和ALs。Lathe在ONT数据集上比metaFlye和Canu生成了更高的#NC。
7)混合组装比短读长和长读长组装具有更高(或至少相似)的GFs和ALs,并且生成的#HQ和#NC比长读长组装工具更高。
8)Unicycler和MaSuRCA生成的GF和AL较其他混合组装器较低,但实现了最高的contig连续性。Unicycler或OPERA-MS在Illumina和PacBio CLR测序的真实数据集上生成了最高的#NC。MaSuRCA在Illumina和ONT测序的真实数据集上获得了比其他混合组装工具更多的#NC。

小结:
1)与MEGAHIT相比,MetaSPAdes和IDBA-UD的运行时间更长,内存使用率显著更高。
2)linked-read组装工具中,cloudSPAdes的运行时间明显比Athena长,消耗的峰值内存也比Athena高。Canu在每个CAMI数据集上完成宏基因组组装需要7天以上的时间,这是其他长读长组装工具所需时间的两倍多。
3)混合组装工具中,Unicycler的速度平均比其他工具慢32.37倍,而metaFlye-subassemblies的速度平均比其他工具快29.74倍,Unicycler所需的内存比所有其他混合组装器都要多。
参考文献
Zhenmiao Zhang and others, Benchmarking genome assembly methods on metagenomic sequencing data, Briefings in Bioinformatics, Volume 24, Issue 2, March 2023, bbad087, https://doi.org/10.1093/bib/bbad087
首发公号:深圳国家基因库大数据平台
共有 0 条评论