NOVOPlasty—环状基因组的从头组装工具和异质性/变异检测工具

NOVOPlasty 是一种用于短环状基因组的从头组装工具和异质性/变异检测工具。

1. 寻找合适的种子序列(seed)

有三种种子序列类型可选择:

(1) 数据集中来自细胞器基因组的单个读段(如rbcL)。首选

(2)来自同种或相关物种的细胞器序列。

(3)更远缘物种的完整细胞器序列(当没有密切相关的序列可用时推荐)。

格式应为标准的 fasta 文件(第一行:> Id_sequence)。对于在线粒体和叶绿体基因组中相似的种子序列要谨慎。使用 RUBP 序列作为叶绿体组装的种子效果很好。

2. 创建配置文件

可以下载示例文件(config.txt)并根据需要调整设置。

配置文件的每个参数将在下面解释。

3. 运行 NOVOPlasty

无需进一步安装:perl NOVOPlasty4.3.1.pl -c config.txt

使用 conda 安装:conda install bioconda/label/cf201901::novoplasty

使用 conda 运行:NOVOPlasty4.3.1.pl -c config.txt

输入的读段优先选择是未压缩的 Illumina 读段(fastq/fasta 文件)文件。

不要过滤或质控!!使用原始的全基因组数据集(只应去除接头序列)。

可以尝试不同的 K-mer。在覆盖率低或种子错误的情况下,建议降低 K-mer(设置在 21~39 之间)!

Configuration file

下面是一个用于叶绿体组装的配置文件示例。为了使组装工具正常工作,配置文件必须具有完全相同的结构。(确保等号后总是有一个空格,并且每个参数都在一行内)

1. Example of configuration file: 

参数解释

Project name = BS

PS:BS为项目选择一个名称,该名称将用于输出文件。

Type = chloro     

PS:三个选择,“chloro” 用于叶绿体组装,“mito” 用于线粒体组装,“mito_plant” 用于植物线粒体组装。

Genome Range = 120000-200000

PS:(最小基因组大小-最大基因组大小) 预期的基因组大小范围。线粒体默认值12000-20000 /叶绿体默认值:120000-200000。如果预期大小已知,可以缩小范围,这在有重复区域时会有用,这可能导致基因组的过早环化。

K-mer = 33    

PS:必须是整数,这是匹配读段之间的重叠长度(默认:33)。如果读段长度小于90 bp或数据覆盖率低,此值应降低到23。对于长度大于101 bp的读段,可以增加此值,但不是必需的。

Max memory= 7

PS:可以选择最大内存使用量,适用于自动子采样数据或内存有限的情况。如果内存充足,请留空,否则写下您可用的内存大小(GB)。例如,如果您有8 GB RAM的笔记本电脑,填写7或7.5(不要在配置文件中添加单位)

Extended log = 0

PS:打印出非常详细的日志,在出现问题时发送给我可能有用(0/1)

Save assembled reads = no

PS:所有用于组装的读段将存储在单独的文件中(yes/no)

Seed Input = seed.fasta

PS:包含种子序列的文件路径,注意:加上路径

Extend seed directly = no

PS:这个选项允许直接扩展种子,而不是寻找匹配的读段。仅当种子来自同一样本且不存在可能的错配时使用 (yes/no)

Reference (optional) =

PS:可不填写,如果有可用的参考序列,可以在此处提供fasta文件的路径。组装仍将是从头组装,但同属的参考序列可用作指导,解决植物线粒体中的重复区域或叶绿体中的倒位重复。不同属的参考序列尚未测试。

Variance detection=

PS:可不填写,如果选择“yes”,还应有一个参考序列(前一行)。它将创建一个vcf文件,包含与给定参考序列相比的所有变异 (yes/no)

Chloroplast sequence =

PS:组装叶绿体时可不填写,包含叶绿体序列的文件路径(仅用于mito_plant模式)。组装叶绿体时可不填写,在组装植物的线粒体之前,必须先组装叶绿体!

Dataset 1:

Read Length = 151

PS: 读段的长度

Insert size = 300

PS:双端读段的总插入大小,不必非常准确,但应接近。

Platform = illumina

PS: illumina或者ion, Ion Torrent 数据的性能明显较低。

Single/Paired = PE

PS: 目前仅支持双端读段。

Combined reads =

PS: 包含合并读段的文件路径(正向和反向在一个文件中), 有Forward reads和Reverse reads不填

Forward reads = read_1.fastq

PS: 包含正向读段的文件路径(有合并文件时不需要)

Reverse reads = read_2.fastq

PS: 包含反向读段的文件路径(有合并文件时不需要)

Store Hash =

PS: 一般不填写,如果想对一个数据集进行多次运行,可以在本地存储哈希以加速处理(将“yes”写入本地存储哈希)。要运行本地保存的文件,请参阅GitHub页面的wiki部分。

Heteroplasmy 检测在首次拼接运行中不填写。

注意:

(1)双端测序文件不支持gz格式的reads

(2)完美情况下序列拼成环,多数情况存在gap区,需要利用用Geneious等软件查看拼接情况再决定接下来的分析流程。

Reference:

https://github.com/ndierckx/NOVOPlasty

版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/126754.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>