NOVOPlasty—环状基因组的从头组装工具和异质性/变异检测工具
NOVOPlasty 是一种用于短环状基因组的从头组装工具和异质性/变异检测工具。
1. 寻找合适的种子序列(seed)
有三种种子序列类型可选择:
(1) 数据集中来自细胞器基因组的单个读段(如rbcL)。首选
(2)来自同种或相关物种的细胞器序列。
(3)更远缘物种的完整细胞器序列(当没有密切相关的序列可用时推荐)。
格式应为标准的 fasta 文件(第一行:> Id_sequence)。对于在线粒体和叶绿体基因组中相似的种子序列要谨慎。使用 RUBP 序列作为叶绿体组装的种子效果很好。
2. 创建配置文件
可以下载示例文件(config.txt)并根据需要调整设置。
配置文件的每个参数将在下面解释。
3. 运行 NOVOPlasty
无需进一步安装:perl NOVOPlasty4.3.1.pl -c config.txt
使用 conda 安装:conda install bioconda/label/cf201901::novoplasty
使用 conda 运行:NOVOPlasty4.3.1.pl -c config.txt
输入的读段优先选择是未压缩的 Illumina 读段(fastq/fasta 文件)文件。
不要过滤或质控!!使用原始的全基因组数据集(只应去除接头序列)。
可以尝试不同的 K-mer。在覆盖率低或种子错误的情况下,建议降低 K-mer(设置在 21~39 之间)!
Configuration file
下面是一个用于叶绿体组装的配置文件示例。为了使组装工具正常工作,配置文件必须具有完全相同的结构。(确保等号后总是有一个空格,并且每个参数都在一行内)
1. Example of configuration file:
参数解释
Project name = BS
PS:BS为项目选择一个名称,该名称将用于输出文件。
Type = chloro
PS:三个选择,“chloro” 用于叶绿体组装,“mito” 用于线粒体组装,“mito_plant” 用于植物线粒体组装。
Genome Range = 120000-200000
PS:(最小基因组大小-最大基因组大小) 预期的基因组大小范围。线粒体默认值12000-20000 /叶绿体默认值:120000-200000。如果预期大小已知,可以缩小范围,这在有重复区域时会有用,这可能导致基因组的过早环化。
K-mer = 33
PS:必须是整数,这是匹配读段之间的重叠长度(默认:33)。如果读段长度小于90 bp或数据覆盖率低,此值应降低到23。对于长度大于101 bp的读段,可以增加此值,但不是必需的。
Max memory= 7
PS:可以选择最大内存使用量,适用于自动子采样数据或内存有限的情况。如果内存充足,请留空,否则写下您可用的内存大小(GB)。例如,如果您有8 GB RAM的笔记本电脑,填写7或7.5(不要在配置文件中添加单位)
Extended log = 0
PS:打印出非常详细的日志,在出现问题时发送给我可能有用(0/1)
Save assembled reads = no
PS:所有用于组装的读段将存储在单独的文件中(yes/no)
Seed Input = seed.fasta
PS:包含种子序列的文件路径,注意:加上路径
Extend seed directly = no
PS:这个选项允许直接扩展种子,而不是寻找匹配的读段。仅当种子来自同一样本且不存在可能的错配时使用 (yes/no)
Reference (optional) =
PS:可不填写,如果有可用的参考序列,可以在此处提供fasta文件的路径。组装仍将是从头组装,但同属的参考序列可用作指导,解决植物线粒体中的重复区域或叶绿体中的倒位重复。不同属的参考序列尚未测试。
Variance detection=
PS:可不填写,如果选择“yes”,还应有一个参考序列(前一行)。它将创建一个vcf文件,包含与给定参考序列相比的所有变异 (yes/no)
Chloroplast sequence =
PS:组装叶绿体时可不填写,包含叶绿体序列的文件路径(仅用于mito_plant模式)。组装叶绿体时可不填写,在组装植物的线粒体之前,必须先组装叶绿体!
Dataset 1:
Read Length = 151
PS: 读段的长度
Insert size = 300
PS:双端读段的总插入大小,不必非常准确,但应接近。
Platform = illumina
PS: illumina或者ion, Ion Torrent 数据的性能明显较低。
Single/Paired = PE
PS: 目前仅支持双端读段。
Combined reads =
PS: 包含合并读段的文件路径(正向和反向在一个文件中), 有Forward reads和Reverse reads不填
Forward reads = read_1.fastq
PS: 包含正向读段的文件路径(有合并文件时不需要)
Reverse reads = read_2.fastq
PS: 包含反向读段的文件路径(有合并文件时不需要)
Store Hash =
PS: 一般不填写,如果想对一个数据集进行多次运行,可以在本地存储哈希以加速处理(将“yes”写入本地存储哈希)。要运行本地保存的文件,请参阅GitHub页面的wiki部分。
Heteroplasmy 检测在首次拼接运行中不填写。
注意:
(1)双端测序文件不支持gz格式的reads
(2)完美情况下序列拼成环,多数情况存在gap区,需要利用用Geneious等软件查看拼接情况再决定接下来的分析流程。
Reference:
https://github.com/ndierckx/NOVOPlasty
版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/126754.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论