基因组组装拼接

基因组组装是指将分散的DNA序列片段(测序读段)按照其在基因组中的真实顺序重新拼接成完整的基因组序列的过程。基因组组装是基因组学研究的关键步骤之一,它能帮助研究人员获得一个生物体完整的基因组序列,进而对该生物的基因组结构、功能等进行深入研究。
在基因组组装过程中,首先需要将原始的测序读段进行质量控制,去除低质量的读段和含有污染的读段。然后,根据测序技术和实验条件的不同,可以选择不同的组装算法进行组装。组装算法的目标是将读段按照它们在基因组中的真实顺序拼接在一起,形成一个连续的序列。这个过程中需要解决一些问题,比如读段之间的重叠关系、插入序列和缺失序列的存在等。
基因组组装的结果可以是一个完整的基因组序列,也可以是一组连续的序列片段,即连续基因组序列(contig)。如果存在未填补的间隙,这些连续基因组序列之间的关系可以通过进一步的实验或算法来填补,形成一个更完整的基因组序列。
基因组组装技术在基因组学研究、生物多样性研究、病原微生物检测等领域都有重要的应用。基因组组装的结果可以揭示生物体的基因组结构、基因功能、遗传变异等信息,为进一步的研究和应用奠定基础。

这里使用soapdenovo2组装,之前eupan流程中包含该软件,使用前需要激活相对环境,linearK可以从一系列的K值中选出最合适的一个,

eupan assemble linearK data/ out/ /
/public/home/fengting/demo/pan111/EUPAN/tools/SOAPdenovo2-src-r240
这个kmer有点大
export PATH=$PATH:/public/home/fengting/demo/pan111/EUPAN/EUPAN-v0.44/bin:
export LD_PATH=$LD_PATH:/public/home/fengting/demo/pan111/EUPAN/EUPAN-v0.44/lib:
export PERL5LIB=$PERL5LIB:/public/home/fengting/demo/pan111/EUPAN/EUPAN-v0.44/lib:
source /public/home/fengting/demo/pan111/EUPAN/EUPAN-v0.44/bin/eupan_cmd.sh

soapdenovo2,水稻一般用,K19参数

pilon可以对基因组进行矫正,软件下载:

wget https://github.com/broadinstitute/pilon/releases/download/v1.23/pilon-1.23.jar

java -Xmx16G -jar pilon-1.23.jar

数据准备:

illumina的双端测序数据经过质控之后的数据:read1_fq.gz read2_fq.gz,组装好的基因组

###pilon
cat sample |while read id
do
echo $id
echo "bowtie2 -p 28 -x ref/MH -S pilon/$id/${id}_readtoassmedaka_ngs.sam -1 fq/${id}_1.fq.gz -2 fq/${id}_2.fq.gz 2>pilon/$id/$id.mapping" >>wost01.sh
done
cat sample|while read sample
do
samtools sort -@ 12 /
    -o pilon/${sample}/${sample}_ngs.bam /
    pilon/${sample}/${sample}_readtoassmedaka_ngs.sam
samtools index pilon/${sample}/${sample}_ngs.bam
done



cat sample|while read sample
do
java -Xmx180G /
    -jar ~/soft/polish/pilon-1.23.jar /
    --threads 18 /
    --genome ref/MH63.fa /
    --frags pilon/${sample}/${sample}_ngs.bam /
    --outdir pilon/${sample}
ass_plion=pilon/${sample}/${sample}_pilon.fa

done

quast评估

/public/home/fengting/demo/pan111/EUPAN/tools/quast-5.1.0rc1/quast.py /
-o ./result -R ../../ref/MH63.fa -t 70 /
sca/K47.scafSeq sca/K47.gcContig
quest会以报告的形式展示结果
###基因预测
/public/home/fengting/demo/pan111/EUPAN/tools/quast-5.1.0rc1/quast.py /
--glimmer /
-o ./result -R ../../ref/MH63.fa -t 70 /
fa/DL005-1.fa fa/DL029-2-1.fa fa/DL030-2-1.fa fa/DL045-2-1.fa fa/DL066-1.fa /
fa/DL069-1.fa fa/DL070-1.fa fa/DL071-2-1.fa fa/DL072-2-1.fa fa/DL073-1.fa /
fa/DL078-2-1.fa fa/DL080-1.fa fa/DL439-1.fa
P/A依据

版权声明:
作者:admin
链接:https://www.techfm.club/p/89079.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>