gatk pathseq使用

1、pathseq的简介

建议参考连接:https://mp.weixin.qq.com/s/aPY6nLJJdpipym7Td6sFsA

PathSeq 是一个 GATK 管道,用于检测取自宿主生物体(例如人类)的短读长深度测序样本中的微生物。比如人类肿瘤测序数据,就可以使用它看看是否有微生物序列

下图总结了它的工作原理。该管道先对reads进行质量过滤,减去来自宿主的reads,将剩余的(非宿主)reads与微生物参考基因组比对,并生成检测到的微生物的表。结果可用于确定微生物的存在和丰度以及发现新的微生物序列。

2、准备参考文件

宿主的参考基因组

微生物参考基因组

gsutil ls gs://gatk-best-practices/pathseq/resources/

gs://gatk-best-practices/pathseq/resources/
gs://gatk-best-practices/pathseq/resources/RefSeq-release91.catalog.gz
gs://gatk-best-practices/pathseq/resources/index.html
gs://gatk-best-practices/pathseq/resources/meats.dict
gs://gatk-best-practices/pathseq/resources/meats.fa
gs://gatk-best-practices/pathseq/resources/meats.fa.fai
gs://gatk-best-practices/pathseq/resources/meats.fa.img
gs://gatk-best-practices/pathseq/resources/meats.min2k.db
gs://gatk-best-practices/pathseq/resources/pathseq_bundle_readme.txt
gs://gatk-best-practices/pathseq/resources/pathseq_host.bfi
gs://gatk-best-practices/pathseq/resources/pathseq_host.fa.img
gs://gatk-best-practices/pathseq/resources/pathseq_host.tar.gz
gs://gatk-best-practices/pathseq/resources/pathseq_microbe.tar.gz
gs://gatk-best-practices/pathseq/resources/pathseq_microbe_list.txt
gs://gatk-best-practices/pathseq/resources/pathseq_taxonomy.tar.gz
gs://gatk-best-practices/pathseq/resources/taxdump.tar.gz

  • 下载数据

建议下载最新的微生物参考文件

gsutil cp gs://gcp-public-data--broad-references/hg38/v0/CrossSpeciesContamination/CrossSpeciesContaminant/pathseq_microbe.fa ./

或者 下载资源包中的数据,二选一

gsutil  cp gs://gatk-best-practices/pathseq/resources/pathseq_microbe.tar.gz ./

pathseq_microbe.tar.gz这个压缩包包含了以下四个文件,总文件大小 90G

3、报错处理

3.1 java IO报错

gatk处理大的bam文件的时候,可能在IO上报错:

“java.io.FileNotFoundException Too many open files”

image.png
原因:

Linux的系统对每个程序最多处理的文件数目有限制。

ulimit -n
ulimit -s
image.png
解决方法:

使用prlimit命令更改使用的进程的最大文件数目。

 prlimit --pid   --nofile=102400:102400

版权声明:
作者:dingding
链接:https://www.techfm.club/p/110479.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>