快速下载SRA文件及fastq-dump的小陷阱
基于prefetch, 2023.10.17测试可用
在conda环境进行SRA文件快速下载
1.安装sra-tools:
conda install sra-tools=3.0.7 -y
2. 下载Accession List
进入NCBI SRA搜索页,使用Bioproject ID 搜索,然后点击Biosample,将列出来的所有Biosample都选中,在右上脚有个Send,选择File, Format选择 Accession List,然后将保存的text移到你需要下载文件的目录下
# 3. 使用Prefetch进行快速下载
prefetch --option-file SraAccList.txt
#提取fastq, fastq-dump这步很容易出错, 双端测序不要直接提取
双端测序 --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
关于遇到的Rejected XXXXX READS because of filtering out non-biological READS就是因为原来是SE数据,但是用--split-3当作PE数据处理,出现的问题. 看起来好像有问题,但是对后续结果分析没有太多影响.
因此,对于一个你不知道到底是单端还是双端的SRA文件,一律用--split-3.
fastq-dump --split-3 XXXX.sra
双端测序 --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
fastq-dump --split-files XXXX.sra
双端测序 --split-spot: 将双端测序分为两份,但是都放在同一个文件中
fastq-dump --split-spot XXXX.sra
单端测序
fastq-dump XXXX.sra
需要进行trinity de novo组装的转录组数据,否则后续在组装阶段会报错
fastq-dump --defline-seq '@rn]/$ri' --split-files SRR5061852.sra
Debug history: 20231017, the prefetch is out of date, update it to 3.0.7 by reinstall sra-tools
参考:https://www.jianshu.com/p/03a5c5831974
https://www.jianshu.com/p/a8d70b66794c
共有 0 条评论