下载测序数据那些事儿(一)
前言
最近在下载(分析)公共数据,无法避免的从 NCBI SRA 数据库下载已发表的“”优质“”数据。曾经一直以为,数据下载就是小case,直到我因为下载数据,折腾了几天……所以,聊一下目前下载拆分单细胞转录组测序数据踩过的SHIT。希望能为后来者提供一些参考:neutral_face:
检索下载数据
检索下载的细节参见:从 NCBI SRA 数据库下载文件——获取想要的数据、 SRA ToolKit (sra-tools) 的安装和使用,不再赘述。
一般来说,大部分常见的单细胞转录组测序方法使用单端测序。然而,特定实验可能根据需求采用双端测序,例如SMART-seq技术。当从公司得到原始数据时,应该会注意到,有时会收到三个文件:R1.fq、R2.fq和I1.fq;而在其他情况下,仅会获得两个文件:R1.fq和R2.fq
1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;通常是R1文件
27-34这8个cycle得到了8个碱基,就是i7的sample index;通常是I1文件
35-132个cycle得到了98个碱基,就是转录本reads(目前很多测序仪都是150bp了),通常是R2文件
当数据分析完,文章发表,作者上传的时候,有时候会上传三个、两个(也有可能传的的BAM文件),这就给后来使用这个数据的人挖了坑,下载好之后,我怎么知道该拆成几个,为什么有时候怎么也拆不出三个?
一个例子,作者传了两个文件:使用fastq-dump --split-files --gzip SRR6334436
,拆分得到一小一大两个文件,SRR6334436_1.fastq.gz SRR6334436_2.fastq.gz
,怎么确定对不对?很简单,去看它的metadata,如红框圈出来的,就是两个文件,根据大小就可以区分出 R1 和 R2 :
另一个例子,作者上传了三或四个文件:使用 fastq-dump --split-files --gzip SRR9291388
,拆分出三个大小不一的文件,同样的,可以根据 metadata,检查并区分:
坑
好,上边提到的都很正常,其实不去检查metadata,根据文件大小,大致也能判断出来,但是…但是就是有踩坑的时候,
比如,我运行了astq-dump --split-files --gzip SRRXXXXXX
metadata,同时看了metadata,拆出来的文件应该是一小一大的两个文件,然后,就是得到两个大小一样的文件!!! 解决起来也很简单,只要在命令中加一个参数:--include-technical
再比如,使用prefetch 下载的时候,一个SRRXXXXX会得到很多文件,超级多!! 为啥?当我们去查看它的 Metadata 的Data Access 的时候,会发现作者上传的其实是BAM文件。很合理,据说是需要添加对应的参考基因组。至于这类数据该怎么提取,详见小徐师兄的博客:为什么有些时候prefetch下载不只一个sra文件
聊聊天
个人愚见,单细胞转录组测序应该算是一项“革命性”的技术,让我们能够在单个细胞水平上了解基因表达的动态变化。
然而,由于其独特的特性,对参考基因组和注释的要求也相对较高。例如,由于采用的是 3' 端 测序,当注释文件中缺乏完整的UTR(未翻译区)或CDS(编码序列)信息时,往往会导致观测到的基因数量大幅减少,甚至可能减少至不足一半。此外,许多物种并没有完善的参考基因组,这给数据分析带来了额外的挑战。
对于样品材料的要求也较为严格。以植物材料为例,很多情况下很难有效地通过酶解获得合格的原生质体,最终可能需要退而求其次,采用细胞核作为替代。然而,这样往往无法获得足够数量的基因表达数据,进一步限制了研究的深度和广度。
尽管存在这些挑战,单细胞转录组测序技术依然展现了巨大的潜力,值得我们积极探索和不断改进方法,以期在未来克服这些障碍,拓宽其应用范围,并为生物学研究带来新的视角。
版权声明:
作者:congcong
链接:https://www.techfm.club/p/157281.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论