下载测序数据那些事儿（一）

congcong • 2024-09-27 01:09 • 杂文

前言

最近在下载（分析）公共数据，无法避免的从 NCBI SRA 数据库下载已发表的“”优质“”数据。曾经一直以为，数据下载就是小case，直到我因为下载数据，折腾了几天……所以，聊一下目前下载拆分单细胞转录组测序数据踩过的SHIT。希望能为后来者提供一些参考:neutral_face:

检索下载数据

检索下载的细节参见：从 NCBI SRA 数据库下载文件——获取想要的数据、 SRA ToolKit (sra-tools) 的安装和使用，不再赘述。

一般来说，大部分常见的单细胞转录组测序方法使用单端测序。然而，特定实验可能根据需求采用双端测序，例如SMART-seq技术。当从公司得到原始数据时，应该会注意到，有时会收到三个文件：R1.fq、R2.fq和I1.fq；而在其他情况下，仅会获得两个文件：R1.fq和R2.fq

image.png

1-26个cycle就是测序得到了26个碱基，先是16个Barcode碱基，然后是10个UMI碱基；通常是R1文件
27-34这8个cycle得到了8个碱基，就是i7的sample index；通常是I1文件
35-132个cycle得到了98个碱基，就是转录本reads（目前很多测序仪都是150bp了），通常是R2文件

当数据分析完，文章发表，作者上传的时候，有时候会上传三个、两个（也有可能传的的BAM文件），这就给后来使用这个数据的人挖了坑，下载好之后，我怎么知道该拆成几个，为什么有时候怎么也拆不出三个？
一个例子，作者传了两个文件：使用fastq-dump --split-files --gzip SRR6334436，拆分得到一小一大两个文件，SRR6334436_1.fastq.gz SRR6334436_2.fastq.gz，怎么确定对不对？很简单，去看它的metadata，如红框圈出来的，就是两个文件，根据大小就可以区分出 R1 和 R2 :

image.png

另一个例子，作者上传了三或四个文件：使用 fastq-dump --split-files --gzip SRR9291388，拆分出三个大小不一的文件，同样的，可以根据 metadata，检查并区分：

image.png

坑

好，上边提到的都很正常，其实不去检查metadata，根据文件大小，大致也能判断出来，但是…但是就是有踩坑的时候，

比如，我运行了astq-dump --split-files --gzip SRRXXXXXXmetadata，同时看了metadata，拆出来的文件应该是一小一大的两个文件，然后，就是得到两个大小一样的文件！！！解决起来也很简单，只要在命令中加一个参数：--include-technical
再比如，使用prefetch 下载的时候，一个SRRXXXXX会得到很多文件，超级多！！ 为啥？当我们去查看它的 Metadata 的Data Access 的时候，会发现作者上传的其实是BAM文件。很合理，据说是需要添加对应的参考基因组。至于这类数据该怎么提取，详见小徐师兄的博客：为什么有些时候prefetch下载不只一个sra文件

聊聊天

个人愚见，单细胞转录组测序应该算是一项“革命性”的技术，让我们能够在单个细胞水平上了解基因表达的动态变化。
然而，由于其独特的特性，对参考基因组和注释的要求也相对较高。例如，由于采用的是 3' 端测序，当注释文件中缺乏完整的UTR（未翻译区）或CDS（编码序列）信息时，往往会导致观测到的基因数量大幅减少，甚至可能减少至不足一半。此外，许多物种并没有完善的参考基因组，这给数据分析带来了额外的挑战。
对于样品材料的要求也较为严格。以植物材料为例，很多情况下很难有效地通过酶解获得合格的原生质体，最终可能需要退而求其次，采用细胞核作为替代。然而，这样往往无法获得足够数量的基因表达数据，进一步限制了研究的深度和广度。
尽管存在这些挑战，单细胞转录组测序技术依然展现了巨大的潜力，值得我们积极探索和不断改进方法，以期在未来克服这些障碍，拓宽其应用范围，并为生物学研究带来新的视角。

版权声明：
作者：congcong
链接：https://www.techfm.club/p/157281.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

焖烧壶泡绿茶

< <上一篇

如何以“党建+”助推乡村振兴

下一篇>>

搜索内容

下载测序数据那些事儿（一）

前言

检索下载数据

坑

聊聊天

取消回复

共有 0 条评论

Ads