单细胞分析读取处理大型数十万细胞的数据集的优化
单细胞分析读取处理大型数十万细胞的数据集的优化
背景简介
有朋友反映用自己的笔记本电脑在分析比较大的单细胞数据集的时候,比如细胞数量有十万个以上甚至几十万个的时候,可能自己的电脑的内存32G或64G都不够用,一般来说,做生信分析的电脑内存是越大越好的,大家尽可能是需要增大自己电脑的内存,如果是你想分析比较大的数据集的话。一般绝大多数的生信分析都是直接把数据读取在内存中的,无论你是用R还是python或使用我的OmicsTools软件来做分析,因此电脑的内存大小对你做生信分析是最关键的因素,CPU性能弱,只是分析的慢一些,但是电脑内存小,很多时候对于一些比较大的数据可能是直接就无法分析或分析中断的。
单细胞的数据集一般是比普通的转录组的数据集要大很多的,我当前也对读取处理比较大的单细胞数据集做了一些优化,大家在读取单细胞数据集的时候,只需要把我的OmicsTools读取处理多种单细胞数据集的数据读取界面的func_read__large__data参数设置为TRUE即可,这样在后续使用Seurat来分析数据的时候,会从硬盘中索引数据,而不是一次性把数据读取在内存中,会大大减少内存的占用的,当然,这是针对Seurat单细胞分析对象的一些优化,而对于monocle3拟时序分析或者CellChat细胞通讯分析等一些分析可能不一定是有用的。
以读取多个h5文件构建seurat分析对象为例
读取h5格式的单细胞测序数据文件构建Seurat分析对象
软件运行窗口


要读取的单细胞多个h5文件

不管是GEO的单细胞数据,还是自己的单细胞数据或其他来源的数据的时候,大家在对文件名可能也需要做一定的修改,就是文件名开头在第1个下划线_之前的那个文件名的名字就要把它变成是唯一的,一般GEO的数据开头就用GSM编号开头,每个样本的gsm编号就是唯一的。
如果是自己的数据也要让他前面的那个名字变成唯一的,再用一个下划线_跟后面的文件名的部分进行分隔开,然后软件只会提取出第1个下划线前面的这个名字作为样本的 id和创建出这个样本的目录.
大家注意,如果你第1个下划线前面的这个名字跟其他样本不是唯一的,那么就会造成样本的一个重复,所以的话每个样本在第1个下划线之前的名字编号都要把它变成是唯一的跟其他的样本的地名字不重复的,这是在文件名字修改和读取的时候特别重要的注意事项。
如果要读取的h5文件的数据,除了h5文件以外其它非h5文件都把它们统统删掉,以免可能会干扰分析模块的正常运行。
软件运行结果文件得到构建好的seurat对象的rds文件和metadata文件

当func_read__large__data参数设置为TRUE的时候,会额外生成一个trans_data目录


会在磁盘中建立对单细胞数据的索引,后续分析会直接从磁盘中读取数据而不是一次性把数据加载到内存中,避免内存占用过大。
此外,读取其它格式的数据集也是同理的。
读取单个单细胞表达矩阵文件构建seurat分析对象
这个表达矩阵文件可以是CSV,TXT, TSV或者csv.gz,txt.gz, tsv.gz 等格式的表格文件

读取多个样本的表达矩阵文件构建seurat分析对象
每个样本一个表达矩阵文件,表达矩阵文件可以是CSV,TXT, TSV或者csv.gz,txt.gz, tsv.gz 等格式的表格文件

读取多个10x的matrix,barcodes,features文件构建seurat分析对象

读取单个BD单细胞的定量文件

读取单个h5ad单细胞数据文件

OmicsTools软件和分析教程介绍
前言和简介
OmicsTools全能医学生物生信分析电脑软件简介
我开发了一款全网最强大的本地电脑无限使用的零代码生信数据分析作图神器一站式全流程电脑软件OmicsTools,旨在成为可以做各种医学生物生信领域科研数据分析作图的的全能科研软件,欢迎大家使用OmicsTools进行生物医学科研数据分析和作图,该软件件能让大家在不需要任何编程和代码编写的基础上,分析次数没有限制,可以无限使用,让您在自己电脑上快速进行大量的生信分析和加速大家的科研。
OmicsTools生信分析电脑软件可以做医学生物生信各个领域的科研数据分析和作图,并致力于成为医学生物生信领域的综合全能分析软件,一个软件帮助大家做医学生物生信领域的各种研究,快速出成果。


软件下载获取
我开发的本地电脑无限使用无限分析作图的生信零代码一键分析电脑软件神器OmicsTools 软件在github上的zihaoxingstudy1/OmicsTools(https://github.com/zihaoxingstudy1/OmicsTools)仓库中,也可以到我的生信交流q群群文件中下载,q群中的软件版本会更新一些,大家可以下载安装OmicsTools进行各种生信分析和可视化作图。

现在1群满员,会提示加2群,2群也可以下载到软件。
持续整理的各领域生信分析文档和答疑文档
【腾讯文档】各领域生信分析全流程教程和答疑指导汇总版
https://docs.qq.com/doc/DWWtrd0Z2T1JHWVNa



可以提供的科研服务清单

共有 0 条评论