单细胞数据分析永远也逃不过的诅咒?
前言
Immugent也算在单细胞数据分析领域里摸爬滚打3-4年了,经手分析过很多各种平台的单细胞数据。就拿10x数据来说,从最开始分析v1版本,中位值基因不到1000;到现在的v3版本,中位值基因2000+。始终都遇到过同一个问题,Immugent姑且先将其称为单细胞数据的“诅咒”吧。
故事得从两年前说起,当时在做不同细胞群差异基因分析时就感觉无论使用哪一种统计学方法,都能感觉到明显的cell number bias的影响,以至于后来遇到更多基于寻找差异基因的策略的高阶分析都有同样的问题。当时以为时间会治愈一切,随着后面单细胞数据分析软件的逐渐完善,这个问题总会能解决吧。但是就在最近,Immugent愈发觉得这个问题更严重了。
下面,Immugent就通过几个实例来唠唠这个单细胞数据所受的“诅咒”!
主要内容
ROGUE检测细胞亚群异质性
首先登场的就是在2020年发表在NC上的一个算法:ROGUE,它主要用于评估我们在进行细胞分群时究竟分到何时才比较合适(理想很丰满,现实很骨感),但好像也没有很好的解决这个问题。
我们知道在无监督的scRNA-seq数据分析中,很多情况下都不清楚鉴定出的每个细胞亚群是否均匀,还是异质性很强的混合体。因此,ROGUE提出了集群纯度的概念,并引入了一个概念新颖的统计,来检测一个给定的集群是否是一个纯细胞群体。下面先给出一个它的示例结果:
首先解释一下,按照ROGUE的官方介绍,得分越低的细胞群意味着异质性更高。我们先不考虑每一种细胞的功能,先从这个结果看可能看不出任何瑕疵。直到联系上下面每一群细胞的数目,我们就可以看出问题所在。
按理说,在同样几率下细胞数目更多的群体,其异质性的可能性更高,那么再看上面这个结果好像就太符合基本设定了。如果这种现象偶尔出现,那就无可厚非,关键是Immugent在使用其分析的所有项目中都是细胞数目越多的群体倾向于异质性越高。那么根据这个结果是不是就可以基本判定细胞数目越多,肯定异质性越高?明显这个结果是太绝对了。。。。。。
SciBet挑选细胞群特征基因
下面要说的是另一个思路,是在2021年发表在NC杂志上的SciBet工具。它主要通过E(ntropy)-test来挑选特征基因,从而可以通过训练相应的数据模型来对新的细胞亚群进行注释。
基于SciBet的统一模型,作者开发了监督基因选择的E-test。这一步是用SelectGene函数实现的。作者使用e检验的假设是,在每个群体中不存在异质性,因此𝑆可以通过将其相应的E输入𝑆-E公式直接计算出来。
话不多说,先上图:
虽然在其后续的假阳性控制检测中发现,基于此种方法挑选出的基因进行细胞群注释的一致性很高。
但同样值得怀疑的是为啥SciBet选出的不同细胞亚群基因的数目相差如此之大?而且Immugent用不同的数据测试过很多次,均发现在统一的数据标准化后,永远是细胞数目最多的细胞群挑选出的基因数目最少,这也太巧合了吧!
RCTD反卷积空间转录组
如果说前两个发表在NC上的算法还不足以说明这个“诅咒”的严重性,那么最后登场的是发表在生信技术顶刊杂志NBT上的RCTD算法。
首先来认识一下这个算法:RCTD是一个学习细胞类型和细胞类型特异性差异表达在空间转录组数据的R包。RCTD输入一个空间转录组数据集,该数据集由一组像素组成,像素是测量许多基因中RNA计数的空间位置。RCTD另外使用单细胞RNA-seq (scRNA-seq)数据集,该数据集被标记为细胞类型。RCTD从scRNA-seq数据集中学习细胞类型信息,并使用这些信息将空间转录组像素标记为细胞类型。RCTD已经在各种空间转录组学技术中进行了测试,包括基于成像(如MERFISH)和基于测序(如Slide-seq、Visium)。
值得注意的是,RCTD允许单个像素是细胞类型的混合物;也就是说,它们可以潜在地从多种细胞类型中提取RNA。也就是说,RCTD仍然可以处理每个像素只有一个单元格的情况。RCTD识别每个像素上的细胞类型,并估计每个细胞类型的比例。此外,RCTD有一个平台效应归一化步骤,该步骤对scRNA-seq细胞类型特征进行归一化,以匹配空间转录组学数据集的平台效应。平台效应是指一种测序技术以不同于另一种测序技术的速度捕获单个基因的趋势。
如此强大的算法也难逃这个问题,下面上图:
因为RCTD流程中很关键的一步就是对参考的单细胞转录组数据挑选特征基因,那么上面展示的就是挑选出的结果,可以看不同细胞亚群的特征基因数目差别巨大!并且同样是细胞数目越多的亚群挑选出的特征基因数目越少。
目前RCTD流程已经被Seurat v5整合进它的分析流程,下面是示例的分析结果。从下面也可以看出,来源于同一组织的数据,在单细胞转录组中占比较多的细胞群,在空间中分布却较少!
所以说,貌似只要是基于在不同细胞亚群间计算差异基因的算法,都会遇到上述问题?但是,好像目前绝大多数软件都会在其流程的某一步骤用到差异分析?如此看来,这个“诅咒”是逃不过了!
展望
Immugent个人感觉,上述所说的这个“诅咒”归根结底还是目前单细胞测序技术自身的一些不完美所造成的。因此,未来单细胞测序技术无论从算法还是技术上都需要着手解决或者弱化这些问题。当然如果有同样问题,或者感兴趣的小伙伴可以通过公众号后台联系我们。
除此之外,单细胞数据分析同时还面对很多其它难题,以下是Immugent列出的几个单细胞测序技术目前所面临的主要挑战:
1.细胞异质性:单细胞数据揭示了细胞群体内的高度异质性,这意味着细胞之间存在巨大的变异,不同细胞可能在表达基因、功能和状态上有很大差异。因此,如何正确地对待和分析这种异质性是一个挑战;
2.数据噪音:单细胞实验和测量技术可能引入噪音,例如批次效应、测量误差等。这些噪音可能影响对细胞间差异的正确解释,因此需要开发鲁棒的分析方法来减少这些影响;
3.细胞类型鉴定:确定单细胞数据中的不同细胞类型是分析的关键一步。然而,细胞类型鉴定可能会受到技术变异、噪音和数据预处理方法的影响,导致一些细胞被错误地分类或难以分类;
4.算法和工具选择:单细胞数据分析需要使用多种算法和工具,包括数据清洗、降维、聚类、细胞类型识别等。在众多可用方法中选择适合特定问题的方法可能会很困难。
当然,除了上述的四点挑战,还有单细胞数据越来越趋于庞大、技术平台越来越多、多组学等。事实上,Immugent认为任何一个告诉发展的生物技术都会经历这样的阶段,这也恰恰反应出单细胞测序技术目前在生命医学领域炙手可热的学术地位。
[参考文献]
[1]Liu B, Li C, Li Z, Wang D, Ren X, Zhang Z. An entropy-based metric for assessing the purity of single cell populations. Nat Commun. 2020 Jun 22;11(1):3155. doi: 10.1038/s41467-020-16904-3IF: 16.6 Q1 . PMID: 32572028IF: 16.6 Q1 ; PMCID: PMC7308400IF: 16.6 Q1 .
[2]Li C, Liu B, Kang B, Liu Z, Liu Y, Chen C, Ren X, Zhang Z. SciBet as a portable and fast single cell type identifier. Nat Commun. 2020 Apr 14;11(1):1818. doi: 10.1038/s41467-020-15523-2IF: 16.6 Q1 . Erratum in: Nat Commun. 2021 Mar 19;12(1):1877. PMID: 32286268IF: 16.6 Q1 ; PMCID: PMC7156687IF: 16.6 Q1 .
[3]Cable DM, Murray E, Zou LS, Goeva A, Macosko EZ, Chen F, Irizarry RA. Robust decomposition of cell type mixtures in spatial transcriptomics. Nat Biotechnol. 2022 Apr;40(4):517-526. doi: 10.1038/s41587-021-00830-wIF: 46.9 Q1 . Epub 2021 Feb 18. PMID: 33603203IF: 46.9 Q1 ; PMCID: PMC8606190IF: 46.9 Q1 .
共有 0 条评论