单细胞软件学习–泛癌的TME细胞类型分类工具scATOMIC(single cell annotation of tumour microenvironments in pan-cancer …
一、背景简述
肿瘤微环境(Tumor micro-environment, TME)是指肿瘤细胞周围异于正常内环境的微环境,具有缺氧、慢性炎症及免疫抑制的三个特征。TME 包括多种免疫细胞,以及癌相关成纤维细胞、内皮细胞、周细胞和各种其他组织细胞类型,不同组织的TME会形成十分复杂的机制网络, 对肿瘤的进一步发展有重要作用。相比常规研究技术,单细胞测序可以提供每个细胞的转录组信息,反映出不同细胞类型及其功能状态的改变,更适合研究TME的变化。
但是,目前单细胞数据识别恶性细胞大都是通过推断细胞的染色体倍数分类,并不能提供有关癌症起源组织的明确信息,也没有通用方法对异质非恶性 TME 细胞及肿瘤细胞进行有效、详细的分类。
基于以上需求,加拿大安大略省癌症研究所的研究人员设计了一个全面、泛癌的TME细胞类型分类工具scATOMIC(single cell annotation of tumour microenvironments in pan-cancer settings),通过反向层次分类和父节点重复消除的算法(RHC-REP)改进细胞分类,降低 TME 多细胞系统的转录组复杂性,对恶性和非恶性细胞进行模块化注释。
软件更新维护在https://github.com/abelson-lab/scATOMIC,需要在R环境下运行。
二、软件主要步骤和结果验证
为了 准确的区分不同类型细胞的特征,研究团队使用超过30万个细胞的数据集(包括癌症、免疫和基质细胞)进行随机森林的模型训练,通过RHC-REP算法得到与父节点总数相对应的 24 个模型,并定义了19种常见癌症的泛癌症数据参照。
1.细胞类型父节点的分类(n = 24)
父节点代表更宽泛的细胞分类,终末节点代表详细的细胞类别。根据已知细胞类型的转录组数据集,软件在一个父节点内,根据基因差异表达评分 (DES) ,筛选出可以显著区分该细胞类型与所有其他细胞类型的差异基因,最后保留对每个末端类别具有更高特异性的差异表达基因 (DEG)。如图2,热图顶部的颜色表示不同的细胞类型,经过 RHC-REP 多次迭代后,找到该细胞类型最高特异性的DEG基因。
具体方法类似于我们的差异分析 ,对于每个模型使用 FindMarkers 函数(Wilcoxon )找到每个细胞类型的 DEG 列表:log 2倍数变化至少为 0.25,并且 ident.1 或 ident.2 中至少有 10% 的细胞表达各自的基因。差异表达评分为 ident.1 和 ident.2 中各自 DEG 表达非零值的细胞分数的差异 ,对于每种终末细胞类型,我们保留的基因的 DES 大于该细胞类型的所有 DEG 的平均 DES。这里需要去除了所有核糖体基因,同时删除 ident.2 >40% 的 DEG,以确保 DEG基因在任何特定细胞类型中的表达特异性 。(线粒体基因前期质控过滤 < 0.25)。为了保证在不同的数据集之间软件的稳定性和性能,每种细胞类型特异性的 DEG 基因数目最小为50,至多 200个,在 DES 高于平均值的 DEG 少于 50 个的情况下,我们保留按 DES 排名的前 50 个 DEG。
2.随机森林分类器模型构建
对经过过滤的数据矩阵导入该节点的模型,计算每个细胞在父节点内的所有终末类的树比例的预测分数 ,然后 将所有血液和非血细胞亚型的预测分数(PS)分别相加,得出将单细胞与其适当的亲本类别相关联的中间组分数(IGS)分布。如果细胞的 IGS 低于置信截止值,则返回到宽泛的上级细胞分类。 同理,在下一个父节点的相应模型处继续迭代,直到获得最终分类。
三、模型评估和验证
团队对大量公开数据进行了测试和分析,以综合评估 scATOMIC 的普适性和准确度。
1.对多个泛癌 TME数据集进行分析,每个数据集的细胞类型被随机分为 5 等份子数据集,每个细胞类型的 F1 分数(二分类模型,准确度)均在0.9以上。表明软件对TME 环境下的细胞识别能力具有普适性,但是对黑色素瘤数据表现不佳;
2.在肺癌/乳腺癌数据集的应用中,可以对NK细胞和T 细胞进一步细化亚型,提升细胞类型分辨率。 这表明在高分辨率解析细胞类型时,软件可以识别稀有细胞类型,避免对未知细胞进行错误分类以及确定癌症细胞的类型。
3.在转移癌症数据中, 对不同解剖部位的乳腺癌、肾癌、肺癌、卵巢癌和皮肤癌的 62 个转数据进行分析,正确预测了52 个样本中的癌症细胞原发组织。这表明软件可以辅助识别或预测部分肿瘤的起源。
三、结果展示
在实际的数据分析中,我们以公司流程的 rds/h5seurat 作为输入文件(counts 信息),通过 run_scATOMIC 函数预测细胞的类型,并输出对应的feature 图和注释表格。
1.人工鉴定和软件鉴定细胞类型
如下图,可以看出高分辨率导致基质细胞,T/NK细胞的类型更细化,但是免疫细胞,肿瘤细胞与人工注释的细胞类型大致相同。
2.软件注释细胞类型表格
new_celltype 为人工注释细胞类型,scATOMIC_pred 为软件注释细胞类型,pan_cancer_cluster 为肿瘤/ 非肿瘤分类。classification_confidence 为可信度,软件一般输出low_confidence,严格符合模型阈值的则为confident。
3.树形图展示细胞分类
软件可视化部分还提供了细胞分化的树形图,方便追溯感兴趣细胞的来源和分化轨迹。
四、结语
scATOMIC通过大量的细胞数据集建立了可靠的数据模型,能够准确的识别TME的癌症和正常组织细胞,以及确定肿瘤起源,为我们解析TME环境中复杂的细胞行为提供了新的工具,也将进一步丰富和促进泛癌的研究。
参考文献:
[1]:Nofech-Mozes I, Soave D, Awadalla P, Abelson S. Pan-cancer classification of single cells in the tumour microenvironment. Nat Commun. 2023 Mar 23;14(1):1615. doi: 10.1038/s41467-023-37353-8. PMID: 36959212; PMCID: PMC10036554.
共有 0 条评论