Tangram利用深度学习完成空间与单细胞数据的整合
一、写在前面
单细胞(single-cell)与单细胞核(single-nucleus)测序已经为许多物种、组织、器官提供了全面的细胞图谱,能够帮助我们了解细胞类型、表达特征、发育谱系等内容,遗憾的是它们丢失了空间信息。空间转录组能够为转录组提供"空间尺度"的信息,但现有的空间技术大都有低分辨率(sequencing-base)或低敏感性(image-base)的问题(或者说高分辨率与高的基因捕获通量不能兼得)。例如MERFISH
、smFISH
、STARmap
这类image-base
的技术往往只能测定数百个基因,而Visium
(100 μm)、Slide-seq
(10 μm)等sequencing-base
技术虽然能够测定整个基因组表达量,但其分辨率又不完全等于单细胞。此时利用单细胞组学与空间组学技术互相弥补"缺失"就显得非常重要,因此作者于2021年发布了基于深度学习(去卷积容易受空间稀疏性影响)的Tangram
,可用于处理MERFISH
、STARmap
、smFISH
、Visium
、histological images
等各空间组学来源数据(彼时还没有Stereo-seq与SeekSpace™)与sc/snRNA-seq、scATAC-seq等单细胞级别技术的整合。
Tangram的使用代码教程与测试文件可见:
二、主要内容
(1)Tangram 为sc与st提供整合方式
Tangram
能够将来源于相同组织/区域的sc/snRNA-seq数据作为"拼图碎片"整合到空间数据中(Fig.1a),这一过程仅需要两组学技术间存在一些共同基因。这个过程中Tangram首先会随机将sc/snRNA-seq数据填充在空间坐标中,紧接着计算单细胞数据与空转数据在空间中的相关性,从而进行优化并达到整个图谱的最大相关性(Kullback-Leibler divergence与cosine similarity),最终输出包含所有基因的"单细胞空间图谱"(Fig.1b),即是一个包含每个单细胞数据在空间体素上分布可能性的mapping矩阵,也就是说Tangram的主要功能为:
-
1 扩充部分基因至基因组水平
-
2 矫正低质量的空间表达矩阵(Fig.1c)
-
3 比对不同细胞类型的空间位置(Fig.1d)
-
4 将低分辨率的空间图谱转变为单细胞水平(Fig.1e)
-
5 通过空间多组学数据的整合提供单细胞染色质可及性数据的空间模式(Fig.1e)
注:一般情况下,单细胞的细胞量要大于空转的spot量,因此单细胞中只有高质量的部分会被选择参与分析。
Figure 1
(2)Tangram 比对MERFISH
数据创建基因组规模水平高分辨率表达图谱
作者利用Tangram对基于10X Genomics V3平台的160,000个snRNA-seq数据与包含254个基因(overlap的数量为253)、4234个分割细胞的MERFISH数据做比对测试,预测出空转数据中细胞类型的比例与snRNA-seq相一致(Fig.2)。Tangram还能够预测各细胞类型在空间中分布的可能性(Fig.2a),并与已注释图谱(Fig.2b)的分布相一致,证明这种概率能够符合真实的生物学意义而并非人为引入。此外,Tangram
还能够通过leave-one-out
分析来预测空间表达模式,253个基因中存在超过75%
的基因相关性大于40%
,其与空间表达模式也存在关联(Fig.2c)。此外,对于ISH
来源的少量基因(Fig.2e)及低质量基因(Fig.2f)而言,Tangram
均能进行预测并矫正。
Figure2
(3)Tangram
能够精准矫正STARmap
来源的转录组信息
为了探究Tangram对低质量in situ转录组的矫正能力,作者使用了一个基于STARmap的鼠脑切片数据(1,020个基因,972个细胞)与SMART-Seq2来源的单细胞数据进行mapping,最终使用了995个训练基因,预测的可能性图谱(Fig.3a)与实际鉴定后的确定性图谱(Fig.3b)在细胞分布上具有较高的一致性(值得一提的是在一些比例较小的细胞类型中,mapping还是会出现一定差异的)。此过程中,Tangram不仅预测了STARmap未能测定的基因表达(Fig.3c),也有效的矫正了STARmap已经测定到的低质量基因表达量(Fig.3d)。这些结果能够与ISH Atlas中实际测到的值具有较高的一致性(Fig.3e)。
Figure3
(4)Tangram
能够应用single-cell
数据对空间组学进行去卷积并与组织学数据进行整合
对于分辨率低的空间组学,例如Spot直径为50μm的10X Visium,Tangram结合了染色切片图像中观察到的细胞对160个Spot进行了预测,共获得939个细胞(Fig.4)。去卷积过程中,先利用组织学图片获得对应spot的细胞数(即每个空间体素分布一个离散数),后进行对应位点的单细胞分辨率解卷积预测。在超过三万个基因中筛选出各细胞类型的Top100个marker gene(共1,237个训练基因)参与计算,预测得到的空转数据与snRNA-seq数据的细胞比例相一致。需要注意的是,Tangram判断的是当前Spot中占据的细胞类型比例,并不能够精准的给出特定细胞类型位于Spot的哪个区域。
Figure4
(5)Tangram利用非稀疏性基因对空转数据进行插补、填充时更准确
分辨率低的空转(例如10X Visium)相比单细胞组学来说要稀疏的多,这意味着空转数据的坐标之间存在大量的"缺失值",Tangram在mapping多组学数据时可以高分辨率、密集的数据,这样较少的细胞类型,例如Sst+Chodl+ GABAergic neurons也可以被观测到(Fig.4b)。在这个过程中Tangram能够矫正并预测基因在空间中的表达量,对于mapping后的数据,作者利用上面提到的1,237个训练基因和剩余的29,816个测试基因分辨进行空间相关性评估,发现90分位数的训练基因集相关性大于62%,测试数据集中仅有50%大于这一阈值,这可能是由稀疏性导致的(Fig.4d)。作者在非稀疏性基因(sparsity < 50%)中观察到其中的98%被Tangram的模型正确的预测出空间表达模型,这些结果也能够在MERFISH的验证中被观察到(Fig.4h)。(需要注意的是这里作者的测试数据仅是下丘脑的一部分)
(6)利用SHARE-seq数据与scATAC数据mapping获得具有空间坐标的染色质可及性信息
前面作者已经证明了Tangram在单细胞转录组与空转的整合方面有良好的新能,作者的目标不仅限于此,其还希望通过单其它细胞多组学(这里为snATAC-seq)与单细胞转录组(这里为SHARE-seq)进行联合后与空间组学数据进行整合(Fi.5)。作者mapping了这三种来源的数据并观察各细胞类型在不同空间区域的分布情况(Fig.5a-b),并观察染色质可及性与转录因子活性之间的关联性,这些转录因子motif的活性展现出了特定的空间模式(Fig.5d)。
Figure 5
(7)Tangram
能够跨物种完成细胞类型的预测¶
作者利用人脑的snRNA-seq数据与小鼠的MERFISH数据进行mapping,结果仅损失了两种细胞类型(Ext.Fig.3a-b),在肾脏的数据中,除了免疫细胞外的细胞类型能够成功的mapping(Ext.Fig3.d-e)。
Ext.Fig3
(8)组织学、解剖学、分子表达的单细胞图谱
为了更好的整合组织学特征与分子信息进行分析,作者提供了common coordinate framework(CCF)来管理二者的数据。利用Siamese神经网络模型(Ext.Fig.4)和semantic segmentation算法(Ext.Fig.5)可以忽略技术/人为因素引起的误差在解剖学图像上自动生成mask,从而让分子图片与组织影像图片准确的匹配。作者利用包含160,000个细胞的snRNA-seq数据(Fig.6a)在200μm分辨率下预测基因表达与细胞密度(Fig.6c)。这一过程在三个感兴趣的区域(ROIs
)上进行了重复,最终将snRNA-seq
数据映射到它们各自的ROIs上(Fig.6d)。研究人员还使用相同的流程将snRNA-seq
数据映射到空转测量的解剖部分上。研究结果显示,通过这种映射方法可以获得一致的细胞类型分布,尽管在某些情况下准确性较低。作者指出,对于非神经元细胞类型的稀疏、颗粒状的细胞类型模式,需要更先进的空间技术才能实现更高的准确性。CCF
显然也更有利于后续空转矩阵与组织学图像的机器学习输入。
Ext.Fig4
Ext.Fig.5
Figure 6
三、总结
利用多组学的数据去理解生物学数据已经称为当下的共识,空间组学为这一共识提供了机会,然而其在分辨率、基因/细胞检测通量上的不足限制了自身发展。作者开发的Tangram
能够整合多来源的单细胞、空间组学、甚至组织病理学数据进行分析,进一步完善了空间多组学的生态链。Tangram
不仅能够考虑到多平台来源数据的稀疏性、规模,甚至能够跨物种完成数据的整合,为单细胞数据和空间组学数据取长补短提供了机会。外面后面也会为大家带来实操的内容。不过需要注意的是作者的测试数据大都是脑部组织,这种来源的数据往往细胞类型少、组织结构清晰,因而常用于空间组学软件开发的测试数据(作者用了一部分肾脏数据也是这个原因)。Tangram能否应对更复杂、更大、组织结构不清晰的数据,还需要大家的进一步探索。
Tangram的使用代码教程与测试文件可见:
参考:Biancalani, T., Scalia, G., Buffoni, L. et al. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram. Nat Methods 18, 1352–1362 (2021).
共有 0 条评论