课前准备—单细胞VDJ分析导论2
作者,Evil Genius
单细胞T细胞和B细胞抗原受体测序数据分析可以潜在地对适应性免疫细胞进行深入评估,从而为了解免疫细胞的发育提供信息,从而跟踪疾病和治疗中的克隆扩增。然而,由于数据的复杂性和潜在的生物学特性,在单细胞水平上分析和解释T细胞和B细胞及其适应性免疫受体谱一直是极具挑战性的。
适应性免疫系统依赖于巨大的免疫库的多样性来识别和响应广泛的病原体和外来物质。这是由大量表面结合的T细胞抗原受体(TCRs)和B细胞抗原受体(BCRs)介导的。当B细胞分化为浆细胞或浆母细胞时,后者也可作为可溶性抗体分泌。这些受体广泛的抗原特异性也使T细胞和B细胞能够区分自身抗原和非自身抗原,从而使免疫系统在不伤害宿主的情况下对威胁作出适当的反应。通过研究T细胞和B细胞反应的特异性,免疫学家已经能够获得对免疫反应动力学、免疫细胞多样性的有价值的见解,甚至为疾病和治疗结果提供预测和/或预后信息。
每个TCR或BCR都是由两个不同的链组成的二聚体。在αβ T细胞中,tcr由α链(TRA)与β链(TRB)配对,或者在γδ T细胞中,由γ链(TRG)与δ链(TRD)配对组成。BCR由一条重链(IGH)和一条轻链组成;轻链来自κ (IGK)或λ (IGL)位点。这些链是一个复杂过程的产物,涉及由RAG1和RAG2蛋白介导的可变(V)、多样性(D)和连接(J)基因片段的基因重组,分别发生在胸腺和骨髓中发育中的T细胞和B细胞中。随机的非模板(N)和/或回文(P)核苷酸插入也可以在这些片段的连接处引入,进一步增加了复杂性。这些重组事件发生在称为互补决定区(CDR) 3的连接处,而CDR1和CDR2完全在V基因区域内发现。由于CDR是与同源抗原结合的区域,它们,特别是CDR3区域,一直是大多数下游分析的重点。此外,在B细胞被激活后,BCR可以在整个受体中经历(随机)体细胞超突变(SHMs),由激活诱导的胞苷脱氨酶(AID)介导。BCR的类转换重组(CSR)也需要AID,这是一个取代编码同种型类的BCR恒定基因的生物学过程,对B细胞成熟和整体体液免疫产生广泛影响。总的来说,这些事件确保了产生TCR和BCR的多样性和独特性,这也能够将它们用作T细胞和B细胞克隆的不同分子条形码。可以作为跟踪抗原特异性反应的有用代理,并与细胞表型和临床结果相关联。
免疫库测序有多种“bulk”高通量技术,包括分析来自特定组织的汇集BCR或TCR。“bulk”免疫库测序技术在很大程度上仅限于分析单链(例如,仅TRB或IGH),并且不能捕获适应性免疫受体的二聚体性质。文库构建和测序策略也阻止了使用“散装”方法恢复真正的成对链测序。然而,配对链测序现在是可能的,最显著的是通过单细胞技术,允许配对链适应性免疫受体的大规模分析。
简单地说,处理scTCR/BCR-seq数据的典型工作流程如下:对单个细胞测序后,将reads对齐并重构为每个细胞的TCR/BCR链。也有专门的工具可以从全长单细胞RNA测序(scRNA-seq)数据中重建TCR/BCR组。然后使用参考数据库,例如国际免疫遗传学信息系统(IMGT),对重建的contigs进行相应的V、D、J和恒定基因注释。然后,“contig级”数据可以与“cell级”数据配对,各种工具以不同的方式处理这一数据,实施进一步的质量控制步骤,以保留可供分析的contig和/或细胞,以供进一步分析。在大多数情况下,一个关键的质量控制步骤是过滤组群,使每个成熟的T细胞/B细胞只有一对有效的TCR / BCR;在某些情况下,这可能是不需要的(例如,在发展T细胞/ B细胞)。其他下游分析包括差异V/D/ j基因使用分析,相同/相似的TCR/ bcr聚类成克隆型,克隆型网络的生成用于多样性估计,推断谱系树以追踪克隆型系统发育,与scRNA-seq数据的整合等等。数据的复杂性为下游分析提供了创新解决方案的机会。
Initial scTCR/BCR-seq bioinformatics tools
scRNA-seq技术的出现始于2009年,scTCR/BCR-seq紧随其后。该领域最初专注于从全长scRNA-seq数据中重建TCR/BCR链。
TraCeR (T细胞受体重建和scRNA-seq克隆推断)是最早从全长scRNA-seq数据中重建TCR序列的工具之一,具有高精度和灵敏度。TraCeR首先将来自每个细胞的RNA-seq reads与包含所有可能的TCRα/β链V/J基因组合的精选列表进行比对。然后从对齐的reads重新组装得到Contigs,并使用IgBLAST与IMGT8参考序列进行注释。TRAPeS是另一种scTCR重建软件,但其方法与TraCeR有所不同。首先,它将reads与V和J基因比对,鉴定出未对齐的、被映射到V/J或恒定区域的reads,并将未映射的reads重建成假定的CDR3序列。这些序列从两端延伸,直到它们合并/重叠。在相同的库类型上,TRAPeS显示出较高的成功率,甚至优于TraCeR。然而,TRAPeS也有自己的挑战。例如,由于某些V和J片段高度相似,该工具在重建某些CDR3序列时可能会遇到困难。此后出现了其他一些工具,如TRUST4和MiXCR,它们可以从10x Genomics的scRNA/TCR/BCR-seq数据中重建TCR/BCR链。TRUST4还产生了更多的tcr和BCR,并能够从10 × 5 ' scRNA-seq基因表达数据中重建αβ-TCR、γδ-TCR和BCR。
同样,有几种工具可用于从全长scRNA-seq数据中重建BCR,包括BASIC, BraCer和VDJPuzzle。这些方法仅与使用低通量基于板的scRNA-seq方法生成的数据集进行比较。
随着2018-2019年10x Genomics 5’的免疫分析解决方案的商业化,利用配对链TCR/ BCR测序数据联合评估单细胞RNA表达的普及程度也有所提高。可以理解的是,在2020年之前,使用10x Genomics平台生成的单细胞免疫库数据的分析主要基于cellranger的表格输出。这些输出也适用于最初设计用于“bulk”TCR/BCR-seq分析的工具,如Immcantation suite和vdjtools。
适应性免疫受体库(AIRR)Community成立于2015年,于2017年开始对高通量免疫库测序的数据格式和结构进行标准化。10x Genomics TCR/BCR数据的airr标准化格式直到后来的cellranger版本才出现。已经出现了一些工具,提供了专门用于处理单细胞数据的不同分析选项,包括scipy、Dandelion和scRepertoire。
Single-cell immune repertoire data analysis overview
由于大部分scTCR/BCR-seq数据生成都是在10x Genomics平台上进行的,接下来的章节中重点介绍如何从该格式开始处理和分析数据。其他scTCR/BCR-seq数据生成方法正在出现,大多数输出将符合AIRR标准,允许以类似的方式分析数据,例如,BD Rhapsody TCR/BCR分析提供了AIRR标准化的输出文件。
Data preparation
10x Genomics cellranger vdj提供了许多对scTCR/BCR-seq分析有用的输出文件。与每个输出文件相关的信息,以及实现这些文件的算法的一些描述,都列在10x Genomics支持网站上。这些文件大多可以用于输入到Dandelion, scRepertoire和Scirpy中,后者还接受其他数据格式,如TraCeR/BraCer的输出。
通常,分析会从带有' filtered_ '前缀的文件开始,这表明已经应用了cellranger过滤来保留全长和有效的TCR/BCR序列。这对于研究成熟T细胞/B细胞尤其重要,因为它们的TCR/BCR已经成功重排。使用“filtered_”数据集的下游分析减少了来自不相关组合的潜在噪声,提高了诸如细胞类型鉴定、克隆性评估和突变率等的准确性。如果使用“cellranger multi” pipeline,则删除与相应基因表达数据中的任何细胞条形码不匹配的contigs。相反,带有' all_ '前缀的文件将包含与液滴相关的任何信息,而不管液滴是否包含细胞。
Reannotation
imcantation套件是第一个实现解析10x Genomics V(D)J测序数据策略的工具,通过使用IgBLAST与IMGT参考序列重新注释fasta文件。这有效地允许imcantation将输出转换为表格电子表格格式(稍后与AIRR标准对齐),并允许访问依赖IMGT引用的下游工具。这是必要的,因为10x Genomics cellranger vdj使用基于ensembll的参考进行注释,由于IMGT唯一编号系统或V(D)J位点的等位基因级别注释而缺乏空白信息。Dandelion采用了Immcantation的重新注释步骤,并增加了单独注释D/J基因的额外步骤,使Dandelion保留了缺乏V基因的contigs(被IgBLAST丢弃),这也导致了“J基因多映射者”的发现(具有多个连续J基因片段的contigs)。值得注意的是,10x Genomics cellranger vdj已经恢复了没有V基因的contigs。然而,对于具有多个J基因的contigs,其中很大一部分也缺少一个V基因,cellranger vdj将注释具有最高比对分数的J基因,而不是选择leftmost J基因。
如前所述,还有10x Genomics cellranger vdj的替代品,如TRUST4和MiXCR,它们能够从头组装TCR/BCR序列,然后从原始的10x Genomics V(D)J序列文件中注释V(D)J基因。TRUST4和MiXCR都可以从10x Genomics基因表达文库中重建V(D)J序列,其输出与V(D)J文库高度相关。在TRUST4的情况下,通过V基因的存在来重建V(D)J组群可能存在一些偏见;虽然这对于研究成熟T细胞和B细胞的大多数用例来说是好的,但这可能对研究包含早期发育T细胞/B细胞的数据集构成挑战,这些数据集发生活性(D)J重排,而不是V(D)J重排。还需要注意的是,在默认情况下,TRUST4使用IMGT引用注释V(D)J基因,而MiXCR使用自己的内置引用集。
BCR/TCR clustering and filtering
TCR/BCR聚类对于确定细胞间的克隆关系很重要。TCR/BCR克隆型是指具有相同(TCR)或相似(BCR)受体的细胞。在AIRR数据标准中,属于相同克隆型的受体和细胞将被标记为相同的“clone_id”。这使得研究人员可以推断,在发育和/或克隆扩增过程中,相同克隆型的细胞来源于相同的祖先细胞。传统上,TCR/BCR的聚类基于两个主要标准:(1)使用相同的V和J基因;(2)CDR3长度。具有满足前者而不满足后者的受体结构的细胞表明发生了随机的N/P核苷酸插入。这些细胞在进化上仍然可以被认为是同一祖先谱系的一部分,但不能严格地认为是“克隆”。BCR的克隆关系更为复杂,因为重组后的BCR链可能发生SHMs,这也可能在连接区域引入插入/删除。该领域已经设计了不同的方法来定义BCR克隆型,例如根据成对汉明距离的双峰分布设置一个截止值和/或设置85-90%相似度的经验阈值。魔咒套件提供了各种度量来执行克隆型分组,包括hamming距离分布阈值.
另一种常用的克隆型定义是将TCR/BCR序列分组为“功能性克隆型”。这一定义适用于对相同表位具有共同特异性的适应性免疫受体构型,这是由于CDR3连接处的结构相似性和/或某些氨基酸基序模式的富集,有时也被称为配体库。目前已有几种基于编辑距离或相似性度量的基序聚类方法,如GLIPH、GLIPH2、ClusTCR、GIANA、tcrdist、tcrdist3和iSMART。然而,它们主要是为bulk TCR-seq数据而开发并应用的(仅单链)。虽然不严格属于“功能性克隆型”范畴,但基于scTCR-seq重组频率的聚类已经在ALICE(抗原特异性淋巴细胞扩增序列聚类鉴定)中提出,以帮助利用序列相似性识别参与共享免疫反应的TCR和邻近TCR。ALICE利用基于IGoR的随机TCR重组模型构建单细胞TCR邻域空间,并通过随机机会找到聚类程度超过预期的序列。聚类序列被认为对相同的抗原有潜在的反应.
虽然这些方法提供了策略来推断克隆型、抗原特异性和整体细胞表型之间的关系,但在将它们应用于scTCR/BCR-seq数据时需要谨慎。单细胞数据可能采样不足,不适合运行这些方法。scTCR/BCR-seq产生成对链数据,而上述工具仅用于分析bulk TRB数据。实验验证结果也可能具有挑战性,因此可能具有有限的预测价值。尽管它们更具挑战性,但基于湿实验室的预测抗原特异性的方法,如用于批量TCR-seq的方法,对于发现新的克隆型-表型关联更有价值。也有新兴的商业技术可以通过scRNA-seq实验在单细胞水平上捕获成对链TCR/BCR-seq的抗原特异性,例如,10x Genomics条形码激活抗原定位(BEAM)-T和BEAM- ab, dCode Dextramers。也有新兴的计算技术可以利用这些新数据来预测新的抗原结合。例如,pMTnet使用迁移学习框架来学习和预测肽-主要组织相容性复合体(MHC)- 1和TCR之间的结合关联,验证其在10x Genomics单细胞免疫分析与dCode Dextramers试剂配对的单细胞数据上的效用。总的来说,这些新兴技术的发展和使用将彻底改变未来scTCR/BCR-seq分析和解释的方式。
目前,大多数scTCR/BCR-seq分析工具都包含了基于TCR/BCR序列和V(D) j基因使用相似性将单个细胞重组为克隆型组的功能。重要的是,在进行克隆型分组之前,其中一些工具对scTCR/BCR-seq数据的质量控制和过滤进行了特殊考虑,这可以极大地影响下游分析的结果。例如,虽然通过唯一分子标识符(UMI)计数对contigs进行排序并选择具有最高UMI计数的链对进行下游分析是常见的,但通过连续UMI计数进行硬过滤虽然不经常实施,但可能会减少用于克隆类型调用的contigs/链的总数,并导致不同的克隆类型定义。对于一些处理10x Genomics scTCR/BCR-seq数据的工具,它们默认使用cellranger软件提供的克隆型定义。虽然这通常适用于TCR-seq数据,因为cellranger基于相同的V(D)J转录本定义TCR克隆型,但对于cellranger v5.0之前的BCR-seq数据来说,这是有问题的,因为使用了相同的标准,有效地不考虑SHMs。enclone现在作为cellranger v5.0中的一个模块提供,用于将细胞分组为BCR克隆型,这符合SHM事件。总的来说,无论用户选择哪种工具来定义T细胞或B细胞克隆型,我们建议用户应该手动检查克隆型定义是否适合他们的数据,并在必要时重新执行克隆型分类,因为单细胞数据的质量控制步骤极大地影响了克隆型调用的结果。
scTCR/BCR-seq data analysis and single-cell integration
如前所述,在2020年之前,分析scTCR/BCR-seq分析的选择有限。大多数软件最初是为bulk免疫库分析而创建的,开发人员努力使这些方法适应单细胞分析。例如,开源的imcantation套件被广泛用于bulk BCR-seq和scBCR-seq分析。它包含大量的工具,如changeo, shazam, alakazam和IgPhyML,允许用户量化B细胞群中的SHMs,定义克隆分组和重建克隆系统发育谱系树。最近的方法,如SCOPer和Dowser也实现了新的方法来定义克隆分组和可视化BCR谱系。Dowser的独特之处在于开发了三个基于简约性的汇总统计,这些统计描述了B细胞系统发育树的迁移、分化和同型转换。这个工具在理解B细胞在组织间的迁移、它们向各种细胞类型的分化和同型转换方面特别有用。类似地,SCOPer引入了一种谱聚类方法,该方法适用于scBCR-seq数据,以识别克隆。谱聚类方法是一种基于连接序列在不同局部邻域的相似性对BCR序列进行分组的最近邻方法。他们随后还引入了一种更新的方法,该方法考虑了SHM并相应地对相似性度量进行加权。总体而言,导入套件绘制了该领域如何分析bulk BCR-seq和scBCR-seq数据的图表。需要注意的是,植入套件不能明确地与scRNA-seq分析工具包交互,这对于一些用户在确定单细胞数据集的相关分析策略时可能具有挑战性。
用于分析单细胞数据的数据架构在很大程度上是由开发和维护软件包(如用R开发的Seurat和SingleCellExperiment)或用Python开发和维护Scanpy/anndata)的团队领导的。在创建用于多组学表示的工具方面也出现了新的努力,例如μ子。大多数单细胞免疫库分析工具旨在将scTCR/BCR-seq数据与这些单细胞数据格式相结合,以便进行进一步的探索,例如执行过滤和质量控制检查,克隆分型,克隆扩增量化和克隆多样性估计。
Scirpy是第一个专门处理来自10x Genomics cellranger的scTCR(以及随后的scBCR)数据格式的开源工具。Scirpy是Scanpy的扩展,主要与“anndata”数据结构交互。Scirpy的免疫受体模型侧重于主要表达单和/或双免疫受体细胞的细胞,遵循TraCeR的模型。具有超过两对TCR/BCR的细胞被标记为多链细胞,并从下游分析中过滤。Scirpy使用“aircell”数据结构来与AIRR标准保持一致,自然地将必要的配置数据填充到single cell观测数据框架(data.obs)中。多余的链(和其他AIRR重排数据)被存储,这样他们就不会被大量的AIRR重排数据所负担,而这些数据对于Scirpy的功能来说是不必要的。Scirpy持续支持解析其他scTCR/BCR-seq分析工具的输出。最近,Scirpy进行了更新,使用基于笨拙数组的新数据结构运行,该数据结构支持MuData中实现的多组学数据结构。新版本的一个主要区别是,AIRR重排数据不再像以前那样自动扩展到single cell观测数据框架中。scipy实现了一种基于网络的克隆型定义策略,该策略最初基于CDR3氨基酸序列之间的Levenshtein距离,随后引入了其他距离度量,如基于Hamming距离的度量(更符合BCR克隆型定义的实践),这些度量可以在相同的CDR3核苷酸序列上对TCR克隆进行分组。还有一个受tcrdist启发的“对齐”度量,该度量基于BLOSUM(块替换矩阵)距离计算克隆型。Scirpy利用了Scanpy的绘图功能,并进一步引入了其他可视化方法,例如克隆型图,其中每个克隆型都表示为连接克隆型中的所有单个细胞的子图。布局使用矩形包装策略来排列和可视化从最大到最小克隆型的子图。用户可以将克隆型中的细胞着色,以可视化与每种克隆型相关的细胞类型特异性信息,类似于用户在Scanpy中与scRNA-seq数据交互的方式。单细胞观察的网络可视化布局逐渐被以克隆型为中心的布局所取代,其中单个点代表克隆型配置,并且点的大小与每个克隆型中的细胞数量成比例。Scirpy还实现了几个有用的模块来量化克隆多样性,扩展和重叠,并可视化V(D) j基因的使用。
同样,scRepertoire是一个开源的R包,设计用于与10x Genomics cellranger vdj过滤的连续输出一起操作,并与Seurat(以及随后的singlecellexexperiment)无缝合作。scRepertoire将TCR/BCR数据附加到单细胞元数据中,可用于仅基因组分析和与基因表达数据的组合分析。它对序列数据进行质量控制和过滤,并具有可视化和量化克隆型丰度、差异V(D) j基因使用、克隆多样性和重叠的功能。最常用的特征之一是“克隆空间稳态”特征,该特征将克隆型比例分类并量化,例如从罕见克隆型到超扩展克隆型。除了scRepertoire之外,还有其他基于r的scTCR/BCR-seq分析工具,如Platypus和Immunarch。Platypus软件包提供免疫库模拟、库分类和适应性受体结构分析功能。另一方面,Immunarch具有跨多个免疫库测序平台的广泛支持。由于这两个包都需要免疫库数据的自定义结构,这使得它们与其他单细胞工作流的互操作性变得复杂。与Immcantation一样,Immunarch不直接与scRNA-seq包相互作用,因此可能对分析scRNA-seq和scTCR/BCR-seq数据的组合支持有限。
Dandelion是另一个开源的scTCR/BCR-seq分析软件包,最初受bulk BCR-seq克隆型网络分析的启发,与上述工具(尤其是scipy)具有功能重叠。与scipy相比,Dandelion不依赖于anndata数据结构,而是专注于保留组级AIRR重排数据,并单独填充可与Scanpy观察slot合并的cell级数据帧。 Dandelion根据CDR3氨基酸/核苷酸序列的相似性使用汉明距离调用克隆型,同时断言相同的V/J基因用法和CDR3长度的要求。该方法利用最小生成树构建克隆网络,该树基于整个TCR/BCR序列的相似性(Levenshtein距离)连接细胞。由此产生的网络使基于基尼指数的多样性分析成为可能。Dandelion的数据结构没有那么严格,允许保留在其他工具中无法通过正常过滤的AIRR重排数据。这允许不完整/部分和非生产性组群的独特表示(例如,缺乏V基因的组群)。大多数其他工具在很大程度上忽略了这些类型的“非标准”组件/链,但越来越多地采用将它们包括在下游分析中的方法。例如,Scirpy的新数据结构消除了以前仅包括下游分析的生产性链的限制,现在可以包含非生产性链。虽然imcantation套件始终支持访问“失败”文件中的数据,但在预处理期间不会自动返回。
最近,另一个工具sciCSR引入了一种分析策略,利用SHM和CSR来改善B细胞成熟的一致性。通过将V基因序列与IMGT/HighV-Quest的种系V基因序列进行比较,列举了SHM。基于种系转录本(也称为无菌转录本)的表达如何先于CSR的发生并能够标记CSR60的发生这一特征,根据5 '基因表达文库中的reads是映射到VDJ区、恒定基因还是恒定基因上游的5 '区域,创建了新的特征。这区分了转录本是生产性的还是无菌的,他们称之为“isotype signature”。通过对这种“同型特征”的非负矩阵分解分析,他们定义了一个名为“CSR潜力”的新指标,该指标强调了单个B细胞是幼稚或记忆。通过结合CellRank对单细胞基因表达、SHM和“CSR潜力”的分析得出的马尔可夫链模型,他们将过渡路径理论方法应用于所得的过渡矩阵。利用时间过程研究中早期时间点的数据,预测了CSR事件在较晚时间点的概率,以及基因敲除研究中的CSR变化。
最后,10x Genomics有一个分析BCR和TCR数据的工具。Enclone是用Rust编写的,它实现了一种不依赖于IMGT引用的独特克隆分型算法。它用10x Genomics cellranger vdj克隆型定义解决了之前的问题,该定义断言克隆型中相同的CDR3序列,这对于BCR数据来说是有问题的。它还实现了克隆型的“蜂窝”表示,这有助于可视化轻链一致性,这是一种观察到的记忆B细胞倾向于使用相同的轻链V基因的现象。克隆还具有推断V基因供体等位基因的独特功能。这可能对我们推断个体遗传变异如何导致由于遗传倾向而导致抗体反应的变化产生重要影响
总的来说,虽然每种方法在功能上大致相似,但它们的方法和结果可能不同。我们建议用户在选择下游分析方法时考虑他们想要解决的生物学问题,因为每种软件在不同的淋巴细胞生物学背景下都有独特的功能、优点和缺点。scTCR/BCR-seq软件包的实际选择是通过选择与用户选择的配套scRNA-seq工具包兼容的工具。例如,用户通常会将Seurat与scRepertoire配对,或将Scanpy与Scirpy配对。然而,重要的是要考虑到一些工具更擅长于分析特定的细胞类型或克隆类型特性。例如,scRepertoire生成用于量化克隆扩增数据的直观指标;Scirpy和Dandelion分别更侧重于TCR和BCR数据分析; Dandelion也更擅长分析发育中的T细胞/B细胞。总的来说,由于AIRR标准化,scTCR/BCR-seq数据有一致的输入和输出格式,这鼓励了工具之间的互操作性。在开发用于R和Python工作流的scRNA-seq数据格式之间转换的包方面也投入了相当大的努力。因此,鼓励用户探索各种工具包,以满足他们的分析需求,促进生物学相关问题的回答。
Advanced integrated analysis
多模态数据集成分析的一个目标是争取一个共同的嵌入或流形。为了实现scTCR/BCR-seq和scRNA-seq的集成分析,已经提出了一些工具和概念。
Tessa (TCR Functional Landscape Estimation Supervised with scRNA-seq Analysis)利用贝叶斯模型整合scTCR-seq和scRNA-seq数据,生成反映TCR序列和基因表达空间相似性的TCR网络嵌入。Tessa有助于分离免疫治疗后出现的T细胞,这可能是由于不同的潜在TCR谱将治疗前后存在的T细胞分开
同样,CoNGA (Clonotype Neighborhood Graph Analysis)是另一种工具,它基于克隆型之间的TCR序列相似性构建邻域图,并与基因表达邻域图进行图对图相关性分析,突出基因表达和TCR邻域空间中的共同邻域。这种方法能够表征具有共同特征的克隆型cluster(包括差异表达基因和TCR序列特性)。
Benisse模型(由scRNA-seq通知的BCR嵌入图形网络)的创建重点是生成一个包含基因表达数据和scBCR-seq数据(编码为Atchley因子68,总结了单个氨基酸序列的生化特性)的共同潜在空间。提出了学习包埋的方法来反映BCR序列的抗原特异性,核心Benisse模型能够绘制生发中心B细胞的BCR SHM轨迹,该轨迹与成熟和记忆基因特征相关。
共有 0 条评论