Nature|结直肠癌基因组和表观基因组的共同演化

这是一篇IF= 69.504的文章

背景:2022年10月26日,英国伦敦癌症研究所进化与癌症中心Andrea Sottoriva教授团队在《Nature》上发表了一篇名为“The co-evolution of the genome and epigenome in colorectal cancer”的文章。该团队为结肠癌生物学提供了一张遗传和表观遗传肿瘤异质性的地图。

1.摘要部分

        结直肠恶性肿瘤(Colorectalmalignancies)是导致癌症相关死亡的主要原因之一,并且已经进行了大量的基因组研究。然而,仅仅依靠DNA突变(DNAmutations),并不能完全解释恶性转化(malignanttransformation)。本文中,我们针对个体腺体(individualglands)的空间多组学分析(spatial multi-omicprofling),研究了结直肠肿瘤基因组表观基因组的共同演化,达到了单克隆分辨率(single-clone resolution)。我们收集了来自30个原发性癌症和8个伴随腺瘤的1,370个样本,并生成了1,207个染色质易感性概况,527个全基因组和297个全转录组。我们发现染色质修饰基因中的DNA突变有正向选择,以及反复出现的体细胞染色质易感性改变,包括在癌症驱动基因的调节区域内,这些区域否则没有遗传突变。转录因子结合的全基因组易接受性的改变涉及CTCF,干扰素的下调和SOX和HOX转录因子家族的可接受性的增加,这表明在肿瘤发生过程中可能涉及到发育基因。体细胞染色质易感性的改变是可遗传的,并可以区分腺瘤和癌症。突变特征分析表明,表观基因组反过来影响DNA突变的积累。这项研究为遗传和表观遗传肿瘤异质性提供了一张地图,对理解结直肠癌的生物学有着根本的影响。

"concomitant adenomas"----“伴随腺瘤”。它通常用于描述在某个特定部位或组织中同时存在的腺瘤。这些腺瘤可能由相同的病因引起,也可能没有明确的关联。在医学文献中,这个词通常用于描述结肠或直肠的腺瘤情况

“chromatin accessibility profiles”是染色质可及性表征。这通常用于研究基因表达细胞生物学,特别是在生物医学领域。染色质可及性表征可以提供有关细胞中特定基因区域与DNA结合蛋白的相互作用以及DNA甲基化等修饰的信息,这些信息对于理解基因表达调控和细胞功能至关重要。

2.正文部分

        由肿瘤内部异质性推动的克隆进化,驱动肿瘤的发起、进展和治疗抵抗。对于结肠恶性肿瘤的遗传进化和肿瘤内部异质性,我们已经有了很多了解。虽然遗传异质性非常普遍,但表观遗传变化也导致了癌症细胞之间表型的差异。在细胞系和人体样本中,已经进行过对结肠癌染色质可及性的表观遗传分析的重要研究。然而,目前的研究仅限于单个大块样本,有些研究还缺乏正常对照。并且,癌症基因组和表观基因组如何同时演变和塑造肿瘤内部的遗传和表观遗传异质性,至今仍未探究。

        通过在单克隆分辨率下进行多组学分析,以及对人体肿瘤和配对正常组织的准确空间采样,可以量化地测量基因组-表观基因组的共演化。结直肠癌(Colorectal cancers,CRC)的结构类似于正常肠上皮中的隐窝,这些是管状的内突物,细胞增殖主要由底部的一小部分干细胞驱动,癌症腺体被认为具有相同的结构。这意味着腺体内的所有细胞都有一个近期的共同祖先,并且只间隔几次细胞分裂:因此,通过细胞增殖,以相对较高的精确性复制DNA,腺体大体上是克隆群体。因此,腺体可以被认为是一个可以利用来在单克隆分辨率下进行多组学分析的天然全基因组扩增机器。在正常和癌症细胞中研究克隆动态,单隐窝和单腺体的基因组分析已经使用很长时间了。

        我们开发了一种方法,同时分析单个腺体或隐窝的单核苷酸变异(single nucleotide variants,SNVs)、拷贝数变异(copy-number alterations,CNAs)、可通过转座酶访问的染色质测序(chromatin Accessibility with Transposase-Accessible Chromatin sequencing,ATAC-seq)进行染色质可及性分析,以及通过RNA测序(RNA-seq)进行整个转录组分析。我们在此展示了来自30名患者的38个病变中收集的1370个样本的多区域单腺体多组学的结果,每位患者的肿瘤样本数量在21-55之间(中位数为42)。

图1l空间单腺体多组学。a,从30名患有I-III期结直肠癌的患者新鲜的切除标本中获取30个癌症和8个腺瘤的组织。      b,从正常和癌化样本中分离出单个腺体和小块(微块)。c,对每个样本进行细胞裂解后进行核沉淀。d,对细胞溶液进行RNA测序,而使用核进行全基因组测序(WGS)和转座酶可及染色质测序(ATAC-seq)。e,我们确定标本的不同区域:癌症(A,B,C和D),远端正常样本(E)和如果存在的腺瘤(F,G和H)。将每个样本切分为4个片段(详见插图)。比例尺,1厘米。f,从每个片段中,我们收集单个腺体(标记为G)以及微块(几十个隐窝的累积,标记为B)。g,我们在同一样本上进行多组学使用WGS,ATAC-seq,和RNA-seq,实现了测序间的良好重叠。h,对于每种测序,我们都有来自正常,腺瘤和癌症区域的代表样本。b-d的图形使用BioRender.com创建。

单器官多组学(Single-gland multi-omics

    我们前瞻性地从30位因手术而转诊到伦敦大学学院医院的患者中收集了30个I-III期初级结直肠癌以及8个同时存在的腺瘤的新鲜切除标本(见图1a,方法部分,补充图1和补充表1的临床信息)。

我们在正常和癌变组织上进行了单个腺体的分离(图1b,方法部分),然后将细胞质中的核与溶质分离(图1c)。在腺体分离后仍剩余的组织片段被留下以评估腺体对其起源的总体有多代表性。我们将这些由几十个腺体组成的样本称为微块。我们利用这些细胞核来进行全基因组测序 (WGS) 和利用ATAC-seq进行染色质可及性分析,并使用细胞质来执行全转录组 RNA-seq分析(图1d 和方法部分)。我们通过与癌症基因组图谱队列中的全细胞 RNA 表达进行比较,验证了我们正常结肠组织对照中的细胞质 RNA 表达具有很高的相关性(补充图2)。 

        我们的空间采样肿瘤组织的策略旨在在多个尺度上测量克隆进化。我们首先取样一个给定癌症的四个空间上远离的区域(wA,B,C和D区),这些区域位于肿瘤边缘附近,一个远离的正常上皮区域(E区)和如果存在则同时存在的腺瘤(F,G和 H区)。每个区域都收集了一个大的样本,并在原始的切除标本中进行了空间标注(图1e和补充图1)。每片切成四个小区域(例如,A1-A4和B1-B4),如图1e插图所示。然后,我们收集并分析了每个患者肿瘤的12-40个(中位数=37)单独的腺体和2-17个(中位数=4)微块(图1f和在https://doi.org/10.6084/m9.figshare.19848199的附加图)。血液或者,如果不可用,使用大的相邻正常组织样本作为正常参照。每个患者进行的ATAC-seq分析范围在18-59个样本之间(中位数=42;方法和补充表2),深度的WGS(中位数深度35x)在3-15个样本之间(中位数=8),低通WGS(中位数深度1.2x)在1-22个样本之间(中位数=8;方法和补充表3)。对于部分肿瘤样本(n = 370/1,370),WGS和ATAC-seq数据均可用(图1g)。

        我们还生成了600个全转录物,其中297个质量足够用于分析(1-40个样本在27个患者中,中位数=7;方法和补充表4),并且许多样本也与WGS数据集,ATAC-seq数据集或者两者之间有重叠(图1h)。此外,我们在8个样本上进行了甲基化数组分析(方法)。我们为所有的样本鉴定了CNAs、体细胞SNVs、短插入和删除(indels)和ATAC-seq峰值(方法)。

影响表观遗传的体细胞突变(Somatic mutations affecting the epigenome)

    我们首先评估了我们队列中基因变异的情况。六个病例表现出微卫星不稳定性(MSI; 方法),如图2a所示,这导致SNV和indel负担显著增加(图2b)。

CNAs与之前的数据集2、3重复,其中微卫星稳定(MSS)病例表现出高非整倍性(high aneuploidy),MSI病例则主要呈现二倍体(diploid)(补充图3)。

"high aneuploidy"是一个医学术语,通常用于描述细胞或生物体的染色体数量异常增多或减少的情况。在人类中,高非整倍性(high aneuploidy)通常与遗传疾病、发育异常、出生缺陷和某些癌症有关。因此,“包含的内容”可能包括染色体数量异常、遗传疾病、发育异常、出生缺陷和某些癌症等。

补充图3:我们估计每个患者每个样本的绝对拷贝数变化,无论是深度WGS还是高通量WGS。

    正如先前3文献中所述,腺瘤样本比微卫星稳定(MSS)癌症显示出较低程度的非整倍体性,除了两个异常值(扩展数据图1)。

        确认了肿瘤抑制基因,如APC,PTEN,TP53和SMAD4的经常性拷贝丧失。焦点扩增在FGFRI(两个病例)和MYC(一个病例)中被发现。在这个数据集中再现了结直肠癌的经常性癌症驱动基因突变事件,其中在APC,KRAS和TP53中有典型的突变(图2c 和附加图  地址)。除了两个病例(C522和C539),这三个基因的突变总是克隆性的。腺瘤的突变谱与早期研究31相一致,包括APC(4/8 vs 73/135,P值=1, Fisher's 确切检验)和KRAS(2/8 vs 13/135,P值=0.20, Fisher's 确切检验)的突变频率。我们观察到我们的研究中TP53突变的发生率略高(2/8 vs 4/135,P值=0.037, Fisher's 确切检验)腺瘤突变频率与另一项先前的研究相似(TP53,P值=1;KRAS,P值=0.33;APC,P值=0.029;PIK3CA,P值=1;Fisher's 确切检验)。

microsatellite instability 微卫星不稳定性。

微卫星:又称短串联重复序列(short tandem repeat STR)是指基因组中小于10个核昔酸的简单重复序列,以两个核昔酸组成的重复序列最为丰富,以(CA)n、(GT)n、(CAG)n最常见。重复次数为10~50次,主要在基因的非编码区,其序列短,多数<200bp,由于微卫星的重复特性,其在DNA复制过程中固有不稳定性

DNA错配修复 (mismatch repair,MMR)系统广泛存在于生物体中,是细胞复制后的一种修复机制,起维持DNA 复制保真度,控制基因变异的作用。MMR系统由MMR基因编码的一系列MMR蛋白组成。MMR基因的突变或者修饰(如甲基化)可以导致MMR蛋白的缺乏。

微卫星不稳定性(MSI)是一种病理学标记,通常用于检测某些癌症的基因组不稳定性和肿瘤的异质性。它通常通过检测肿瘤组织中微卫星(短的DNA重复序列)的重复单位长度变化来判断。这种不稳定性的增加可能与某些癌症的基因组改变和不良预后有关。因此,MSI可用于监测癌症治疗反应和预测患者的生存率。

        在正常细胞中完整DNA错配修复系统可以快速修正这类错误,从而保持微卫星的长度不变。通常由错配修复基因hMLHI、hMsH2、hMSH6和hPMS2编码错配修复蛋白修正这类错误。MMR相关基因异常导致的MMR蛋白缺乏,从而不能纠正DNA复制错误,由此产生MSI。与正常组织相比,肿瘤组织中重复单位插入或缺失导致微卫星长度的改变,从而表现MSI。

|典型癌症驱动基因和染色质修饰基因的DNA改变。a,每个病例的微卫星不稳定频率。每个数据点显示了MSIsensor在一个样本中报告的突变微卫星的比例。超过25%的突变微卫星提示微卫星不稳定。b,给定病例所有癌症样本的突变负担,按突变类型分类(MNV,多核苷酸变异)。c,在癌症驱动基因中反复突变的样本比例(阴影部分)以及相应突变的类型(颜色)。橙色点表示突变是克隆的(即,存在于所有样本)。MMR,错配修复。d,微卫星稳定病例中染色质修饰基因的截短突变(Truncating mutations a)和indels。e,微卫星稳定(MSS)和微卫星不稳定(MSS)癌症及腺瘤的克隆和亚克隆染色质修饰突变的dn/dS分析揭示了在微卫星稳定癌症中染色质修饰基因的克隆截短突变中存在显著的选择(请参见箭头)。误差条是95%的置信区间;点显示最大似然估计值;微卫星稳定腺瘤和癌症的病例数分别为n = 7和n = 24,微卫星不稳定腺瘤和癌症的病例数分别为n = 1和n = 6。

        为了研究基因突变对表观基因组的影响,我们检查了染色质修饰基因的体细胞突变(见补充表5),比如赖氨酸去甲基酶( lysine demethylase,KDM)、赖氨酸乙酰转移酶(lysine acetyltransferase,KAT)、赖氨酸甲基转移酶(lysine methyltransferase,KMT)和SWI/SNF(ARID1A)家族成员(见图2d的MSS病例,以及补充图4的所有)。通过dn/dS评估了染色质修饰基因的进化选择(参考32,33和方法)。

        在MSS病例中,染色质修饰基因中的克隆截断突变(在肿瘤的所有样本中都发生)显示出明显的正选择迹象,其dn/dS明显大于1(图2e,箭头)。存在子克隆染色质修饰突变,但未检测到正选择,其dn/dS大于1(图2e)。在MSI癌症中,没有发现染色质修饰基因突变的正选择证据,尽管它们的高突变负担可能限制了检测的力度。总的来说,染色质修饰因子的克隆性截断突变在6/24的MSS病例(25%)以及所有的MSI病例中被发现,只有少数反复突变的基因,这表明CRC中针对染色质修饰因子失活的选择模式相合。

    MSI癌症(微卫星不稳定癌症)中染色质修饰基因突变没有检测到正选择证据,尽管它们的突变负担高可能限制检测能力。总的来说,CRC(结肠直肠癌)中染色质修饰的克隆终止突变存在于6/24MSS病例(25%)和所有MSI病例中,且只有少数几个常变突变的基因,这表明在CRC中对染色质修饰的失活选择具有收敛模式

dn/dS 分析

用于R的dndscv包(参考33)用于dn/dS分析。从VCF文件86中获得每个患者的变异调用,并使用R的rtracklayer包(参考87)将其提升到hg19参考基因组中。变异体被分为克隆突变(即在所有样本中都存在)和亚克隆突变(即在部分样本中存在),癌症中存在一组突变,在任何腺瘤样本中存在。MSI和MSS病例分别处理。dndscv分别应用于四个集合(MSI或MSS和克隆或亚克隆)(除了禁用由于变异数量较高而删除病例的参数外,使用默认参数)。此外,还提取了167个表观遗传修饰基因的dn/dS值。

复发性染色质变化在很大程度上是克隆性的——

Recurrent chromatin changes are largely clonal

        癌症驱动基因中反复出现的基因事件清楚地展示了体细胞变异在癌症进化中的角色,但结直肠癌中染色质可及性的表观遗传变化有多普遍还不清楚。我们检查了我们队列中体细胞染色质可及性改变(SCAAs)的情况。我们使用MACS2(参考文献34)对癌症的每个区域的ATAC-seq数据中的峰进行了鉴定,并比较了肿瘤与正常样本池中每个峰的大小,同时对CNAs的影响进行了规范化,以鉴定显著的SCAAs(图3a和方法)。

什么是染色质可及性?

1染色质关闭:压缩DNA

人的DNA链全部展开大约有2m,需要折叠为染色质结构才可以存储到放到细胞核中。染色质的基本结构单位是核小体(由组蛋白组成),核小体再折叠最终形成高度压缩的染色质结构。一般真核生物是这种方式来存储遗传信息。这个过程像我们将文件压缩为zip或者rar的压缩包,减少它的占用空间。

2染色质开放:解压DNA

高度折叠的染色质结构在复制和转录时需要暴露出DNA序列,这段暴露的区域就是染色质开发区域,这个区域可以供转录因子和其他调控元件结合,所以它与转录调控是密切相关的。这种致密的核小体结构被破坏后,启动子、增强子、绝缘子、沉默子等顺式调控元件和反式作用因子可以接近的特性,叫染色质的可及性,也叫染色质开放性(chromatin accessibility ),这段区域叫开放染色质(open chromatin)。

怎么检测染色质的可及性?

为了研究染色质的这种特性,大家都先后尝试了好多测序来检测染色质可及性。但是目前最常用的是2013年由斯坦福大学William J. Greenleaf和Howard Y. Chang实验室开发的ATAC-seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing),一种捕获染色质可及性(染色质开放性)的测序方法。

图中的TACC2为基因

我们在多个感兴趣的基因,包括许多先前与癌症相关联的基因的启动子(扩展数据图2A)和推定的增强子(扩展数据图2B)中发现了高度反复出现的SCAAs。我们注意到,这些反复出现的水平与许多基因驱动突变一样高,如果不是更高(图2c)。

        我们在已知的由基因研究确定的癌症驱动基因中发现了反复出现的SCAAs(图3b和补充表5中的列表;展示的是在≥4个个体中出现的事件)。我们队列中的许多这些基因并未发生基因突变(在图3b中用紫色星星标注),这证实了SCAAs是驱动基因(无)激活的另一种方式。

        我们还在先前未通过基因突变与肿瘤发生关联的基因中发现了反复出现的SCAAs(图3c,展示的是每组排除图3b中的基因后最常见的25个位点,图3d中的例子)。

图3b|3c

        然后,我们利用我们的空间多区域分析策略来评估肿瘤内SCAA的异质性。ATAC峰的信号很难在样本之间进行比较,因为它受到纯度和转录起始位点富集的变异的干扰。我们使用匹配的WGS来确定在肿瘤的所有样本中存在的克隆(主干)DNA突变,并评估这些变异在ATAC-seq读数中的频率,以获得准确的样本纯度估计(方法和补充表2)。将每个区域的样本视为伪“生物重复”,并将不同癌症区域的每个信号与相应的正常组织进行比较,同时考虑到纯度(方法)。总共有24/30种癌症和10/10种腺瘤有足够的样本和足够的纯度用于分析。我们关注每个类别最常见的25个改变的位点(启动子(promoter)或增强子(enhancer),增益(gained)或丧失(lost)),以及在≥4个病例中发现的与结直肠癌驱动基因相关的位点(补充表6)。我们发现,对于大多数这些事件(5688/5824,97.7%),我们没有证据表明它们是子克隆的,这表明大多数SCAAs是癌症中的克隆性表观遗传变化(图3b,c,参见阴影)。

癌症和腺瘤中的SCAAs。a,示例显示在癌症C530中相对于正常组织检测到的SCAAs。显著改变的峰值显示为红色。MS,微卫星。b,影响已知癌症驱动基因的SCAAs,出现在≥4个病例中。星号指的是在该基因中发现的DNA突变。c,对25个最常见SCAAs的总结,它们位于未通过DNA突变与癌症关联的基因的启动子和可能的增强子中。亚克隆变化在阴影方格中标记。d,癌症C551中在JAK3启动子本位的克隆体细胞峰增大。图显示了来自不同区域(见颜色图例)腺体的归一化峰覆盖。图中的彩色线显示了被叫做的峰,而灰色线显示了参考峰的间隔。e,f,腺瘤与癌症的SCAA负担,针对可接近性的增加(e)和损失(f)。显著(两侧t检验)的是可接近性增加的数量,但不是损失,这是在癌症(n = 24)与腺瘤(n = 8)之间,在癌症中进行抽样读数以至于与腺瘤相同后的情况。箱体的下和上铰链显示第一和第三四分位数。胡须延伸到最大和最小值,距离铰链1.5倍四分位数范围,超出此范围的值以单个点显示。箱体内的灰色水平线表示中位数,而点表示均值。C516的高级腺瘤以红点高亮。g,我们确认了基因表达变化的一个启动子的示例。我们使用DESeq2对比功能比较了具有配对RNA-seg并显示了可接近性增强证据的癌症组(n = 18)和没有显示的癌症组(n = 5)之间的基因表达。

1.早期突变(远期突变),因细胞分裂,相同点突变出现于等位基因上,每个肿瘤细胞都存在

2.晚期突变(近期突变),点突变只出现于等位基因其中之一,每个肿瘤细胞都存在

3.Clonal(克隆系),相同的点突变出现于等位基因上(属早期突变),或出现于扩增的等位基因上(肿瘤染色体可能为多倍体,介于早期晚期中间),每个肿瘤细胞都存在

4,Subclonal(亚克隆系),点突变只出现于等位基因其中之一(超晚/近期突变),非每个肿瘤细胞都存在

在经常改变且几乎总是克隆的表观遗传变化中,我们发现了11/24种肿瘤中JAK3启动子的可及性增加(图3d),以及结直肠癌肿瘤抑制基因CCDC6中染色质可接近性的丧失。无论是在启动子(12/24种癌症)还是在相关的增强子区域(3/24种癌症)都是这种情况;例如,可在补充图5A中的案例C524中看到。值得注意的是,CCDC6的突变在结直肠癌中并不常见(我们队列中的30个病例中有3个,以紫色星星标注在图3b中)。此外,在四个癌症和一个腺瘤中观察到ARID1A增强子的丧失,其中只有两个病例也带有这个基因的突变。我们还发现了其他假设的结直肠癌驱动者的改变,如SMAD3和SMAD4启动子的丧失,以及NCOR2增强子的增益。在我们的队列中,发现在没有DNA突变的情况下,NFATC2和LIFR这两个未在结直肠癌中报道过的癌症驱动基因发生了表观遗传改变。值得关注的是,我们在11/24个病例中发现FOXQ1启动子中典型的克隆SCAAs,这是一个已知的癌基因,报道过参与结直肠癌的肿瘤形成性35,血管生成和在进展期间的巨噬细胞募集36。尽管大多数反复出现的SCAAs在癌症中是克隆的,但是我们发现一部分SCAAs是子克隆的,并限制在一个或多个区域。这在一种FOXL1增强子增益(12/24种病例,50%)的例子中得到了证实,这种增益只出现在癌症C524的C和D区域(见补充图5B)。

        我们注意到,在我们的数据集中调用的ATAC峰值与来自由单个结直肠癌散装组成的癌症基因组图谱数据集14和ENCODE正常结肠组织数据集37的峰值重叠。此外,当使用我们的流程重新分析时,平均峰值大小强烈相关(补充图6)。

        然而,由于缺乏匹配的正常对照,这些正交的大样本数据集中很难区分癌症中发生的染色质变化与正常结肠中存在的变化(例如,确定峰的体细胞变异状态),实际上染色质可接近性的大多数信号来自样本的起源组织。

腺瘤和癌症中的染色质变化Chromatin changes in adenomas and cancers

        我们随后寻求确定SCAAs在腺瘤-癌症转化中的作用,同时不排除其中一些改变可能是正常组织衰老的产物。我们检查了SCAAs发生时肿瘤发展的阶段。在癌症中发现的665个反复出现的SCAAs(≥6个病例)中,只有113个(17.0%)也在匹配的腺瘤中检测到,这表明大多数SCAAs可能在恶性转化的开始时发生,即在肿瘤生长开始后但在子克隆多样化之前发生(因为它们也基本上是克隆的)。这样的事件例子是NXPH1增强子的可接近性增加(4/24个患者,17%)在C561中,这在癌症的每个区域中都存在,但在任何一个同时存在的两个腺瘤中都不存在(见补充图5C和所有事件的附加图)。实际上,与癌症相比,腺瘤的SCAA负担较低并不取决于纯度或阅读深度(purity or read depth)(补充图7A,B)。通过明确规范覆盖范围(补充图7C),我们发现腺瘤和癌症之间的反复出现的可及性SCAAs的负担(>10个患者)显著降低(图3e)。

在可及性的丧失负担中没有发现差异(图3f)。我们注意到,我们队列中唯一一个被发现与癌症共定位的高级腺瘤(C516;见补充图1),确实表现出癌症的SCAA增益负担(gain burden)(图3e)。此前有人注意到,在驱动基因的点突变水平上,结直肠癌的腺瘤和癌症之间的差异有限,相反在染色体不稳定性水平上的差异较大3。在这里,我们还在腺瘤和癌症之间发现了表观遗传重塑的差异。此外,癌症中SCAA增益的高负担支持了癌症发生涉及全基因组染色质可接近性增加的观点。

“增益负担”是指在某些情况下,表观遗传变化使得某些基因或基因区域更易于被转录因子识别和结合,从而更容易被激活,即可接近性增益。这种增益可能会导致相关基因的过度表达,从而引发或促进疾病的发展,特别是在癌症等疾病中。因此,这种增益就成为了一种“负担”,需要通过医学干预来处理或阻止。

        为了更深入地了解SCAAs的起源,我们通过比较每个正常结肠隐窝与其他患者的正常样本池,研究了正常结肠的染色质变化。我们在单个正常隐窝中发现了很少的SCAAs,这支持了我们在肿瘤中观察到的SCAAs确实是在肿瘤发生过程中发生的体细胞改变,而不是在结肠隐窝的表观遗传衰老过程中发生的想法。少数SCAAs在同一患者的多个隐窝中被检测到(补充图8A),但正常隐窝中的SCAAs并不常见(补充图8B),并且与在肿瘤中观察到的SCAAs没有重叠(补充图8C)。合理地说,我们观察到的正常组织中的染色质可接近性的一些改变可能是由于种系遗传变异所导致的。

SCAAs对基因表达的影响(Impact of SCAAs on gene expression)

    我们使用匹配的RNA-seq评估了SCAAs对基因表达的影响(例如,图3g)。超过10.8%的启动子(41/379)和13.5%的增强子(10/74)的反复出现的SCAAs(>6个患者)显示出改变相关基因表达的迹象(假阳性发现率(FDR)<0.01,方法,补充表7和图表https://doi.org/10.6084/m9.figshare.19857274)。

g,我们确认了基因表达变化的一个启动子的示例。我们使用DESeq2对比功能比较了具有配对RNA-seg并显示了可接近性增强证据的癌症组(n = 18)和没有显示的癌症组(n = 5)之间的基因表达。

补充表7

图中横坐标为:“c.p.m."是"counts per million"的缩写,意思是"每百万计数"。这是一种用来标准化RNA-seq数据的方法。由于不同的样本之间RNA测序的深度可能会有所不同,所以我们需要进行标准化以便进行比较。"每百万计数"就是将每个基因的读数除以总读数,然后乘以一百万。这样,我们得到的就是每个基因在每百万读数中的比例,这样可以更好地比较不同样本中基因的表达水平。

我们注意到,染色质的可接近性度量了转录的可能性,表明了对未来表达的预备或过去转录的残余“疤痕”(remnant scar)。因此,在我们的分析中,更多的染色质变化可能实际上对肿瘤进化很重要,而不仅仅是那些与表达相关的变化。此外,检测表达变化的能力受到队列中给定SCAA的反复出现、不完全匹配的RNA数据以及缺乏关于影响转录的其他因素(如甲基化、翻译后修饰或反式调控)信息的限制。为了进一步探索体细胞突变对SCAAs的影响,我们分析了我们在相关文章3中发现与顺式基因表达变化相关的SNVs,并发现一些这些SNVs与位点染色质可接近性的变化共发生(图表https://doi.org/10.6084/m9.figshare.19857274)。

"疤痕"是一个比喻。它是指过去的转录活动在染色质结构上留下的改变或"痕迹"。这些改变可能导致该区域的染色质易于重新打开或保持开放状态,即便在相关基因不再活跃转录的情况下也是如此。换句话说,过去的转录活动可能会对基因表达有长期影响,就像一个人的身体上的疤痕会影响他们的日常生活一样。在这种场景下,评估这些"疤痕"以及它们如何影响肿瘤的形成和发展是非常重要的。

转录因子信号表明了表观遗传重编程(Transcription factor signals indicate epigenetic reprogramming)

        我们将我们的分析延伸到启动子和增强子的局部染色质可接入性改变之外,研究染色质结构是否可能对转录控制产生全基因组的影响。为了检查这点,我们使用公开可用的转录因子(TF)主题和染色质免疫沉淀后测序(ChIP-seq;方法)数据,分析870个TFs37的全基因组可接入性。我们将所有给定TF的绑定位点的ATAC读数堆积在全基因组中,并画出读数计数与TF主题中心的距离以及每个读数的长度,产生了给定样本的特征性TF可接入性签名,该签名也编码了TF复合物本身在肿瘤(扩展数据图3A以及在https://doi.org/10.6084/m9.figshare.19857391的附加图形)和正常(扩展数据图3B)区域的足迹。TF信号在肿瘤和正常腺体间的标准化差异表明了体细胞可接入性的对象(扩展数据图3C)。这些分析暗示在CRCs中普遍存在全基因组范围的TF染色质可接入性的重编程(图4a,参见方法以获取详细信息)。因为许多TFs绑定到相似的位点,我们只考虑了大部分不重叠的TF注释,以确保单个位点不能驱动多个TFs的信号(点击可查看作者所给的图像,图片很大)。

转录因子(Transcription factor ,TF)

       无监督聚类的体细胞转录因子(TF)结合签名产生了三个主要簇。 第一个主要簇(绿色簇,图4a)似乎与通过在干扰素调控因子家族的TFs可能结合的位点中的染色质可接入性的丧失,与干扰素信号的下调有关,这表明了免疫信号的抑制。

        Reactome和基因本体论分析(图4b)表明,该信号在干扰素γ(FDR = 0.003)和干扰素α/β(FDR = 0.00075)的下调中显著富集。这种信号在MSI癌症中更强,这些癌症被免疫细胞大量浸润(P = .012,费舍尔精确检验)。

1.干扰素(

interferon

),西药名,是一类糖蛋白,它具有高度的种属特异性,故动物的干扰素对人无效,干扰素具有抗病毒、抑制细胞增殖、调节免疫及抗肿瘤作用。

2.

Reactome and Gene Ontology analysis :对Reactome数据库和基因本体论(Gene Ontology)进行的分析。

3.Reactome是一个开放访问的、综合性的、生物学过程数据库,提供了对细胞内和细胞间分子相互作用、信号转导和代谢途径的详细描述。

4.Gene Ontology(GO)则是一个对基因和蛋白质的功能进行分类的数据库,它通过三种不同的类别(生物学过程、分子功能和细胞组分)来描述基因和蛋白质的功能。

对这两个数据库的分析可以提供有关特定基因或蛋白质在细胞内如何相互作用和影响细胞过程的更深入的理解。

5."Interferon-γ signaling"是指γ干扰素信号传导的过程,它是人体免疫系统的一部分,主要负责调节细胞反应并引发炎症反应。这个过程涉及到一系列复杂的分子事件,包括干扰素受体与细胞内分子的结合,以及后续的信号转导和基因表达。这个过程在许多疾病中,包括病毒感染、癌症和自身免疫疾病中,都扮演着重要的角色。

6.“Interferon-α/β signalling (Reactome)”指的是干扰素-α/β信号传导(Reactome通路),是一种细胞反应,当细胞检测到病毒入侵或其它有害刺激时,会释放干扰素。干扰素与细胞表面受体结合,激活一系列信号转导途径,最终导致细胞内一系列基因的表达变化,从而对细胞起到抗病毒、抗肿瘤、免疫调节等作用。该通路是细胞生物学研究的重要内容之一。

7.“Innate immune response (GO)”指的是先天性免疫反应(基因本体论术语)。先天性免疫是生物体天生具有的免疫机制,无需后天学习或获得就能发挥作用。它包括识别和对抗病原体的能力,如抗体、补体、细胞因子等。因此,“Innate immune response (GO)”可以解释为先天性免疫反应的基因本体论术语。

图4|肿瘤中转录因子(TF)结合位点的可达性被重塑。a,肿瘤和正常样本之间转录因子结合位点的差异性信号(参见扩展数据图3)被用来回归转录起始位点富集和纯度,以识别肿瘤中改变的转录因子结合可达性(binding accessibility)。三个主要不同可达性转录因子位点簇的结果在此展示(热图颜色为回归系数;星号表示显著性)。主要簇标识由顶部注释列表示。IRF,干扰素调控因子。

放大了是这样的

        第二个主要簇(蓝色簇,图4a)包含两个有明显CTCF染色质可接入性差异的患者亚组。CCCTC - 结合因子 (CTCF) 是染色质绝缘中的关键参与者,决定环形结构和拓扑相关结域的形成。大多数病例的特点是CTCF绑定位点的可接近性丧失,特别是在MSI癌症中。较小的一组显示了CTCF的易接近性增加。在单个散落癌症样本中,先前已注意到CTCF染色质可接近性的变化3%。在结直肠癌中可发生CTCF体细胞突变4,实际上,慢性CTCF半合子性的小鼠模型导致了更高的癌症发病率和肿瘤通路的紊乱41。

CTCF(CCCTC binding factor),是CTCF基因编码的转录因子  ,与绝缘子的活性相关。CTCF蛋白在印记调控区域(imprinting control region,ICR)和分化甲基化区域1(differentially-methylated region-1,DMR1)和MAR3结合抑制胰岛素样生长因子2(Igf2)基因的过程中起重要作用   。CTCF与靶顺序因子的结合可阻断增强子和启动子的相互作用。从而将增强子的活性限制在一定的功能区域。除了阻断增强子外,CTCF还可作为染色质屏障阻止异染色质的传播。人类基因组有将近一万五千个CTCF绝缘体位点,说明CTCF在基因调控方面的功能广泛。而且CTCF结合位点还可作为核小体定位锚。 CTCF是一种重要的转录抑制因子,具有多个可与DNA结合的锌指结构,通过多种机制调控基因表达。CTCF最具特色的功能是通过同源二聚引起DNA成环,参与基因组拓扑结构域(TAD)边界形成,改变染色质空间结构。作为重要的绝缘子(insulator)元件,CTCF是近年染色质结构领域热门研究对象之一,其核酸结合特征、蛋白互作关系、功能调控机制等都广受关注

        第三个主要簇(红色簇,图4a)表现出涉及发育的TFs的染色质可接近性增加,如HOX、FOX和SOX家族(UniProt:同源框FDR = 0.00069)。这个簇的TFs的染色质可接近性在大多数病例中的癌症中较高,这表明在CRC肿瘤形成中可能重新激活发育基因(图4c)。这个簇中涉及的TFs的表达在补充图9中报告。

图4c 

c,STRINGdb 对红色簇的分析表明家族蛋白基因的活性上调。

1.STRINGdb 一种可视化分析工具

2."homeobox family"指的是“同源异形盒(homeobox)基因家族”,这是一种在生物体内广泛存在的基因家族,主要存在于脊椎动物中,特别是哺乳动物和鸟类中。

3.同源异形盒基因编码的蛋白质通常具有一个特定的DNA结合结构域,称为同源异形结构域或homeodomain,这种结构域在转录调控中起着关键作用。因此,“homeobox family”通常指的是包含同源异形盒基因及其相关基因和蛋白质的集合。

补充图9

        值得注意的是,匹配的RNA-seg数据显示,人白细胞抗原(HLA)基因的基因表达在MSS和MSI癌症中显著低于正常样本(图4d),与绿色簇中突出的干扰素信号的下调一致。

我们还注意到一个小簇,其特点是在SNAl1和SNAl2的TF结合位点上的可接近性增加,这两个TFs参与上皮-间质过渡42。这个簇在显示染色质修饰基因截断突变的病例中显著富集(P= 0.047, Fisher's exact test),这与先前报道的由染色质调节因子调节的上皮-间质过渡是一致的43。我们不能排除可能存在除CTCF亚组(蓝色簇)之外具有明显TF可接近性模式的病人的更多亚组的可能性;需要进行更多的患者研究。


发育性转录因子结合位点的脱甲基化作用(Demethylation of developmental TF-binding sites)

我们进一步尝试证实涉及发育的TF的易接近性增加。染色质可接近性的变化可以伴随着DNA甲基化的变化,其中异染色质区域通常被甲基化,反之,在开放的染色质区域也是如此。对于在发育后永久沉默的区域来说,这尤其是这样44。我们测试了在TF-结合位点(图4a)确定的SCAAs是否反映在同样位点的甲基化中。我们使用Illumina EPIC 850k甲基化芯片在8个样本的亚集上进行了甲基化分析(来自C516的一个样本,来自C518的两个样本,来自C560的两个样本和来自C561的三个样本:详见方法)。首先,我们报告,根据既定标记物45,C518很可能是一个CpG岛甲基化表型病例(补充图10)。比较簇3(图4c)中TF绑定注释的甲基化,发现这些区域的甲基化显著低于正常组织,这支持了这些位点是可接近的(补充图.lla)。这对于DLX5、HOXA4、HOXB4、ISL1、SOX5和SOX6的TF-结合位点尤其明显(补充图.11b),这表明涉及发育基因的调控区域的稳定重新激活。我们注意到,这并不是全球性低甲基化的一般模式,因为在通常在正常高甲基化的基因中,癌症中的甲基化也很高(补充图12)。

染色质变化是稳定和可遗传的(Chromatin changes are stable and heritable)

        表观遗传改变,特别是染色质修饰在所有组织中都负责细胞身份,但癌症中的表观遗传改变在肿瘤演化过程中是否稳定仍不清楚。开创性的研究已经开始揭示血液癌症中的表观遗传遗传性46.47,并且表明,稳定的SCAAs可能提供达尔文选择操作的遗传底物。对于大多数检测到的SCAAs,如果肿瘤的一个区域中的峰值可被区分地接近,那么在其他远离的区域中它也是可被区分地接近。因为我们对肿瘤的对立侧面进行了取样(图le,f),所以两个被取样的区域可能有早期的常见的祖先,通过大量的细胞分裂产生分化。因此,我们认为我们检测到的大多数SCAAs可能是克隆的或有高克隆性的(即,它们被大部分癌细胞共享)。这可以通过不同谱系收敛到相同的SCAAs,或通过共同祖先的演化发生。鉴于假定的克隆SCAAs的数量,以及每个癌症的不同区域之间的距离和微环境的可能差异,我们认为,最符合节约原则的解释是,就像物种的进化一样,是通过共同的祖先演化,而不是通过许多不同的谱系收敛到相同的整体表观遗传模式。

        为了进一步测试表观遗传改变的遗传性,我们特别比较了肿瘤区域内部和之间的SCAAs(补充图13A)。在大多数患者(23/29)中,通过控制转录起始位点富集和总阅读数量的方差分析显示,同一区域的样本在SCAAs方面明显少于来自不同区域的样本(补充图13B)。此外,在控制纯度后,8/29个病例发现遗传距离和表观遗传距离之间存在直接的相关性(这种分析的力量受到小样本数量的限制)(见补充图13C中的例子)。并非所有的患者都是这种情况,要么是因为没有相关性,要么是因为没有足够的数据(见补充图13D中的例子)。因此,染色质谱系是可遗传的,并且至少在一部分上遵循了遗传分歧(补充图13B;请参见每个区域的方差分析系数补充图14),从而进一步提供了证据,即共同的祖先,而不是收敛,是多个同一肿瘤样本常见的SCAAs的原因。全基因组TF SCAAs(图4)显示了类似的遗传性证据(图像位于https://doi.org/10.6084/m9.figshare.19857391),这表明此类染色质的重编程存在于所有样本的共同祖先中,并在肿瘤生长过程中被遗传。然而,有些有趣的例外情况,不同的区域显示出不同的SCAA特征。例如,虽然C548显示了对在环位点的CTCF-结合位点的可接近性的均质丧失,但在C543中,CTCF的启动子-和环-结合位点都发生了改变,并且是以异质的方式发生的,区域显示出染色质的差异化组织(图片位于https://doi.org/10.6084/m9.figshare.19857391)。

影响表观遗传的突变信号(Mutational signatures affecting the epigenome)

        人们越来越认识到突变信号的多维性,这种突变信号超越了96通道表示,并且在基因组的不同区域中,尤其是与复制时间和三维基因组组织有关。然而,由于缺乏匹配的数据,突变信号与表观遗传特征之间的关系研究还很少。在这里,我们通过肿瘤进化检查了表观基因组和转录状态与突变过程之间的反馈49,50。我们使用一种对过度拟合51具有鲁棒性的方法进行了新的签名发现,在我们的队列中检测到了六种突变信号(补充图15A和16):SparseSignature1,对应于COSMIC信号1的C>T脱氨基化在甲基化的CpG位点;SparseSignature2,对应于由APOBEC酶引起的COSMIC签名2和13;SparseSignature3,对应于COSMIC钟形信号5;SparseSignature4,对应于未知病因的COSMIC签名17a和17b;SparseSignature5,对应于未知病因的COSMIC签名9和41;SparseSignature6,对应于由错配修复缺陷引起的COSMIC签名44。

        全基因组信号活动将队列分为了五个患者的明显簇(补充图15B,C)。两个主要簇由MSS(簇1)和MSI病例(簇2)组成。簇3只包含病例C549,其在APOBEC信号中富集强烈。带有病例C561和C539的簇4在SparseSignature4和SparseSignature5(未知病因)中有高活动。带有病例C518和C548的簇5在SparseSignature3(类似时钟信号)中较高。

补充15 B/C

我们通过比较克隆和亚克隆突变之间的推断活动,评估随时间推移突变过程活动的变化(图5a)。在整个肿瘤发展过程中,SparseSignature1(脱氨基化)在MSS病例中占主导地位,而在MSI癌症中,SparseSignature6(错配修复)也始终占主导地位。在活跃的病例中,SparseSignature2(APOBEC),SparseSignature4和SparseSignature5(未知)在亚克隆水平上富集,表明在肿瘤发展的后期活动。

        染色质修饰基因的突变或转录因子结合位点的改变可以决定表观基因组的特征。相反,染色质的架构决定了癌症基因组如何积累突变,这是由于其对不同突变过程和DNA修复基因活动的影响52,53。为了进一步研究表观基因组对突变积累的影响,我们比较了用ATAC-seq数据识别的表观遗传调控区域(活性和非活性启动子,活性和非活性增强子,间基因区域和编码区域)以及用RNA-seq数据识别的典型表达和未表达基因之间的突变信号负担。

        SparseSignature1(胞嘧啶脱氨基化)在基因组的闭合染色质区域(非活性启动子和增强子)中比克隆突变和亚克隆突变高2-4倍,这与甲基胞嘧啶(在未活化的调控区域中富集)需要存在以便变得脱氨基化并产生相关的突变信号相一致(图5b)。基因组的编码区域在正常中表达的基因与没有表达的基因之间观察到类似的差异:具体地说,肿瘤中“打开”的基因在正常中是关闭的,可能在正常组织中积累了中等负荷的C>T脱氨基化突变,然后在位点具有不可接近染色质的状态下发生癌变,然后当染色质打开并诱导基因表达时,突变率减小(图5b)。观察到了类似的SparseSignature4(图5c)和SparseSignature5(图5d;引用54)的动态。MSI病例中错配修复信号的活动在基因组中分布更加均匀(补充图17)。

        我们推理,不同的突变过程可能也会不同地改变转录因子结合位点的亲和力,这是突变过程如何直接影响癌症表观基因组的一个示例机制。先前的文献已经记录了点突变可以破坏CTCF-结合位点40。我们选择了CTCF位点上的一些体细胞突变,这些突变被deltaSVM55预测会导致结合的显著丧失或增加,并评估了每种突变信号对五个突变信号簇中CTCF-结合位点上这些突变的相对贡献。在MSS癌症(簇1)中,预测导致结合丧失的突变具有与作用在基因组上的背景突变信号一致的信号(余弦相似度= 0.977;补充图18A),对于增益也是如此(余弦相似度= 0.919;补充图18B)。在MSI癌症(簇2)中,SparseSignature6(错配修复;补充图18C)与导致CTCF绑定亲和力增加一致(余弦相似度= 0.925)。在C549中,这是唯一具有SparseSignature4(COSMIC签名17;补充图18D)高水平的病例,这个信号也是导致亲和力增加的突变的来源(余弦相似度= 0.977)。这些结果表明,CpG脱氨基化导致了在MSS癌中改变CTCF结合的突变的最大比例,有更高的生成结合丧失的倾向(图5e)。在MSI病例中,错配修复信号也是导致CTCF结合改变的主导因素,具有产生增加亲和力的偏好(图5e)。当考虑基因组中任何给定突变信号的丰度时,我们发现4%和8%的SparseSignature1突变分别导致CTCF结合的增益和丧失,而5%和8%的SparseSignature6突变分别导致CTCF结合的增益和丧失(见所有的补充图19)。

讨论DISCUSSION

        表观遗传事件对癌症进化的贡献被认为是极其重要的7,56,但鲜有研究5。最近,一项泛癌症分析揭示了几种癌症类型的染色质可接近性特征,但由于缺乏合适的匹配正常对照,无法正确识别癌症特异的事件,其中组织特异性和“起源细胞”染色质谱系仍然是数据中的主要信号14。与正常组织参考物的研究已经识别出CRC中复杂的SCAA模式12,13,但还无法评估导致这些染色质变化的演变动态。在这里,我们显示遗传和表观遗传修饰癌症关联基因在CRC中独立但反复发生,并且表观基因组的改变可能控制重要的肿瘤细胞表型,包括免疫监视的逃逸。进一步,我们发现染色质的改变是稳定和可遗传的,为达尔文选择提供作用的基础,并互相关联地,染色质的改变影响体细胞遗传突变的累积,这同样可以推动进化57,58。目前,基因组学能够检测驱动突变或突变过程,这些可以提供关于药物敏感性的信息,但对于由表观基因组控制的可能具有临床可操作的生物学现象则视而不见。我们观察到,在没有体细胞突变的情况下,表观遗传学改变发生在已知的癌症驱动基因的调控区域,这为表观基因组学对基因组医学的重要性提供了依据。当然,体细胞突变和SCAAs之间的相互作用仍然难以解开。虽然一些研究已经研究了染色质修饰基因的体细胞突变的影响(比如,将突变与增加的转录杂质性连接在一起59),但识别由DNA变异导致的染色质直接(顺式)功能影响仍然困难。我们的多组学数据集提供了一些明确的基因组-表观基因组关系的例子:我们观察到与改变的顺式基因表达和改变的染色质可接近性相关的体细胞突变。需要进一步的研究来探索癌症驱动基因和其他位点的表观遗传变异的功能影响。

        我们还观察到,腺瘤和癌症的表观基因组是不同的。腺瘤中SCAAs的患病率较低,同时,大多数癌症中的SCAAs呈克隆性,这表明许多癌症SCAAs可能在恶性转化的开始时发生。这一点很重要,因为除了广泛的CNAs,主要是未知重要性的非重点染色体臂增益或损失,良性腺瘤和恶性癌症之间的驱动突变几乎没有什么区别3。此外,没有经过验证的预测CRC复发的遗传改变。其他人已经展示了年龄大的肠组织中随时间变化的染色质拓扑结构,包括在转化的组织中,以及改变的染色质模式和患者结果之间存在联系60。这与我们发现SCAAs在癌症生物学中起决定性作用的观察是一致的。我们承认我们的多组学分析基于肿瘤腺体的分析,有可能在完全缺乏腺体的少见CRC中,生物学会有所不同。

        最有趣的结果之一是恶性肿瘤形成过程中发生发育基因重激活的证据。这些基因通常在体细胞组织中被沉默,而在这些家族中的基因的重激活及其参与恶性肿瘤形成已在胶质母细胞瘤的背景下被提出过54,作为生长和适应的促进因子。我们找到了一组与干扰素信号相关的转录因子,其可接近性减少。另一方面,我们还发现了一组可接近性增加并且富集了参与早期发育的同源盒基因(例如,SOX5和SOX6)的转录因子。我们推测,我们可能检测到通过发育基因的重激活来重编程细胞命运的生物学过程。需要进一步的功能研究。

        总的来说,我们对原发性结直肠癌进行的具有空间解析能力的多组学分析显示了癌细胞生物学和克隆进化的非遗传决定因素。

参考文章:

1.一文读懂染色质可及性及ATAC-seq - 知乎 (zhihu.com)

2.CTCF ChIP-seq - emanlee - 博客园 (cnblogs.com)

3.STRINGdb | 交互式可视化蛋白网络互作 - 知乎 (zhihu.com)

版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/97227.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>