突变癌症驱动基因概要
# No.1
今天给大家分享的是西班牙巴塞罗那加泰罗尼亚研究Núria López-Bigas于2020年发表在Nature Reviews Cancer(IF:60.716, 2020)的综述文章A compendium of mutational cancer driver genes。作者一方面介绍了对癌症基因的演变认识,主要关注点突变驱动基因,另一方面,提出一个突变基因识别方法IntOGen,能够识别跨肿瘤的突变驱动基因。
摘要
癌症研究的一个基本目标是了解细胞转化的机制。这是开发更有效的癌症检测方法和治疗方法的关键。实现这一目标的一个里程碑是识别所有可能导致肿瘤的突变基因。自20世纪70年代以来,癌症基因的清单一直在稳步增长。因为癌症驱动基因在肿瘤发生中处于正选择状态,他们在一个队列中观察到的跨肿瘤的体细胞突变模式与中性诱变的预期模式不同。这些偏差构成了阳性选择的信号,可以通过精心设计的生物信息学方法来检测,这些方法已经成为鉴定驱动基因的最新技术。一个结合了这些信号的系统方法可以产生突变癌症基因的概要。在这篇综述中,我们介绍了整合肿瘤组学(IntOGen)管道,这是一种获得突变癌症驱动因素概要的方法的实现。将其应用于66种癌症类型的28,000多个肿瘤的体细胞突变,揭示了568个癌症基因,并指出它们的肿瘤发生机制。将这种方法应用于不断增长的体细胞肿瘤突变数据集,将有助于不断完善我们对癌症遗传基础的了解。
癌症是一组疾病,其特征是主要由遗传突变引起的异常和不受控制的细胞生长。这些突变因其驱动肿瘤发生的能力而被称为“驱动因素”,赋予体细胞组织中的细胞相对于邻近细胞的某些选择性优势。它们存在于一组基因(称为“癌症驱动基因”)中,其突变形式影响一组关键细胞功能的稳态发育。自从遗传学建立以来,癌症研究的主要目标之一就是发现这些跨越肿瘤类型的癌症驱动基因。它们的鉴定导致了靶向抗癌疗法范例的发展,更一般地说,导致了对预后和治疗反应的基因组生物标志物的研究。
这篇综述的第一部分从历史的角度介绍了我们对癌症基因的认识从第一次肿瘤全基因组测序之前到今天的演变,并对未来进行了展望。它专注于突变驱动基因,即那些能够通过单核苷酸变异和短插入或缺失驱动肿瘤发生的基因,我们统称为“点突变。然而,它不包括影响癌症基因和也有助于肿瘤发生的其他类型的体细胞改变,如扩增或缺失、基因组重排和表观遗传沉默。关于此处未涉及的其他类型驱动变异的综合评论,参见,例如,参考文献8–10。还排除了根据驱动基因与生化途径或网络中显著突变基因的接近程度来鉴定驱动基因的方法,这些方法也在其他地方进行了综述11。
在本综述的第二部分,我们提出突变驱动因子识别方法的成熟和目前在公共领域中可用的肿瘤突变数据集的丰富可以推进最终目标,即揭示所有肿瘤类型的驱动因子基因概要,并提供有关其致瘤机制的线索。为了证明这一主张,我们开发了整合肿瘤组学(IntOGen)管道,旨在系统识别跨肿瘤类型的突变驱动基因概要。本综述中描述的驱动基因概要的快照是通过将其应用于66种不同肿瘤类型的221个队列中的28,076个肿瘤而获得的。这个驱动基因概要的快照(以及更新的版本)和产生它的自动系统托管在IntOGen平台上。
癌症的遗传基础
寻找癌症的原因与遗传学的发展紧密相连。关于癌症病因的第一个科学概念来自十八和十九世纪的系统记录,它将特定类型肿瘤的高发病率与某些专业人员的实践所产生的暴露联系起来。Broca关于癌症遗传性的第一份已知报告可以追溯到19世纪晚期,甚至在孟德尔发展的遗传基础被广泛认可之前。20世纪初,Peyton Rous利用从患病动物身上获得的无细胞提取物将肿瘤传播给健康的鸟类,这表明比细胞小的单位是肿瘤发生的原因。大约与此同时,在Morgan研究染色体作为基因所在地之前,Theodor Boveri提出癌症可能是由于不正确的染色体组合引起的。此外,对化学致癌物的实验表明,DNA序列的变化促进了细胞转化。这些和其他发现将癌症的基础牢牢地纳入了遗传学领域。
从1940年到1980年的几十年间,生物化学和分子遗传学的发展促进了实验室方法的发展,如位置克隆、反转录和Sanger测序。这些方法在癌症研究中的应用导致了第一批癌症驱动基因的鉴定,这些基因以其突变形式驱动肿瘤发生的能力命名。与禽肉瘤病毒的部分DNA杂交的几种鸟类基因组的一小部分是第一个被鉴定的癌症基因,因此被命名为SRC(This gene is highly similar to the v-src gene of Rous sarcoma virus. --genecard)。1969年,人们认识到了这种病毒DNA片段的存在,这是存在于鸟类基因组中的“正常”基因的变体,已经获得了转化能力,这就产生了“oncogene”一词(“致癌基因”)。然后在人类肿瘤中鉴定出HRAS等癌基因,基因序列中单个核苷酸的改变被证明足以提供转化能力。有了这些发现,肿瘤发生的遗传基础(包括前面提到的职业暴露)终于可以得到解释。
尽管细胞中存在正常等位基因,但引入有缺陷的癌基因拷贝足以产生转化,因此得出结论,癌基因起主导作用。然而,对视网膜母细胞瘤(一种儿科肿瘤)发病率的分析表明,二次打击,即使该基因的两个等位基因失活的基因事件(疾病后称为RB1)是恶性肿瘤发展所必需的。这一明显的矛盾在20世纪80年代中期得到解决,因为人们承认存在第二种癌症基因,称为“tumour suppressor”(肿瘤抑制基因)。与癌基因不同,转化是由肿瘤抑制基因失活引起的,这通常需要基因的两个等位基因失活。肿瘤抑制物的发现也为家族性癌症病例提供了解释:遗传突变使肿瘤抑制物的一个等位基因失活,增加了发生肿瘤的可能性,因为只需要第二次击中。
根据这两类癌症基因的清晰蓝图,从20世纪80年代到21世纪第一个十年的早期,数十个编码癌基因的基因组位点,如MYC、RET、血小板衍生生长因子受体-α(PDGFRA)、MET、KIT、FMS样酪氨酸激酶3(FLT3),鉴定了表皮生长因子受体(EGFR)和BRAF33–39,以及肿瘤抑制因子,如TP53、转化生长因子受体-β2(TGFRB2)、RB1、PTEN、检查点激酶2(CHEK2)、细胞周期蛋白依赖性激酶抑制剂2A(CDKN2A)、BRCA1、BRCA2和腺瘤性息肉病大肠杆菌(APC)。后一种基因的种系突变也显示出对癌症发展的易感性。进一步的开创性研究也证实了影响这些基因的其他类型的改变对于细胞转化的重要性,如扩增、缺失、易位或启动子甲基化。
2004年,一篇开创性的文章从科学文献汇编了291个癌症驱动基因的列表,包括通过点突变、易位或拷贝数改变而改变的基因。为了将这种异质性概念化,驱动基因被认为主要影响一些基本的细胞功能,称为“癌症特征”(cancer hallmarks)(2011年审查和更新)。 根据这一概括,由于驱动因素的改变,恶性细胞能够(1)抵抗凋亡,(2)维持增殖信号(即使在没有细胞外信号的情况下),(3)逃避细胞生长的抑制,(4)启动侵袭和转移,(5)实现复制永生,(6)诱导血管生成,(7)实现能量代谢的去调节和(8)避免被免疫系统破坏。这些能力的发展是由组织炎症的促进和肿瘤固有的基因组不稳定性支持的。
体细胞突变模式揭示驱动因素
在本世纪第一个十年的最初几年,DNA测序技术的改进和人类基因组注释的快速发展促成了旨在揭示肿瘤体细胞突变领域日益增加份额的项目。2005年,一项对518个激酶编码基因进行测序的研究在25个原发性乳腺肿瘤和细胞系中平均发现76个非沉默突变。第二年,另一组对11例乳腺肿瘤和11例大肠肿瘤的13023个基因进行测序,分别发现519和673个基因突变。下一代测序(NGS)技术的发展在本世纪初的第一个十年中催化癌症基因组学的开始。2008年,对22例胶质母细胞瘤和24例胰腺肿瘤进行了两次进一步分析,对整个外显子组进行了测序,分别发现了1007个和685个突变基因。首次对肿瘤进行全基因组测序也产生了类似的情况。然而,关于肿瘤发生的共识是,只有少数影响驱动基因的突变事件被认为是恶性化的起源。因此,绝大多数这些突变基因根本不参与肿瘤的发生;也就是说,它们的突变是“passengers”而不是“drivers”。这些研究首先揭示了需要进行严格的统计测试,以解释突变率和突变类型的异质性,从而确定揭示癌症基因的意外突变模式。
这些最初的研究为在几个国家启动大型肿瘤测序计划铺平了道路,如癌症基因组图谱(The Cancer Genome Atlas, TCGA),旨在对24种以上常见癌症类型的数百种肿瘤的外显子进行测序。随着测序技术的不断进步,更多雄心勃勃的项目(许多项目归国际癌症基因组联盟(ICGC)所有)设定了对数千个肿瘤样本的全基因组测序的目标。随着这些举措中许多举措的最新结论,全面的泛癌症分析已经展示了十多年癌症基因组学研究的一些最重要发现,包括已识别的驱动基因列表。这些开创性项目绝大多数侧重于原发性恶性肿瘤的研究。直到最近,探索转移性肿瘤的类似项目才开始揭示晚期恶性肿瘤的驱动因素改变。
所有这些项目的主要目标之一是确定一组驱动恶性肿瘤的基因,为系统和全面地识别突变驱动基因提供路线图。其背后的基本原理是,肿瘤发生遵循达尔文进化论,其特征是变异和选择。变异是由自发产生的体细胞突变提供的,这些突变在组织中的体细胞之间引入了遗传差异。然后,正选择作用于携带突变的细胞,该突变赋予相邻细胞选择优势,导致突变的克隆扩增(图1a)(不同驱动基因的突变可能提供多种选择性优势,如上所述,这些优势是癌症的标志。)
图1 | 正选择信号识别驱动基因。体细胞组织中的a细胞积累突变。某些基因的体细胞突变使其发生的细胞具有选择性优势,因此被积极选择。在达尔文过程之后,随着时间的推移,克隆扩张发生,携带这些基因突变的细胞在群体中占主导地位。b |在同一癌症类型的样本中观察到的基因突变模式与预期模式的偏差表明,基因在肿瘤发生中处于正选择状态。两个活检样本取自癌症患者:一个来自肿瘤,另一个来自健康组织(例如,实体恶性肿瘤患者的外周血)。通过比较这两个样本的序列,确定了肿瘤中的体细胞点突变。在外显子组中发现了少量到数百个体细胞突变,如果对整个基因组进行测序,这个数字将增加到数万。结果,每个肿瘤中出现几十到几千个基因突变。驱动基因是指在一组肿瘤中显示一个或多个阳性选择信号的基因。
作为这一进化过程的结果,当对同一癌症类型的肿瘤队列进行分析时,某些基因的突变模式偏离其在中性突变下的预期可能构成这些基因的突变在肿瘤发生中处于正选择的信号。例如,在一组肿瘤中,驱动基因以异常高的频率突变,随后开发了检测这种显著突变复发的方法,以分析上述癌症基因组学项目产生的突变数据集。其他肿瘤发生中的阳性选择信号(图1b),如蛋白质某些区域突变的异常聚集、高功能影响突变累积的偏倚或三核苷酸变化频率的偏倚,已被驱动识别方法91,92使用。随着时间的推移,这些方法中的许多已经在不同癌症类型的许多队列中得到验证和测试,并证明是高度可靠的。有关方法的详细列表,请参见参考文献5,77,93,94。
对第一批大型突变数据集的分析表明,不同类型的突变在不同来源的肿瘤中出现的频率不同,并且人类基因组中的突变率具有高度异质性(框1)。很快就很明显,驾驶员检测方法受到背景突变率异质性的深刻影响。在没有选择的情况下,建立准确解释影响突变率的所有因素的背景模型已成为近年来开发的大多数驾驶员识别方法的标志。虽然仅通过观察肿瘤中的突变模式就可以发现几个突变频率极高的驱动基因,但背景突变率的准确建模对于避免检测假阳性驱动因素和识别突变复发率较低的驱动因素至关重要。结合使用不同正选择信号的方法的输出是全面识别驱动基因的最佳方法,驱动基因可能会显示一些但不是全部信号。个别方法的虚假发现也更有可能被这种组合过滤掉5,13,94,102。
框1 | 基因的背景突变率
体细胞中基因的背景突变率(即突变率和分布)取决于其序列、细胞的特性以及细胞或组织以及人一生中接触过的突变过程。正确评估基因的背景突变率需要能够准确地模拟所有这些因素引入的变异性。这是确定哪些观察到的突变模式实际上是意外的和可归因于正选择的关键。
个体组织中活跃的突变过程定义了基因中每个核苷酸改变的一组概率,考虑到其直接序列上下文。这些概率可以从观察到的队列中每个肿瘤的突变谱中得知,也可以从整个队列样本的一组相关突变过程的活性中得出。
基因中发生特定核苷酸变化的可能性也受到细胞染色质在大范围和小范围内所采用的特定特征的影响。在大范围内,基因相对于原基因的复制时间,染色质的致密程度,基因座和基因表达水平影响其突变率。对于每个相关组织中的每个基因,可以仔细模拟这些大范围因素的影响。或者,可以通过排列在基因中观察到的突变来建立每个基因内的背景模型。
在小范围内,如核小体和其他蛋白质的占用,某些染色质标记沿基因体的分布和局部非B-DNA结构的形成可能会改变基因内序列延伸处的局部突变率。
驱动基因的系统发现
癌症研究采用NGS,这是由前文提到的开创性举措推动的,已经在公共领域产生了大量可用的癌症基因组学数据。在整个外显子组或全基因组水平上测序的肿瘤样本总数目前可用于系统驱动因素发现,达到数万。这在理论上提供了识别突变驱动基因概要(简写为“概要”)的机会;也就是说,在突变后驱动每种恶性肿瘤的基因的完整列表。
系统的实施
为了构建驱动基因概要的快照,我们收集了来自66种不同癌症类型的221个队列(包括10到973个样本)的体细胞SNV和短INDEL,共计28076个样本(图2a;补充方法;补充表1)。我们将队列定义为一组在一个项目中分析的相同癌症类型的肿瘤样本,具有统一的测序和突变调用管道。大多数样本来自大规模测序工作,如ICGC(3988个样本)、TCGA(10010个样本)、全基因组泛癌分析(PCAWG)(2554个样本)、哈特维格医学基金会(3742个样本)和产生有效治疗(目标)(246个样本)的治疗应用研究。重要的是,由个体机构测序的其他60个队列(包括3570个成人和1087个儿童肿瘤样本)的突变分别通过cBioPortal和PedcBioPortal获得。这突出了开发和维护集中工作的重要性,以收集小项目中产生的测序数据。最后,从最初的研究中获得了作为八个独立队列的一部分测序的2257个肿瘤的突变。221个队列中的大多数(180个)包括原发肿瘤,而其余41个由转移或复发样本组成(总共4713个)。特别努力包括儿童恶性肿瘤(2799个样本分为48个队列),这些疾病在“driver”发现工作中传统上代表性不足。
图2 | IntOGen管道在肿瘤突变数据集上的应用。a |从公共领域收集的肿瘤突变数据集,用于构建驱动基因概要的当前快照。两个甜甜圈图都表示按来源(左)或癌症类型(右)分类的所有数据集。在这两个图中,最里面的环表示原发性或转移性或复发性肿瘤的队列,而第二个环则表示成人或儿童肿瘤的队列。b |至少两个队列代表的癌症类型肿瘤的突变负担(顶部)和突变类型(底部)。影响每种癌症类型分布的队列和样本数量如下图所示。腺,腺癌;慢性淋巴细胞白血病;哈特维格医学基金会;国际癌症基因组联合会;PCAWG,全基因组泛癌分析;圣裘德,圣裘德儿童研究医院;针对性的、治疗上适用的研究,以产生有效的治疗;TCGA,癌症基因组图谱。
肿瘤中编码突变的数量因癌症类型而异,并且在给定恶性肿瘤样本中也观察到了重要程度的变异(图2b,顶部)。例如,一些乳腺腺癌有几百个基因突变,而其他同样恶性肿瘤的样本只有十几个基因突变。这种异质性的部分原因可能是测序技术或深度的差异,或突变调用方法的差异。尽管如此,突变负担的大多数异质性都有生物学基础,这是因为暴露于突变过程的时间或强度不同,例如,从紫外线的活动或错误的DNA修复。虽然回顾整个队列中的所有突变可以消除部分技术来源的变异性,但由于计算能力的限制,这对于如此大量的样本尚不可能。因此,为了系统地发现不同癌症类型的驱动基因,有必要分别分析每一组肿瘤。更大的队列提供了更多的统计能力来检测作为驱动基因特征的正选择信号。因此,在这一系统性发现中,人们期望某些反复突变的驱动基因将出现在许多相同恶性肿瘤的队列中,而其他基因将仅在更大的队列中检测到。
利用这些肿瘤突变数据集构建概要需要一个高效的计算系统,系统地运行最先进的驱动程序发现方法。我们将该系统称为IntOGen管道(框2),该系统由三个基本步骤组成,如图3所示,并在补充方法中详细说明。第一个预处理步骤确保每个方法以正确的格式和操作参数接收其输入,例如,从同一肿瘤中提取重复数据消除样本,或去除非同义突变与同义突变比例异常或超突变表型异常的样本。接下来将执行七种最近发布的驱动识别补充方法——dNdScv、OncDriveFML、CBaSE、OncDriveClust,以及解释突变类型、smRegions和Mutpanning的三核苷酸上下文的热图的重新实现。然后,通过加权投票将通过每种方法确定的候选驾驶员列表进行组合,其中授予每种方法的权重基于其感知可信度(补充图1)。该组合产生了每个队列的驱动基因列表,这些驱动基因比单独方法产生的驱动基因更敏感,而不丧失特异性(补充图2)。在最后的后处理步骤中,由于已知的混杂因素而可能出现的虚假候选驱动基因被自动过滤掉(补充方法)。IntOGen管道的设计旨在随着肿瘤突变数据集继续增长到数十万,顺利扩展,推进我们对概要的看法。
框2 | 访问突变驱动基因概要
本综述中描述的驱动基因简编的快照以及用于产生驱动基因的自动系统都位于整合癌基因组学(IntoGen)平台上。癌症研究人员可以通过该平台的Web界面探索该概要,该概要包括肿瘤类型及其突变特征的驱动基因列表。其中包含的所有信息也可以下载。此外,自动系统(IntoGen管道)可由研究人员从本地安装平台获得,并应用于跨肿瘤队列的体细胞突变数据集。有关IntoGen管道当前实现的详细信息,请参见补充方法。基于2013年首次建立IntoGen癌症驱动基因分析平台时的实践,我们将继续收集在公共领域可用的肿瘤测序数据,并制作更全面的纲要快照。对于管道和概要的未来版本,可以在IntoGen网站上找到定期更新。
每一种驱动因素发现方法都侧重于肿瘤基因突变模式的一个或多个特征。为了识别阳性选择信号,它在中性突变假设下评估观察值和特征预期值之间的偏差(图3)。这些由IntOGen管道收集的所有驱动基因的突变特征,为每个癌症基因的肿瘤发生机制提供了关键的见解(见下文),并且是纲要(补充方法)的组成部分。它们包括(1)突变簇(线性和3D,可能因蛋白内或蛋白间相互作用而产生),(2)蛋白质中优先受突变影响的结构域,以及(3)具有不同后果的过量突变。
线性簇是沿着在肿瘤中发现的基因序列局部累积的突变,例如KRAS密码子12和13处的突变形成的突变(图3)。另一方面,3D簇涉及氨基酸残基,这些残基可能在蛋白质的一级结构中分离,但在其三级结构中很接近(例如,RHOA的26、39–42、57和59–62位氨基酸引起的突变)。优先受影响的结构域具有显著的突变积累,例如SMAD4中的MH2。具有不同后果的过量突变——对于富含AT互作用域1A(ARID1A),无义突变和错义突变分别为99%和50%——说明了驱动基因的作用模式(肿瘤抑制基因或癌基因)。在没有多余无义突变的情况下观察到的多余错义突变表明癌基因的激活模式。相反,肿瘤抑制(或功能丧失)基因往往表现出过量的无义突变。虽然某些基因的作用模式非常明确,但有些病例更难纳入二元癌基因-肿瘤抑制模型(图3中的“作用模式”散点图接近对角线)。此外,某些基因的作用模式可能因肿瘤类型而异。
图3 | 整合癌组学(IntOGen)管道的示意图。从应用到胃腺癌患者队列开始,说明了通过管道的数据流。管道的两个结果-即队列中的驱动基因目录和突变特征(线性和3D突变簇、作用模式(MoA)),对队列中的每个患者,优先受影响的结构域和具有不同后果的过量突变)进行整合,形成驱动基因概要。
概要的快照
系统概要,或者更恰当地说,从这221个肿瘤队列中获得的当前快照(框2)在多大程度上增加了关于肿瘤发生的遗传基础的现有知识?对文献进行系统挖掘以建立一个完整可靠的已验证癌症基因目录超出了我们的分析范围。因此,为了解决这个问题,我们使用了癌症基因普查(CGC;第87版)作为纲要中66种恶性肿瘤发生相关基因的“基本事实”。虽然CGC是不完整的,可能包含一些假阳性,但据我们所知,它是从文献中注释的最全面、最准确的一组经验证的癌症基因,因此它可以达到这一目的。答案的一部分(图4a,b)是纲要中568个突变驱动基因中几乎四分之三已经在CGC中注释(这也为纲要提供了有力的验证)。然而,由于纲要在所有癌症类型的队列中无偏见地确定了阳性选择的信号,因此它有可能更彻底地绘制驱动基因-肿瘤类型关联图。事实上,超过80%的驱动基因和恶性肿瘤之间的所有已识别链接在CGC中未注释(图4a,b)。例如,虽然21个已知的乳腺腺癌CGC驱动因素在概要中,但在CGC中注释的75个基因,但在分析的12个乳腺癌队列中的一个或多个队列中,显示出先前未被识别为驱动这种恶性肿瘤的基因处于阳性选择下(图4a)。换句话说,对于许多众所周知的驱动基因,该纲要揭示了它们在癌症类型中的作用比以前记录的要广泛得多(图4c)。例如,组蛋白赖氨酸N-甲基转移酶2C(KMT2C)的体细胞突变模式显示31种肿瘤类型的阳性选择信号。然而,CGC仅将其注释为髓母细胞瘤的驱动因素。因此,通过IntOGen管道无偏见地发现癌症基因是对经实验验证的驱动因素注释的重要补充。
图4 | 突变驱动基因概要的快照。简编中每种肿瘤类型的癌症驱动基因数量。图中使用三色标度表示癌症基因普查(CGC)中注释的基因,该基因与概要中确定的肿瘤类型相同或不同的肿瘤类型,或表示CGC中未注释的基因。b |概要中的癌症驱动基因总数,表明与CGC中注释的基因重叠,作为任何肿瘤类型的驱动因素(顶栏)。概要中的驱动基因-肿瘤类型关联与CGC中相同或不同肿瘤类型的驱动基因-肿瘤类型关联之间的重叠(下栏)。c |与CGC中注释的关联相比,25个典型基因被矩阵中以点表示的概要确定为驱动因素的肿瘤类型范围。图的底部显示了五种以前未被注意到的肿瘤类型的驱动因素在肿瘤发生中的作用。点的大小代表所有肿瘤类型队列中该基因被确定为驱动因素的百分比。每个基因在概要中作为驱动因素出现的肿瘤类型的数量在右边的条形图中表示。
纲要的系统性不仅增加了我们对已知癌症基因作用的认识,而且还指出了152个潜在的新驱动基因(图4a,c);也就是说,以前没有在CGC中注释的基因。由于CGC很可能是完整癌症基因目录的一个不完整的替代品,这些潜在的新驱动因素中的一些可能已经在文献中报道过了。事实上,我们提出并讨论了以下五个未注释的基因,它们在肿瘤的突变模式中表现出阳性选择信号,并且独立研究表明它们与肿瘤发生有关(图4c,底部)。
在肺和头颈部鳞状细胞癌中RAS GTPase激活1(RASA1)的突变模式显示了系统中探测到的几种阳性选择信号。其表达降低或功能丧失突变已被确认为在人支气管上皮和黑色素瘤细胞系中增加RAS介导的信号。它还与三阴性乳腺癌的致瘤促进功能有关。由于编码RASA1的蛋白质与编码神经纤维蛋白1(NF1)的蛋白质一样,对RAS–MAPK通路起负调节作用,因此这两个基因被认为具有肿瘤抑制功能,这也是由它们的突变模式所暗示的。赖氨酸特异性去甲基化酶3B(KDM3B),其蛋白产物特异性地去甲基化组蛋白H3的Lys9以促进靶基因的转录激活,在两组毛细胞星形细胞瘤和髓母细胞瘤中表现出显著的过度突变和功能偏倚。然而,无论是无义突变还是错义突变,在这种过剩中都没有明显的过度表达;因此,其行动方式目前在《纲要》中被称为“模棱两可”。KDM3B已被证明参与肝细胞癌的细胞周期调节,并作为结直肠癌干细胞中WNT信号通路的激活剂发挥作用。尽管这两项研究表明KDM3B在肿瘤发生中起着癌基因的作用,但另一份报告提出,其某些种系突变导致对肾母细胞瘤的易感性。因此,其在肿瘤发生中的确切作用模式仍有待确定。编码叉头盒转录因子的几个基因在CGC中被注释为几种恶性肿瘤的驱动因素(例如,乳腺癌和前列腺癌的叉头盒A1(FOXA1)和神经母细胞瘤的FOXR1)。尽管如此,在子宫癌中有几种阳性选择信号的FOXA2在CGC中没有注释。在子宫癌中经常发现的FOXA2突变倾向于影响DNA结合域或导致蛋白质产物的截短,导致其无法定位到细胞核。已知其中一些突变形式会导致CDH1基因(编码E-钙粘蛋白)表达减少,因此在某些肿瘤的进展过程中与上皮向间充质转化有关。Krueppel样因子5(KLF5),它编码一种参与人类发育调节的转录因子,被鉴定为癌症驱动基因,通过不同机制改变在宫颈鳞癌、膀胱癌和肺鳞癌中显示出阳性选择信号。我们还鉴定了含有溴代烷7(BRD7)的溴代烷,该溴代烷具有CGC中已注释的几个旁同系物,并被假定为SMAD转录因子的共同激活剂,在驱动黑色素瘤和肝癌的发生中起作用。
一些基因是多种癌症类型的驱动因素,而另一些基因则更具特异性。该纲要提供了一个机会,以系统的方式评估不同肿瘤类型的驱动基因的特异性(图5)。大多数基因(360个)作为一种或两种肿瘤类型的驱动因素,只有一小部分10个基因(癌症范围的驱动因素,右下图)能够通过突变驱动20多种恶性肿瘤。一些非常特殊的突变驱动因素(图5中左上角的异常值和右上角的面板)在一种或两种癌症类型中非常频繁地发生突变。例如,60%的伯基特淋巴瘤在MYC中存在驱动突变,47%在细胞周期蛋白D3(CCND3)中存在驱动突变。一半葡萄膜黑色素瘤病例在鸟嘌呤核苷酸结合蛋白Gq亚单位-α(GNAQ)的两个热点之一存在激活突变,而几乎所有其他病例在其同源GNA11的两个同源热点之一发生突变. 有趣的是,通用转录因子II-I(GTF2I)的突变几乎驱动了所有胸腺瘤的一半,但在CGC中尚未注释。
图5 | 简编中不同癌症类型的驱动基因流行率分布。每个驱动基因在散点图中表示为一个点。横轴表示一个基因被确定为驱动因素的肿瘤类型的数量,纵轴表示该基因在肿瘤类型中的最大突变频率。这两个变量的独立分布通过图上方和右侧的1D直方图表示。在一种或极少数肿瘤类型(癌症特异性,高度流行)或超过20种癌症类型(癌症范围的驱动因素)中,两组高频突变的驱动因素被圈起来,并用它们的缩写表示。虽然大多数癌症范围内的驱动因素都是公认的癌症基因,但长期以来,低密度脂蛋白受体相关1B(LRP1B)一直被认为是一个潜在的虚假发现。这一争论尚未解决,因为一些研究发现其功能丧失可能与几个组织中的细胞迁移增强有关。图右侧的条形图显示了选定癌症特异性基因的肿瘤类型(对应于散点图中的x轴)的突变频率,高度流行和癌症广泛的驱动因素。每个基因的最大突变频率出现在相应的行旁边。条形图按照图4中的图例着色。
驱动基因的突变特征
我们认为,驱动基因的突变特征(如图3所示)为阐明其致瘤功能提供了独特的机会。下面,我们描述六个驱动基因的突变特征,作为它们在细胞转化中所起作用的信息示例。
癌基因蛋白酪氨酸磷酸酶非受体类型11(PTPN11)显示多发性骨髓瘤(图6a)和其他肿瘤类型的过度错义突变,其显著聚集在其蛋白产物的SH2结构域内。该结构域和磷酸酶结构域之间的抑制性接触在磷酸化时被野生型受体酪氨酸激酶或该结构域的突变所消除。活化的PTPN11然后使多种信号通路的抑制剂去磷酸化,如MAPK或AKT通路。核因子红系2相关因子2(NFE2L2),另一个经典癌基因,编码一种转录因子,该转录因子在控制细胞氧化还原状态及其对应激的反应中起关键作用。在肺鳞状细胞癌中,两个狭窄的错义突变簇出现在其N端部分(图6b)。这些突变会影响同源E3泛素连接酶Kelch样ECH相关蛋白1(KEAP1)(即脱环蛋白)识别的序列,并导致NFE2L2异常稳定,影响识别NFE2L2脱环蛋白的结构域的KEAP1突变也是如此。这反过来导致NFE2L2调控基因的结构性激活
膀胱腺癌中RB1等肿瘤抑制因子的突变特征完全不同(图6c),无义突变和影响剪接的突变多于错义突变。大多数无义突变触发无义介导的RB1 mRNA140衰变,从而导致蛋白质耗竭,并取消其在调节细胞周期进程和细胞分裂周期、对细胞应激、分化和细胞衰老的反应中的功能,程序性细胞死亡和染色质结构的维持。PTEN是另一种肿瘤抑制因子,在胶质母细胞瘤中显示了过量的无义和错义突变(图6d)。与RB1中的无义突变一样,PTEN中的无义突变触发无义介导的衰变,减少功能性PTEN蛋白产物的产生,而错义突变阻碍其酶活性或其向膜的募集,或增加其对泛素化的敏感性,从而导致蛋白酶体介导的降解,这些结果反过来干扰其在调节一系列细胞功能中的作用,如细胞周期进展、凋亡和蛋白质合成。
同一驱动因素在不同肿瘤类型中的不同致瘤机制也可以通过其突变特征来揭示。例如,在胶质母细胞瘤中,EGFR(一种蛋白产物参与多种信号通路激活的癌基因)的错义突变倾向于聚集在其蛋白产物的细胞外区域(图6e)。这些作为功能性改变的增益,可能通过稳定受体的开放构象,在缺乏配体的情况下刺激其自身磷酸化。相比之下,在肺腺癌中,错义突变倾向于聚集在EGFR蛋白产物的酪氨酸激酶结构域(图6f),改变其“开-关”平衡并增加其活性,但以降低对ATP的亲和力为代价。
图6 | 解释驱动基因的突变模式。a–f |计算五个队列中五种蛋白质的六种典型突变模式,包括多发性骨髓瘤(从2018年发表的一项研究中获得)(参考。从癌症基因组图谱(TCGA)中获得的肺鳞状细胞癌、膀胱腺癌、胶质母细胞瘤和肺腺癌。聚类及其边界由评估突变显著聚类的方法定义。在所有图中,N表示在整个队列中观察到的基因中每种类型后果(即错义突变、无义突变或影响剪接的突变)的突变数量。bZIP Maf,bZIP Maf转录因子域;双特异性磷酸酶,催化结构域;DUF3452;未知函数3452的域;表皮生长因子受体;Furin样、Furin样富含半胱氨酸区;GF受体IV,生长因子受体结构域IV;NFE2L2,核因子红系2相关因子2;Pkinase_-Tyr、蛋白酪氨酸和丝氨酸/苏氨酸激酶;PTPN11,蛋白酪氨酸磷酸酶非受体11型;RB_A,视网膜母细胞瘤相关蛋白A结构域;RB_B,视网膜母细胞瘤相关蛋白B结构域;Rb_C,Rb C端域;SH2,Src同源2结构域。
总的来说,跨多个基因的蛋白质产物的几个结构域似乎优先受到十种以上不同肿瘤类型的突变的影响(图7a,b)。p53 DNA结合域(图7a,b中的p53)在42种不同癌症类型的队列中出现明显的体细胞突变,数量比任何其他蛋白质域都多,尽管这仅由TP53驱动。在另一个例子中,13个不同基因的酪氨酸激酶结构域在24种肿瘤类型的队列中显著富集突变。在这13个基因中,BRAF是在大多数肿瘤类型中表现出酪氨酸激酶结构域内显著富集体细胞突变的基因(14)。RAS、钙粘蛋白和C2H2锌指结构域在13种癌症类型中均表现出显著的突变富集。
图7 | 复发性癌症驱动域和突变簇。a |点代表在许多不同肿瘤类型的许多不同驱动基因中显著富集突变的所有域。选定的具有非常显著丰富内容的域被着色并用域首字母缩略词表示,而其余域则显示为浅灰色。b |在其蛋白质产物的a部分中着色的区域中突变显著富集的基因跨越肿瘤类型。c–f |从癌症基因组图谱(TCGA)(c部分)、急性髓系白血病(从Beat AML项目184获得)(d部分)中获得的结直肠癌患者队列中的几个驱动因素中确定的突变数量和线性突变簇的患病率,前列腺腺癌(摘自2019年《癌症抗争》(SU2C)出版物185)(e部分)和毛细胞星形细胞瘤(摘自国际癌症基因组联盟(ICGC))(f部分)。每个群组中出现在簇中的每个蛋白质的突变分数以及基因序列中这些簇的宽度出现在每个图表下方的热图中。每列顶部的数字代表每个簇中突变的样本数量。
对重要簇的概述表明,肿瘤抑制基因中的簇更宽,而癌基因中的簇更窄,并且倾向于积累在基因中观察到的更大比例的突变(图7c–f,8)。观察到特别窄的簇,例如在KRAS(蛋白质的5个核苷酸重叠密码子12和13)中,在496例大肠腺癌队列中积累了85%的基因突变(图7c),或在一组257例急性髓系白血病患者中,影响密码子132的两个核苷酸的异柠檬酸脱氢酶1(IDH1)的所有突变(图7d)。在444例前列腺腺癌队列(图7e)中,斑点型POZ蛋白(SPOP)突变(密码子119和133之间的44个核苷酸)的83%聚集在更宽的簇中,在439例毛细胞星形细胞瘤队列(图7f)中,TP53突变(密码子266和275之间的28个核苷酸)的28%聚集在一起。簇的宽度和位于簇内的基因突变的比例因肿瘤发生中癌基因的作用模式而异(图8)。相对狭窄的癌基因簇反映了沿着其序列存在相对较少的功能获得突变。这也是为什么这些簇倾向于集中在一组肿瘤中观察到的癌基因突变的大部分。在肿瘤抑制基因中观察到更广泛的簇,因为通常在它们的序列中有更多的功能缺失突变(例如,影响一个重要功能域的几个氨基酸的突变)。
图8 | 简编中肿瘤抑制物和癌基因中检测到的线性簇。在基因简编中检测到的特定肿瘤类型的每个簇都表示为一个点。癌基因用红色表示,肿瘤抑制基因用蓝色表示。图中两个变量的单独分布通过图上方和右侧的1D直方图表示。每个点的颜色强度反映了相同位置的点的数量。急性髓系白血病;结肠腺癌;核苷酸;PIA,毛细胞星形细胞瘤;前列腺腺癌。
结论和展望
就像古代手稿一样,新的书写层叠在旧的手稿上,或者像罗马这样有着悠久人类居住历史的城市,某些建筑物展示了不同时代的砖块和灰泥,肿瘤基因组中的体细胞突变构成了它们历史的记录。因此,借用这些古文字的名称,肿瘤中的体细胞突变可能被认为是一种复发,对其的研究可能提供关于肿瘤及其环境的极其有用的信息。这些重复序列包含所有突变过程的足迹,肿瘤中的体细胞在患者生命周期中暴露于这些突变过程,以及使人联想到驱动突变导致的连续选择性扫描的阳性选择信号。应用于肿瘤基因组的巧妙设计的生物信息学分析能够揭示这些足迹和痕迹。这篇综述表明,将这种生物信息学分析系统地应用于从肿瘤体细胞突变的复发中检测阳性选择,能够开始揭示癌症驱动基因的概要。
在癌症基因组学开始之前,已经确定了几十个癌症驱动基因(图9)。在二三十年的时间里,通过一系列生化分析和几个研究小组的辛勤工作,对这些基因进行了深入研究,并对其功能进行了表征。相比之下,在第一批肿瘤基因组测序后不到二十年的时间里,又发现了数百个癌症基因。DNA测序的进步和生物信息学方法的发展使癌症基因组学的这一“时代”成为可能,以应对基因组学数据分析带来的挑战。如本文所示,从目前公共领域(约28000个)的癌症外显子分析中获得的突变驱动基因概要包含500到600个突变驱动基因。该纲要的完成将成为我们理解肿瘤生物学道路上的一个里程碑。到目前为止,很可能已经发现了频率超过10%的突变基因,系统分析,如IntOGen平台所做的分析,揭示了它们与不同癌症类型的肿瘤发生有关。
图9 | 癌症基因组学的过去、现在和未来。从癌症基因组学时代开始之前通过对第一个肿瘤进行测序确定第一个癌症基因开始,到本综述发表,突变驱动基因纲要演变的概念表示。它还展望了癌症基因组学的整合(癌症基因组学是一个成熟的知识领域)和癌症基因组学研究的未来趋势。
我们现在也能够预测简编今后的演变。随着全球基因组学与健康联盟(Global Alliance for Genomics and Health)和100万基因组计划155等共享国际数据的举措取得成果,预计公共领域存储的肿瘤体细胞突变数据集数量将迅速增加。随着这些数据的使用,纲要的新快照被发现,预计上述趋势将持续到未来,(1)在恶性肿瘤中以低于10%的频率突变的新驱动因素的识别(由于统计能力的提高),(2)以前未描述的情况的驱动因素,(3)到目前为止在肿瘤基因组测序项目中受到歧视的不同人群或种族的驱动因素;(4)新临床实体的驱动因素,如转移性或复发性肿瘤,迄今为止尚未得到相对充分的探索。例如,通过当前简编快照的搜索显示,雌激素受体(ESR1)和雄激素受体(AR)虽然分别在原发性乳腺癌和前列腺癌中很少发生突变,但它们显然是抗药性的突变驱动因素。
在这篇综述中,我们有目的地关注影响蛋白质编码基因的驱动突变。正如引言中提到的,这排除了影响驱动基因的其他类型的体细胞改变。虽然为了揭示突变驱动基因,短INDEL包含在点突变中,但其发生概率可能涉及其直接序列背景以外的特征,因此其背景率更难建模。它还排除了影响非编码基因组元素的突变在肿瘤发生中的潜在作用,最近的研究发现,与编码基因相比,这些突变很少。重点关注已知的癌症基因及其顺式调节区,其中一项调查显示,非编码驱动突变的频率远低于蛋白质编码突变,端粒酶逆转录酶(TERT)突变除外,即使在校正了全基因组和全外显子组测序数据集之间的统计能力差异后也是如此。
然而,从全基因组测序肿瘤中也可以明显看出,我们目前对非编码区突变分布的了解不够全面,无法正确模拟其背景突变率。此外,我们对基因组大多数非编码区的生物学功能的了解仍然远远落后于编码基因。解决这些问题将是全面探索驾驶员非编码基因组元素目录的关键。此外,需要对所有类型的驱动因素改变(编码和非编码体细胞点突变、结构变异、表观遗传沉默事件和种系易感性变异)进行全面概述,以揭示它们在肿瘤中的全貌(在预印本文章102中报告)。
目前的驱动基因简编没有详细描述每个基因在肿瘤发展中的确切作用。因此,了解每个驱动基因的精确改变模式(即,它的哪些突变有可能驱动肿瘤发生以及为什么)及其在肿瘤发生中干扰的特定生物学功能是癌症基因组学在不久的将来面临的主要挑战之一。
第一个挑战是精确识别改变驱动基因功能的机制,使其能够驱动肿瘤的发生。这与识别所有能够导致恶性肿瘤的癌症驱动基因突变并理解其在细胞转化中的作用7,97,102是一样的。如前所述,我们建议在纲要中计算的突变特征可+能有助于这项工作。此外,尽管肿瘤发生需要几个关键的生物过程(上文详述的癌症特征)的扰动,但具体的过程——例如,逃避凋亡,维持增殖信号和逃避免疫系统——受纲要中许多基因突变的影响——仍然是未知的。驱动突变意义的解释也被肿瘤内异质性和癌细胞微环境生态的复杂性所混淆。通过转录组学、蛋白质组学和甲基组学等分析肿瘤的其他维度,以及对单个基因功能及其相互作用的系统分析159-161和单细胞分析方法162-165,将有助于弥合这一差距。
第二个挑战来自这样一个事实,即虽然驱动基因是通过其阳性选择信号单独识别的,但事实上驱动肿瘤发生的是一组驱动突变97,102。例如,已知影响四种特定途径的驱动突变发生在绝大多数大肠腺癌中,并且是健康细胞发展为浸润性癌所必需的。此外,尽管肿瘤队列中所有驱动基因的阳性选择信号是等效的,但驱动突变可能发生在肿瘤进化的不同阶段。再次,生物信息学在癌症基因组复发分析中的巧妙应用使研究人员能够开始解决这一时间顺序166;然而,需要更多的工作来理解它。
最后,还有一个挑战,那就是要充分理解除了体细胞突变以外的其他特征如何在肿瘤发生中起作用。虽然几乎所有的肿瘤都含有基因组驱动突变,但这些并不足以解释细胞转化的完整历史。对健康捐赠者体细胞突变的研究表明,许多癌症驱动因素已经在体细胞组织的非转化细胞中发生突变。其他场景(例如克隆造血)或良性肿瘤,也显示了同样的情况。这导致了一个结论,即健康的体细胞组织中存在一定程度的正选择,但没有达到细胞转化水平。在这个连续体中,正选择发生在赋予适应性优势的突变上,这可能在体细胞组织之间以及随着时间的推移而变化。因此,只有在特定选择约束的背景下,突变才能成为驱动因素。在某些情况下,为了达到细胞转化水平,非遗传表型变化,如基因表达的随机性、蛋白质合成错误或某些表观遗传修饰,也可能很重要。这种变化在抗药性和转移等过程中都有记录。
总之,缩小纲要中的基因列表与我们对肿瘤发生过程的全面了解之间的差距是癌症基因组学在不久的将来面临的重大挑战之一。反过来,深入了解肿瘤发生将是将我们对癌症基因组学的知识转化为精确的癌症医学的基础。
参考文献(部分)
/5. Bailey, M. H. et al. Comprehensive characterization of cancer driver genes and mutations. Cell 173, 371–385.e18 (2018).
/7. T amborero, D. et al. Cancer genome interpreter annotates the biological and clinical relevance of tumor alterations. Genome Med. 10, 25 (2018).
/8. Mertens, F ., Johansson, B., Fioretos, T . & Mitelman, F . The emerging complexity of gene fusions in cancer. Nat. Rev. Cancer 15, 371–381 (2015).
/9. Santarius, T ., Shipley, J., Brewer, D., Stratton, M. R. & Cooper, C. S. A census of amplified and overexpressed human cancer genes. Nat. Rev. Cancer 10, 59–64 (2010).
/10. Baylin, S. B. & Ohm, J. E. Epigenetic gene silencing in cancer – a mechanism for early oncogenic pathway addiction? Nat. Rev. Cancer 6, 107–1 16 (2006).
/11. Kuenzi, B. M. & Ideker, T . A census of pathway maps in cancer systems biology. Nat. Rev. Cancer 20, 233–246 (2020).
/12. Gonzalez-Perez, A. et al. IntOGen-mutations identifies cancer drivers across tumor types. Nat. Methods 10, 1081–1082 (2013).
/13. Rubio-Perez, C. et al. In silico prescription of anticancer drugs to cohorts of 28 tumor types reveals targeting opportunities. Cancer Cell 27, 382–396 (2015).
/91. Davoli, T . et al. Cumulative haploinsufficiency and triplosensitivity drive aneuploidy patterns and shape the cancer genome. Cell 155, 948–962 (2013).
/92. T okheim, C. J., Papadopoulos, N., Kinzler, K. W., Vogelstein, B. & Karchin, R. Evaluating the evaluation of cancer driver genes. Proc. Natl Acad. Sci. USA 11 3, 14330 (2016).
/93. Porta-Pardo, E. et al. Comparison of algorithms for the detection of cancer drivers at subgene resolution. Nat. Methods 14, 782–788 (2017).
/94. T amborero, D. et al. Comprehensive identification of mutational cancer driver genes across 12 tumor types. Sci. Rep. 3, 2650 (2013).
/97. Martincorena, I. et al. Universal patterns of selection in cancer and somatic tissues. Cell 171, 1029–1041.e21 (2017).
/102. Sabarinathan, R. et al. The whole-genome panorama of cancer drivers. Preprint at bioRxiv (2017).
/155. Saunders, G. et al. Leveraging European infrastructures to access 1 million human genomes by 2022. Nat. Rev. Genet. 20, 693–701 (2019).
/159. Dempster, J. M. et al. Agreement between two large pan-cancer CRISPR-Cas9 gene dependency data sets. Nat. Commun. 10, 1–14 (2019).
/160. T sherniak, A. et al. Defining a cancer dependency map. Cell 170, 564–576.e16 (2017).
/161. Behan, F . M. et al. Prioritization of cancer therapeutic targets using CRISPR-Cas9 screens. Nature 568, 51 1–516 (2019).
/162. Lawson, D. A., Kessenbrock, K., Davis, R. T ., Pervolarakis, N. & Werb, Z. T umour heterogeneity and metastasis at single-cell resolution. Nat. Cell Biol. 20,
1349–1360 (2018).
/163. Baslan, T . & Hicks, J. Unravelling biology and shifting paradigms in cancer with single-cell sequencing. Nat. Rev. Cancer 17, 557–569 (2017).
/164. Levitin, H. M., Yuan, J. & Sims, P . A. Single-cell transcriptomic analysis of tumor heterogeneity. T rends Cancer 4, 264–268 (2018).
/165. Wagner, J. et al. A single-cell atlas of the tumor and immune ecosystem of human breast cancer. Cell 177, 1330–1345.e18 (2019).
/166. Gerstung, M. et al. The evolutionary history of 2,658 cancers. Nature 578, 122–128 (2020).
共有 0 条评论