生信分析干货 | 两组学关联分析(二)
上次的推文中,我们介绍了蛋白组与修饰组、蛋白组与代谢组的两组学关联分析思路和相关结果【生信分析干货 |两组学关联分析系列(一)】,今天,我们将为大家介绍蛋白组与转录组的关联分析思路和应用场景,希望能为各位老师提供一些研究思路上的帮助~
蛋白组与转录组关联分析
中心法则最主要的部分是DNA转录成RNA,RNA中具备编码潜能的mRNA翻译成蛋白质,这个过程中涉及到一整套精细的表达调控机制。从生物学角度上看,转录组代表了基因表达的中间状态,可以反映诸如转录调控、转录后调控的机理;而蛋白质是生物体直接的功能执行者,更能真实反映最终的生物表型变化。其含量随着生物体的生长、环境应激反应、疾病发生发展的过程不断变化,因而对其表达水平的研究有着不可替代的优势。景杰生物提供基于质谱的蛋白质组学研究服务。
为避免单一组学结果的片面性,全面探究生物体疾病机理、环境应激机制,精确研究重要基因的表达模式和调控机理,需要联合转录组学和蛋白组学表达量数据对生物样本进行系统研究,实现mRNA和蛋白质数据的互补和整合,获得更真实、系统的分子变化信息,从而实现对生物体特定状态下的应激机理进行全方位分析,揭示新的不同的调控机制。
「文献应用实例」
案例一:Integrative Proteomic Characterization of Human Lung Adenocarcinoma
该团队通过大队列临床样本多组学研究揭示了肺腺癌蛋白质组完整图谱,为肺腺癌的精准医疗提供了宝贵资源。研究中包括蛋白转录关联分析,结果显示转录、蛋白水平存在高度的不一致性,并且在预后关联方面具有互补作用。
其实mRNA水平≠蛋白水平其实也是正常的生物学现象。由于转录后调控以及翻译后调控的存在,mRNA的表达水平并不能代表蛋白质的水平。因此也说明了单独只研究mRNA的表达是不充分或偏倚的,联合分析是有必要。
案例二:Proteogenomic Characterization of Human Early-Onset Gastric Cancer
该研究在基因组学的基础上增加了转录组、蛋白组、磷酸化蛋白组和糖基化蛋白组,从而对弥漫性胃癌提供了更全面的认识,能够给予临床治疗更直接的参考。文章中有两个亮点是mRNA-蛋白质的相关性提示了与病人生存期高度相关的基因以及mRNA和蛋白质数据的整合分析将早发性胃癌分为4个亚型。
结果显示mRNA与蛋白质的平均相关系数仅为0.28。其中具有强相关性的基因主要参与DNA复制、PPAR信号传导和氨基酸代谢;而具有弱相关性的基因参与剪接体,mRNA监测和蛋白水解。通过评估具有显著mRNA-蛋白质相关性基因的潜在临床表现。有趣的是,那些与生存显著相关的基因表现出更强的mRNA-蛋白相关性。另外,与生存正相关的基因与抗肿瘤过程相关,而与生存负相关的基因主要与与细胞侵袭的原始过程相关。
据此,作者还在具有显著mRNA-蛋白质相关性的基因之间鉴定潜在的肿瘤抑制因子和致癌基因。这些数据表明,与mRNA表达水平相比,mRNA与蛋白质的相关性可以确定潜在的EOGC癌基因和抑癌基因。
案例三:A spatial vascular transcriptomic, proteomic, and phosphoproteomic atlas unveils an angiocrine Tie–Wnt signaling axis in the liver
蛋白转录关联分析除了可以用表达水平的相关性或差异趋势的异同来体现以外,还可以分析蛋白转录比(protein-to-mRNA ratio, PTR)。在中心法则中,稳态蛋白质的丰度由四种速率决定:属于合成途径的转录或翻译、以及属于衰变途径的稀释和降解,这是一个动态变化的过程。利用转录-蛋白两套组学的定量数据,我们可以简单地通过蛋白表达量与mRNA表达量的比值推断以上四种速率的组合形式。这一比值就叫蛋白质转录比。
从下图B中不难看出,高PTR(红色箭头)意味着某一基因对应的蛋白合成速率高于消耗速率,或mRNA的消耗速率高于合成速率,反之亦然。PTR水平与基因的翻译效率相关,即,PTR的高或低与基因的功能密切相关,在一定程度上反映了生命体对环境的适应和进化策略。
那么,如何评判PTR的高与低呢?通常以中位数±标准差作为衡量指标,即:若某一基因的PTR高于所有数据的中位数+标准差(1倍或2倍),则认为其属于高PTR;反之,若有一基因的PTR低于中位数-标准差,则认为其属于低PTR。通常来说,PTR服从高斯分布,如下图AC所示。
以小鼠肝细胞为例,作者对高PTR和低PTR的基因分别进行KEGG富集分析和PPI分析,结果发现这些基因分别富集到了不同的通路,并属于不同的蛋白互作网络,如上图DEF。
其中,核糖体相关的蛋白在低PTR成分中显著聚集,暗示了生物体内的核糖体相关RNA储备充足;而参与代谢过程和生物合成的蛋白质则呈现出高PTR的趋势,说明这类与基本细胞活动息息相关的基因在翻译速率和蛋白稳定性上有所优化。
「景杰生信产品」
景杰生信根据两个组学比较组、样本数目大小以及样本之间的对应关系制定了不同的联合分析方案。包括蛋白组与转录组表达差异关联分析、蛋白组与转录组表达一致性关联分析以及PTR。
蛋白组与转录组表达差异关联分析
分别对蛋白组和转录组进行差异分析,筛选出显著差异表达的转录本和蛋白,分析显著差异表达的转录本与蛋白之间的交叠情况。然后根据基因在不同水平(转录水平、蛋白水平)差异表达情况进行分类,并对不同分类下的基因集进行 GO 和 KEGG 通路的富集与聚类分析。
蛋白组与转录组表达一致性关联分析
首先,通过皮尔森相关性分析和 PCA 分析,比较重复样本在转录水平和蛋白水平表达量的重复性,同时用散点图展示样本在转录水平和蛋白水平表达的相关性。其次,通过每个基因转录水平和蛋白水平表达的皮尔森相关系数累积分布图来体现多个实验条件下处理的样本在蛋白组与转录组之间的定量相关性,基于基因的皮尔森相关系数数据,对基因做 KEGG通路GSEA 富集分析,揭示不同调节关系下蛋白或转录本潜在参与的通路过程。最后,为探究多个处理条件下基因在转录水平和蛋白水平之间的潜在关系,将蛋白与转录组的表达量通过层次聚类分成 6 大类,每种分类中蛋白与转录本在表达量上存在特定的关系,并对每类蛋白进行GO和KEGG富集分析。
蛋白组与转录组关联分析-PTR
Protein-to-Transcript ratios (PTR)的算法原理十分简单,即对于每个‘蛋白基因对’(protein-mRNA pairs),计算其在指定样本中蛋白组学与转录组学的比值,基于比值筛选出高PTR和低PTR基因,并分别进行后续功能分析。
注:PTR计算公式。分子为蛋白表达,分母为蛋白对应基因在转录组中的表达(均log2转换)。High PTR or low PTR genes were defined as PTR > median+SD or PTR < median-SD。
好了,本期的介绍就结束了,如果各位老师对两组学关联分析有兴趣,欢迎咨询~
参考文献
-
Xu JY, Zhang C, Wang X, et al. Integrative Proteomic Characterization of Human Lung Adenocarcinoma. Cell. 2020;182(1):245-261.e17. doi:10.1016/j.cell.2020.05.043
-
Mun DG, Bhin J, Kim S, et al. Proteogenomic Characterization of Human Early-Onset Gastric Cancer. Cancer Cell. 2019;35(1):111-124.e10. doi:10.1016/j.ccell.2018.12.003
-
Inverso D, Shi J, Lee KH, et al. A spatial vascular transcriptomic, proteomic, and phosphoproteomic atlas unveils an angiocrine Tie-Wnt signaling axis in the liver. Dev Cell. 2021;56(11):1677-1693.e10. doi:10.1016/j.devcel.2021.05.001
共有 0 条评论