HiC术语图解与分析软件汇总

序 言

  接触HiC数据有一些时日了,想着总结一下关于HiC的一些特定术语以及数据分析的相关软件,做为备忘录的同时也可以方便后来的人。
  先从概念开始,下面的示意图基本完美地展示了那些耳熟能详的术语所定义的基因组3D结构:

术 语

  上面的示意图告诉我们,为了方便研究,一个细胞的内部成分被划分成不同层级的功能域。

  1. 细胞核 (Nucleus)
      细胞核做为真核细胞内最大、最重要的细胞器 ,是细胞遗传与代谢的调控中心,在细胞的代谢、生长、分化中起着重要作用,是遗传物质的主要存在部位,主要由核被膜、染色质、核骨架、核仁及核体组成。
  1. 染色质疆域 (Chromosome Territory, CT)
      关于染色质在细胞核内的分布,最早提出的概念为Chromosome Territory,翻译成染色质疆域,或者叫做染色质边界。这个概念提出染色质并不是随机分布在细胞核内,而是各染色体占据不同的空间。通过染色体损伤实验,科学家也证明了这一现象的真实性。

  基于染色质疆域的现象,科学家还发现染色体在核内分布的一些规律:

  • 相对位置不变:染色体的这种位置相对不变会持续到有丝分裂起始。如体积大且基因贫乏的染色体通常位于核外围,而体积小且富含基因的染色体则更靠近核中心。
  • 染色质的位置因细胞类型而异:例如,X染色体在肝细胞中比在肾细胞中更频繁地定位在外围。
  • 同源染色体在细胞间期倾向于彼此分离
  1. 染色质区室 (A/B compartments)
      Lieberman-Aiden等人利用Hi-C技术研究了人淋巴母细胞的三维结构,文章发表于science期刊。文中首次提出A/B compartment的概念,基因组被分割为两个空间区室,分别标记为 A、B 染色质区。

  分析中对相关系数矩阵进行PCA降维分析,在第一主成分PC1轴上,根据正负可以将染色质区域分为A/B compartment

  • A compartments:开放的染色质,表达活跃,基因丰富,转录激活的组蛋白信号较高,通常位于细胞核的内部。
  • B compartments:封闭的染色质,表达不活跃,基因贫乏,转录沉默的组蛋白信号较高,位于核的外围。
  1. 拓扑结构域 (Topologically associating Domains, TAD)
      TAD是在哺乳动物细胞中首次提出的染色质结构单元的概念。在染色质区室中,互相作用相对频繁的基因组区域形成了TAD。

  一般这些TAD区域在不同的哺乳动物的不同细胞中相对保守,并且高度富集 CTCF 和 粘附蛋白。

  通过计算互作矩阵,可以得到一个类似上图的大三角形,上面有几个深红色的三角,内部高度互作的区域域即TAD,大小一般为400-800kb。
  TAD 可细分为 subTAD,大小约为100kb,subTAD之间的边界在不同细胞的组织间具有差异性,与细胞特异性的增强子-启动子互作有关。在细菌中,这种互作结构称为染色质互相作用域 (Chromosomal Interacting Domains, CIDs)。

  1. 层关联域 (Lamina Associating Domains,LAD)
      LAD是多细胞动物基因组中的异染色质结构域。在哺乳动物细胞中,LAD长度约为10kb-10Mb,覆盖了30-40%的基因组。LAD主要由转录沉默染色质组成,富含H3K9me2、H3K9me3以及H3K27me3等组蛋白修饰,研究人员认为LAD形成了一种染色质抑制状态。
  • 结构性LAD (constitutive LAD,cLAD):富含AT的异染色质区域,靠近核纤层,对染色体之间的结构形成至关重要。
  • 偶发性LAD (facultative LAD,fLAD):具有不同的核纤层相互作用,在不同细胞中激活或抑制不同的基因,从而导致不同的细胞类型。
  1. 核仁关联域 (Nucleolar Associating Domains, NAD)
      NAD占基因组的4%,几乎具有与LAD相同的所有物理特征。通过对LAD和NAD的序列分析发现,某些区域可能在核纤层和核仁间切换。
  1. 染色质环 (Chromatin loops)
      染色质在空间中形成环状结构,因此相距很远的染色质区域也可以在三维空间中聚集在一起。

  据推测大约50%的人类基因通过染色质环化过程参与长距离的染色质相互作用。通过计算互作频率相对周围较强的区域,如下图中蓝色标记即为染色质环区域。

  这种结构可以使线性距离很远的元件得以相遇,以此来完成调控作用,如空间上靠近的启动子和增强子,激活基因的转录。
  接触到启动子的增强子元件可以募集大量蛋白质复合物,例如介导复合物,PIC和细胞特异性转录因子。此外,诸如结构蛋白 (主要是CTCF和Cohesin)、共激活因子和ncRNA等也会促进该过程。

  根据植物中SRCIs的研究报道,可将其分为以下几类:

软 件

  1. HiCExplorer
      基于python的全流程分析软件,几乎满足了HiC分析的全部幻想。功能涵盖从fastq原始获得接触矩阵、QC、标准化、TAD calling、Loop calling、差异分析、可视化、格式转换等方面。真可谓软件在手,结果我有!本人也写过关于该软件的帖子,感兴趣可以阅读[HiCExplorer分析HiC-seq挺顺手]。更多信息可参考官方文档。
  1. Juicebox
      可以在Web浏览器上展示HiC数据,允许用户交互式地浏览、比较和分享。私人订制专属你的美图,点一点就出图,N多人梦寐以求的方式。
  1. TADCompare
      基于R的TAD差异分析软件,采用独有的方式将差异结果分为五种类型,这结果看起来还挺合乎直觉。之前也写过该软件的帖子,感兴趣可以戳这里[TADCompare:差异TAD分析]。
  1. PASTIS
      染色体3D结构推断软件,内含四种方法可供选择,为数不多的可以进行全基因染色体3D建模的软件。虽然是基于python的命令行软件,但使用起来稍微有些门槛。一些注意事项在之前的帖子中提到过,感兴趣的点这里[PASTIS:从HiC矩阵推断染色体3D结构]。

结 语

  软件使用的中心思想:分析软件千千万,不行咱就换一换。你分析或者不分析数据就在那里,不偏不倚;你换或者不换结果就在那里,不离不弃。软件好不好得用结果正名,数据差不差却很难说明。。。

参 考

doi: 10.1101/cshperspect.a003889
doi: 10.1038/nature11082
https://doi.org/10.1111/nph.16632
https://zhuanlan.zhihu.com/p/338839481

往期回顾

R语言揭秘 | $符鲜为人知的秘密,避坑预警
scRNA-seq稀疏矩阵图解,格式转换的核心
scRNAseq | h5文件转化为matrix表达矩阵
venn | 多样本间peak重叠韦恩图的解决方案
R编程技巧 | 学习高手实现函数多功能化的两种方法

版权声明:
作者:zhangchen
链接:https://www.techfm.club/p/84405.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>