ChIP-seq下游分析之motif 分析
什么是ChIP-seq?
ChIP-Seq即染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)与二代测序技术的结合,通过染色质免疫共沉淀技术(ChIP)特异性地富集与目的蛋白结合的DNA片段,并对其进行纯化和文库构建,然后对富集得到的DNA片段进行高通量测序。能够在全基因组水平研究蛋白结合靶DNA序列,特别是在转录因子、组蛋白修饰等表观遗传学的研究中发挥重要作用。
什么是motif分析?
Motif是一段有特征的典型DNA短序列,中文翻译称为基序或模体,拥有生物学功能的保守性,包含特异性的结合位点,涉及某一个特定生物学过程。motif分析就是解析目标区域具有保守性的DNA结合位点,鉴定这些位点与靶基因之间存在的相互作用关系,从而更好地研究某一疾病发生发展的分子机制。
Motif分析的软件有很多种,较为常见的MEME和Homer两种。本次主要为大家介绍Homer进行motif分析的主要步骤及原理。
Motif分析输入的数据一般是ChIP-seq流程过程中MACS2 进行callpeak之后的bed(narrawPeak或broadPeak)文件,也可以是自己人为整理的感兴趣区域bed文件。
narrawPeak文件示例:
第1列表示染色体号
第2列表示peak起始位点
第3列表示peak结束位点
第4列表示peak name
第5列表示peak score
第6列表示链方向strand 用+/- 表示链或者方向。如果是“.”则代表没有指定方向
第7列表示signalValue 测量该地区的总体(通常是平均)浓缩度,也可以成为富集倍数(fold enrichment)
第8列表示-log10(pValue)
第9列表示-log10(qValue)
第10列表示峰值
如何安装和使用Homer(Linux操作系统)?
Homer软件目前已经可以使用conda直接进行安装,所以直接使用conda 安装命令即可:
conda install -c bioconda homer
使用Homer进行motif分析需要先安装下载对应的基因组,安装基因组需要用到configureHomer.pl。
如果是conda安装的homer,该脚本位于~/anaconda3/pkgs/homer-***/bin文件夹下,可使用which homer进行查找。使用的参考基因组是人的hg38版本:
perl configureHomer.pl -install hg38
findMotifsGenome.pl 命令用于在基因组区域中寻找富集 Motifs :测试文件来自文章《Predicting FOXM1-Mediated Gene Regulation through the Analysis of Genome-Wide FOXM1 Binding Sites in MCF-7, K562, SK-N-SH, GM12878 and ECC-1 Cell Lines》的附件2中的MCF7的FOXM1 ChIP-seq结果,复现文章中Figure 1B的MCF7细胞系motif分析结果,其余结果仅仅是换一个输入文件即可。
findMotifsGenome.pl test_homer.bed hg38 out_motifDir -size 150 -mask
# 参数解释
-输入文件:处理好的 Peak/Positions file
-参考基因组:这里是 hg38
-输出文件:一个路径
-len:motif 大小设置,默认 8,10,12;越大需要的计算资源越多
-bg:自定义背景序列;
-size: 用于 motif 寻找得片段大小,默认 200bp;越大需要得计算资源越多
-S:结果输出多少 motifs, 默认 25;
-mis:motif 错配碱基数,默认 2bp;
-norevopp:不进行反义链搜索 motif;
-nomotif:关闭重投预测 motif;
-rna: 输出 RNA motif,使用 RNA motif 数据库;
-p:设置线程数
-mask: 使用repeated-mask序列
运行结果主要看homerResults.html文件即可。由于数据库的更新,结果产生细微变化,但是富集出来的转录因子和之前并无变化,仍然富集到了FOXM1,ERE,TFCP2,表明我们的操作并无错判。
小结
Motif分析在表观转录组中是非常重要的下游分析之一,其运行操作的步骤也相对简单,但是其结果却是对表观转录组的有利解释。
共有 0 条评论