追本溯源(六):我们该怎么认识热图-2
在上一篇追本溯源(五):我们该怎么认识热图-1中,我们对热图有了最最最基本的认识。但在实际的文献当中,我们遇到的热图经常远比我的示例复杂。那么,我今天将总结出几个解读热图的关键步骤。
第一步:观察热图的整体结构和标签
- 确定热图的行列含义:
- 行(Rows):通常代表基因/特征(如基因表达水平)。
- 列(Columns):通常与行相反,例如基因对应的样本。
- 确认行和列的标签是否清晰标注:例如样本ID、基因名称、实验条件等。
- 检查颜色条(Color Key):
- 颜色范围:查看热图旁的颜色条,明确颜色代表的数据值范围(如红色为高表达,蓝色为低表达)。
- 数据标准化:注意是否数据经过标准化(如Z-score标准化),这会影响颜色的绝对值含义。
- 确认热图的标题和注释:
-
查看是否有标题或说明文字,解释热图的数据来源、实验设计或分析方法。
让我们回到昨天的热图(我做了一点小小的扩展)。
image.png
对于这个热图来讲,行代表基因,列代表样本,行列的标注清晰。从注释条上看,蓝色代表低表达,红色代表高表达。此外,大概率没有经过标准化(为什么?怎么看出来的?)。值得注意的是,一定要看清楚颜色和数值的映射关系,不要想当然的认为红色代表高:

这两张图的数值完全一致,但是对颜色的映射进行了一个反转。如果注意这一点,就很容易得到错误的结论。
第二步:分析树状图(Dendrogram)和聚类结果
热图通常结合行/列的层次聚类(Hierarchical Clustering),通过树状图展示数据相似性分组:
- 行树状图(Row Dendrogram):
- 观察样本或基因是否被聚类成明显的分支。
- 若行代表基因,则观察基因是否聚类成功能相关的模块(如同一通路的基因)。
- 注意分支长度:较短的分支表示群体间相似性更高。
- 列树状图(Column Dendrogram):
- 如果行代表样本,寻找紧密聚集的群组:例如,样本是否分为两组(如疾病亚型或对照组与实验组)。
- 思考聚类结果的生物学意义:
- 例如,样本的聚类是否与已知的临床特征(如年龄、性别、疾病分期)相关?
- 基因的聚类是否暗示共同的调控机制或功能?

对上面的热图进行了一个聚类。现在我们可以看到,Sample 1/2具有非常相似的表达模式,Gene A/B也具有非常相似的表达模式,此外我们还可以看到一个明显的渐进变化模式。如果在这个基础上,还有更多的临床信息,比如性别、年龄等,我们就可以观察基因表达模式是不是和某个临床信息具有相关性。
第三步:识别数据分布和模式
1. 观察颜色分布的全局模式:
- 块状分布:某些行或列是否形成颜色一致的块(如红色区域集中于某一群体),这可能代表显著差异。
- 随机分布:若颜色杂乱无章,则可能数据间相似性较低或无明显模式。
2.关注极端值(High/Low Expressions):
- 查找颜色最深的区域(如深红色或深蓝色),这些可能是关键差异表达的基因或显著不同的样本。
3.检查对角线或对称性:
-
若热图是相关性矩阵(如基因-基因相关性),对角线附近颜色是否更深?对称性如何?
第三步和第二步其实难以严格地分开。与其他图表不同,在看热图的时候有时会用到一些直觉,来寻找一些潜在的内在规律。这一期就到这里,下一期我将以真正的表达数据作为例子,进行一个详细的分析,并给出更多的识图步骤。 最后,我想说,Open Your Mind!!!专注分享生信及科研入门干货,欢迎关注,一起解锁思维边界!
共有 0 条评论