maftools包分析突变数据,绘制瀑布图
前面给大家介绍了MAF文件格式
☞ MAF格式(mutation annotation format)
以及如何从TCGA数据库下载MAF格式的突变数据。
☞ 如何从TCGA数据库下载体细胞突变数据(somatic mutation)
今天我们来讲讲,怎么用R的maftools包来分析MAF格式的突变数据,并用瀑布图来展示结果。maftools这个包的主要分为两部分功能,分析和可视化。下图列出了,这个包中相应的函数的名字。
我们先用maftools包自带的数据,给大家讲解这个包的使用方法。后面再来实战,重现SCI文章中的瀑布图。
#安装maftools包
BiocManager::install("maftools")
#加载maftools包
library(maftools)
#指定maf文件的路径和名字
laml.maf = system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools')
#读取maf文件
laml = read.maf(maf = laml.maf, clinicalData = laml.clin)
#输出对象
laml
我们可以看到laml里面存的是一个MAF的对象,以及各种突变的统计信息
接下来我们可以对所有样本里面突变的summary信息进行可视化
pdf(file="maf_summary.pdf",width =12,height=7)
plotmafSummary(maf = laml,addStat = 'median')
dev.off()
我们会得到下面的一张突变的汇总图,包括各种突变分类统计图,突变类型统计图,碱基改变统计图,每个样本包含突变数统计图,样本中各种突变分类的箱型图,突变最多的10个基因所包含的突变类型,以及样本占比情况。
接下来我们就可以来绘制瀑布图了,我们可以通过top来控制展示多少个突变最多的基因,这里展示20个突变最多的基因。
pdf(file="oncoplot.pdf",width =12,height=7)
oncoplot(maf = laml, top = 20)
dev.off()
我们可以得到下面这张瀑布图
这张图最上面展示的是每个样本的TMB(tumor mutation burden,肿瘤突变负荷),每兆碱基(每1百万个碱基)中体细胞突变的数目。TMB可以作为一种新兴肿瘤免疫治疗生物标志物。中间类似瀑布的部分展示的是每个基因在每个样本中的突变情况。每一行是一个基因,每一列是一个样本。不同的颜色表示不同的不变类型。具体可以查看左下角的图注。右边的柱形图表示包含该基因突变样本的占比,以及突变类型的组成。
到这里我们瀑布图的绘制就完成了,是不是很简单。后面我们会找一篇SCI文章中的瀑布图来复现。
共有 0 条评论