通过5步,学会处理从GEO数据库下载的数据集,做出精美结果图
往期文章链接
前述文章里,我们讲到,如何从GEO数据库中找寻自己想要的数据集。
那么本篇推文里,小编带大家一起动手处理已下载好的数据集,将其转换成数据分析软件能够识别的信息,之后就可以制作出精美的分析图,开始妙手著文章了。
之前的内容里提到,不是所有数据集都同时满足 “既有差异表达基因,又有生存数据在内的临床特征信息” 这两个条件。
因此在一般情况下,我们可以先寻找符合其中一个条件的数据集,下载里面的GPL文件和表达矩阵“series matrix”做表达分析;
再寻找另外一个包含样本生存数据的临床特征数据集,做生存分析。
处理这两个数据集的方法步骤基本一致,因此,本文将着重讲解如何生成差异表达分析所用的基因表达谱。
学会了相关操作以后,大家可以练习如何生成生存分析所用的临床特征信息表格。
熟能生巧,刚开始也许会慢一些,不过只要耐心多加练习,用不了多久就能玩转数据啦。
接下来,小编为大家演示操作——“如何得到差异表达分析所用的基因表达谱”。

上篇公众号推文“如何从GEO数据库下载数据”里,我们选中了包含有正常组织和肿瘤组织的、与肺癌相关的基因表达数据集GSE85841,得到了(1)表达矩阵“series matrix”文件和(2)GPL平台注释文件。

此时下载的为txt文本格式的数据集,需右键→打开方式→用excel打开,或者直接将txt文本拖到已经打开的excel表格中。
步骤1
首先打开GPL文件。

GPL文件中,我们所要提取的信息只有两列。
列1为基因的探针ID编号,列2为我们熟知的基因名。
一个基因探针ID编号对应一个基因名(有时基因名会缺失)。

找到这两列后,接下来到矩阵文件表格(series matrix)里新建一个子表格,将上述两列内容复制到其中,方便后续统一在一个excel文档中操作。

步骤2
关闭GPL注释文件表格,下述步骤集中在矩阵文件表格(series matrix)里操作。
首先提取矩阵文件表格里所能用到的临床信息,以及相应的GSM样本编号。

这个表格里所能用到的临床特征信息仅有组织类型(肿瘤组织或正常组织)。
理想情况下,还包含有年龄、生存时间、种族、性别等数据。
同样新建一个子表格,将上述两行内容复制进去。
因为原内容为横向排列,因此在粘贴的时候,需选择“转置”,将其转为竖向排列。

步骤3
接下来开始根据矩阵文件表格以及Gene Symbol表格里共有的探针ID元素,匹配基因名。

匹配原理与之前在 “如何从cBioPortal数据库下载数据” 相关推文里讲述的一致。
即以矩阵文件表格为基准,以共同元素探针ID号为精准匹配条件,将gene symbol子表格整合到矩阵文件表格中。
(1) 在矩阵文件表格的探针ID右侧插入列,以便放置提取的gene symbol名。

(2)选中预放置gene symbol那一列的初始栏,插入VLOOKUP函数。(注意是数值的初始栏,列标题的位置需空出)

(3)填写数值。

1处填写的是需要用哪一栏作为匹配的基准条件(即两个表格的共同元素)。
本数据是用共同的探针ID编号作为匹配条件,因此此处选择A2,用鼠标点击A2格或者直接输入A2均可;
2处填写的是匹配数据所需要的查找范围。本文是要通过探针ID查找gene symbol子表格中的基因名,因此点击gene symbol子表格,选中探针 ID列和基因名的两列表格(如下图)。此时函数中会自动填写刚刚所选择的范围,即子表格gene symbol中的A、B两列。

3处需要填写的是,需要提取到矩阵文件表格的数据在步骤2已选择范围中的哪一列。本文需要提取的基因名数据在第2列,因此此处填写2即可;
4处需要定义的是精确匹配(0)还是模糊匹配(1)。本文需要精确匹配,将两个表格中探针ID完全一致的基因名提取到矩阵文件表格,因此此处填写0。
(4)点击确定之后,已经匹配到第一个探针ID的基因名。
双击该框右下角处,该列所有数据都会自动生成。显示为0的,意为在Gene symbol子表格里没有查询到矩阵文件表格中该探针ID的基因名。

生成数据之后,此列数据为带格式数据,在移动整理的过程中可能会出现格式错误,建议将该列数据复制,在旁插入新的一列,以纯文本格式粘贴到新生成的列中使用。
之后可将1、2列删除。
(5)接下来就可以筛选感兴趣基因的表达值了。
选中基因名所在列,点击1处进入筛选状态,点击2处下拉框后输入目标基因。

本例以基因NCAN为例,进行筛选。得到NCAN在不同样本中的基因表达值。

新建一个子表格,将上述两行内容复制到其中。
其为横向排列,同样需要“转置”粘贴。

步骤4
接下来,在步骤2中生成的临床信息子表格中,根据样本GSM编号进行第二次数据匹配。
目的是将NCAN在不同样本中的基因表达值,整合到临床数据表格中。

(1)选中预放置NCAN基因表达值那一列的初始栏,插入VLOOKUP函数。(列标题的位置同样需空出)

(2)输入数值。

1处填写的是需要用哪一栏作为匹配的基准条件(即两个表格的共同元素)。
本数据是用两个子表格中共同的样本GSM编号作为匹配条件,因此此处选择A2,用鼠标点击A2格或者直接输入A2均可;
2处填写的是匹配数据所需要的查找范围。本文是要通过GSM编号查找基因表达谱子表格中的NCAN表达值,因此点击基因表达谱子表格,选中GSM编号和基因表达值的两列表格(如下图)。此时函数中会自动填写刚刚所选择的范围,即基因表达谱子表格中的A、B两列。

3处需要填写的是,需要提取到临床数据表格的值在步骤2已选择范围中的哪一列。本文需要提取的基因表达值数据在第2列,因此此处填写2即可;
4处需要定义的是精确匹配(0)还是模糊匹配(1)。本文需要精确匹配,因此此处填写0。
(4)点击确定之后,已经在临床数据子表格中,匹配到第一个GSM编号的基因表达值。
双击该框右下角处,该列所有数据都会自动生成。(该操作有时会失效,如果双击无反应,需要手动下拉表格边框,将数据生成到该列所有对应栏)
需要注意的是,一般情况下,临床数据表格里的GSM编号排列顺序与基因表达谱表格里的GSM编号排列顺序是一致的。此处进行第二次匹配,只是为了再次确保数据的一一对应性。
步骤5
至此,我们得到的就是一个含有GSM样本编号、目标基因在各个GSM样本的差异表达情况、含有样本临床数据的总表。
接下来就可以用它做相应的分析、制作结果图啦。


小编开头还提到另一个数据集,包含了样本生存信息、生存状态等临床特征数据,可以用来做生存分析。
从GEO数据库中下载此数据集后,同样也需要对表格其进行合并处理。
合并步骤与本文讲解内容一致。
最终我们得到的,即为一个含有样本生存数据等临床信息、目标基因在各个样本中的表达情况总表。
大家可以将此当作练习,既学习了处理不同内容的表格,同时也复习了本课所讲的内容。

共有 0 条评论