geo数据库
GEO,全称 Gene Expression Omnibus(基因表达综合数据库),网址∶ https∶/ww.ncbinlm.nih.gov/geo/,是由美国国立生物技术信息中心 ( National Center for Biotechnology Information,NCBD于2000年创建并维护至今的高通量基因表达数据库。
GEO是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据,并提供免费下载。
GEO数据有两种存储形式:
- GEO DataSets 以数据集为单位,存储同一个实验中的数据;
- GEO Profiles 以基因为单位,存储基因在数据集中的表达谱。
组织结构从大到小:
- Platforms:高通量实验检测所用工具(哪个公司哪款产品),编号GPL开头,例如 GPL570
- Series:构成某个实验的相关样本,组成一个有生物意义的数据集。包括样本信息和方案设计等信息,可以看做一套完整的实验方案,实际上每个 Series基本对应一篇完整的论文。编号GSE开头,例如GSE5764。一个gse有多个sample(样本)
- Datasets & Profiles:高质量的GSE数据集还会被GEO官方工作者整理为Datasets和Profiles。Datasets 是分析好的Series,编号以GDS开头,所有gds也有多个sample。
- Sample:样本
GEO的研究数据类型:
数据类型有9种,以芯片为主,例如RNA、甲基化和SNP芯片数据等。也包括很多高通量测序数据。
高通量测序数据,原始数据存储在SRA,处理后数据则存储在GEO中。
在使用GEO数据时,千万不要忘记注明引用该数据文献的PMID编号!
下载数据
使用R语言下载:
library(GEOquery)
GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
# 支持多种编号下载:GSE57820、
# # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件
利用GDS号下载
GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
利用GSM号下载(单样本的表达数据):
GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
利用GPL号下载:
GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系。
参考文章
https://www.sohu.com/a/583980773_121118947
https://www.cnblogs.com/yahengwang/p/9676422.html
共有 0 条评论