geo数据库

GEO,全称 Gene Expression Omnibus(基因表达综合数据库),网址∶ https∶/ww.ncbinlm.nih.gov/geo/,是由美国国立生物技术信息中心 ( National Center for Biotechnology Information,NCBD于2000年创建并维护至今的高通量基因表达数据库。

GEO是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据,并提供免费下载。

GEO数据有两种存储形式

  • GEO DataSets 以数据集为单位,存储同一个实验中的数据;
  • GEO Profiles 以基因为单位,存储基因在数据集中的表达谱。

组织结构从大到小:

  • Platforms:高通量实验检测所用工具(哪个公司哪款产品),编号GPL开头,例如 GPL570
  • Series:构成某个实验的相关样本,组成一个有生物意义的数据集。包括样本信息和方案设计等信息,可以看做一套完整的实验方案,实际上每个 Series基本对应一篇完整的论文。编号GSE开头,例如GSE5764。一个gse有多个sample(样本)
  • Datasets & Profiles:高质量的GSE数据集还会被GEO官方工作者整理为Datasets和Profiles。Datasets 是分析好的Series,编号以GDS开头,所有gds也有多个sample。
  • Sample:样本

GEO的研究数据类型:

数据类型有9种,以芯片为主,例如RNA、甲基化和SNP芯片数据等。也包括很多高通量测序数据。

高通量测序数据,原始数据存储在SRA,处理后数据则存储在GEO中。

在使用GEO数据时,千万不要忘记注明引用该数据文献的PMID编号!

image.png

下载数据

使用R语言下载:

library(GEOquery)
GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
# 支持多种编号下载:GSE57820、
# # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件

利用GDS号下载

 GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GSM号下载(单样本的表达数据):

 GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GPL号下载:

 GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系。

参考文章

https://www.sohu.com/a/583980773_121118947
https://www.cnblogs.com/yahengwang/p/9676422.html

版权声明:
作者:Mr李
链接:https://www.techfm.club/p/142080.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>