数据库分享 | SIB 瑞士生物信息学研究所数据语义网络
Basic Information
- 英文标题: The SIB Swiss Institute of Bioinformatics Semantic Web of data
- 中文标题:SIB 瑞士生物信息学研究所数据语义网络
- 发表日期:25 October 2023
- 文章类型:Na
- 所属期刊:Nucleic Acids Research
- 文章作者:SIB Swiss Institute of Bioinformatics RDF Group Members
- 文章链接:https://academic.oup.com/nar/article/52/D1/D44/7329473
Abstract
- SIB瑞士生物信息学研究所(https://www.sib.swiss/)是一个生物信息学研究和服务团队的联合会。
- 自1998年成立以来,国际学术界和工业界的生物科学界一直在使用SIB提供的免费数据库。
- 本文介绍了目前遵循FAIR原则(可发现、可访问、可互操作、可重用)提供语义丰富数据的11个数据库,以及同样采用这种丰富方法的瑞士个性化健康网络倡议(SPHN)。
- 语义丰富有助于处理来自公共数据库和私有数据集的大数据集。
- 我们提供了例子来说明SIB数据库的数据不仅可以使用精确的标准单独查询,还可以跨多个数据库进行查询,包括各种非SIB数据库。
- 可以使用SPARQL查询语言进行数据探索、提取、注释、组合和发布等数据操作。
- 提供文档、教程和示例查询使用户更容易导航这个语义数据网。
- 通过本文,读者将了解如何利用现有的SIB知识图谱来应对当今面临的复杂生物学或临床问题
Introduction
Para_01
- 科学研究成果的迅速增加导致了由该领域专家撰写的文献综述以及最近专家策划的数据库的发展。
- 生物和健康数据的增长促使数据库数量相应增加。
- 尽管查询仍然主要局限于一次针对单一数据库,但整合多种数据类型(例如,基因组学、转录组学、蛋白质组学、代谢组学)以解答复杂的生物学问题的需求日益增长。
- 换句话说,研究人员和医疗专业人员必须能够从多个数据库查询和结合数据,甚至与他们自己的数据集相结合,以便获得只有通过全面视角才能获得的洞见和知识。
Para_02
- 瑞士生物信息学研究所(SIB)自1998年成立以来,一直致力于满足学术界、工业界和医院生物数据社区的需求。
- 凭借在数据管理、存储、整合与分析方面的专长,SIB一直在开发数据库。
- 这些资源中的数据非常多样,包括UniProt中的蛋白质(它们的序列和功能)、Rhea中的蛋白质催化酶促和运输反应、STRING中的蛋白质-蛋白质相互作用、Bgee中的基因表达以及OMA和OrthoDB中的同源基因。
- 所有这些数据库为全球科学家提供了高质量的数据基础。
Para_03
- 文本索引使数据库内容更加易于访问,从而使其成为基础生命科学和医学研究的基石。
- 虽然这使得人类可以轻松使用数据库,但严重限制了通过查询可以回答的问题类型。
- 语义网的出现,即链接数据的网络,允许人类和机器在存储有关同一实体信息的不同数据库之间进行导航。
- 资源描述框架(RDF)是万维网联盟的核心语义网技术之一,特别适合在全球范围内共享和链接数据。
- 使用SPARQL查询语言可以对RDF中的数据进行查询、检索和操作。
- RDF数据模型是一种有向图,可以表示为一组三元组形式的陈述,即主语-谓语-宾语。
- 为了在网络上链接数据,RDF要求每个实体必须有一个全球唯一的标识符。
- 这些标识符允许任何人对给定实体做出陈述,并且结合RDF数据模型的简单结构,使得不同数据库关于同一实体所做的陈述易于组合,从而实现跨不同数据集的查询。
Para_04
- 在本文中,我们通过将数据作为可通过 SPARQL 接口访问的 RDF 知识图谱提供,展示了作为全球语义网一部分的 SIB 数据库。
- 为了说明 SPARQL 查询对生物学家或生物信息学家有何用处,我们展示了几则由资源在其 SPARQL 接口中提供的示例。
- 接下来,我们进一步阐述如何利用语义网技术来探索、链接、分享和重用数据,包括在瑞士个性化健康网络倡议 (SPHN) 的背景下。
- 这个使用案例展示了如何出于研究目的访问私人临床数据。
- 最后,鉴于学习 SPARQL 语法的需求,我们介绍了迄今为止开展的培训活动,旨在扩大用户群体,并以未来的展望作结。
SIB linked open data in RDF
Para_05
- 与欧洲生物信息学研究所(EBI)RDF平台等数据仓库计划不同,该平台在一个集中式存储库中整合了来自各种EBI数据库的数据,SIB数据库以分散的方式独立生成和提供其RDF格式的数据。
- 蛋白质知识库UniProt早在2009年就开始探索使用RDF,并且是提供的RDF格式最大的SIB数据库。
- 继UniProt之后,neXtProt在2014年建立了SPARQL端点。
- OrthoDB在2016年效仿跟进,随后是OMA(同源矩阵)、Rhea、Bgee、HAMAP、MetaNetX以及最近的GlyConnect、STRING和SwissLipids。
- Cellosaurus是一个关于细胞系的SIB知识资源,目前没有SPARQL端点。
- 然而,其部分细胞系数据以及部分Bgee表达数据可通过Wikidata的SPARQL端点获取。
- 目前共有11个SIB数据库提供了公共链接开放数据,主题范围包括蛋白质、反应、同源基因、基因表达和代谢组学。
- 表1中列出的所有SPARQL端点都通过网络免费向公众开放,无需登录或注册,也不受密码保护。
- 表 1. 提供免费、链接开放数据以供重用的SIB数据库
Database | SPARQL endpoint URL | Type of data |
---|---|---|
Bgee | https://www.bgee.org/sparql/ | Gene expression |
https://purl.org/bioquery (Bio-Query) | ||
Cellosaurus | https://query.wikidata.org/ (via Wikidata) | Cell line |
GlyConnect | https://beta.glyconnect.expasy.org/sparql | Glycoprotein |
https://glyconnect.expasy.org/sparql | (only machine-readable) | |
HAMAP | https://hamap.expasy.org/sparql | Protein family classification and |
annotation rules | ||
MetaNetX | https://rdf.metanetx.org/ | Metabolic network |
OMA | https://sparql.omabrowser.org/ | Orthologous protein-coding gene |
OrthoDB | https://sparql.orthodb.org/ | Orthologous protein-coding gene |
Rhea | https://sparql.rhea-db.org/ | Enzymatic and transport reaction |
STRING | https://sparql.string-db.org/ | Protein-protein interactions |
SwissLipids | https://beta.sparql.swisslipids.org/ | Lipid |
UniProtKB | https://sparql.uniprot.org/ | Protein |
Para_06
- 虽然SIB RDF资源是独立创建并分别维护的,但这些资源经常重用彼此的数据表示、通用本体、数据建模实践和设计模式来构建它们的数据。
- 这样做是为了增强SIB资源之间的互操作性,并便于编写SPARQL查询。
- 例如,Bgee和OMA重用了UniProt的数据架构和数据值(如物种)来表示生物分类。
- OrthoDB也使用UniProt实例定义生物分类。
- Bgee重用了来自OMA的基因表示以及其底层数据架构的一部分,即同源性本体(ORTH)。
- 此外,当适用时,特定领域的本体,如基因本体(GO)和UBERON(一个多物种解剖实体本体)也被整合到SIB资源中。
- 例如,Bgee重用了UBERON;UniProt和OrthoDB重用了GO;MetaNetX和UniProt重用了ChEBI(生物兴趣化学实体)本体。
- 此外,所有SIB资源都使用RDF对SIB与其他数据库之间的交叉引用进行了建模。
- 例如,OMA、Bgee和OrthoDB中的蛋白质或基因指向UniProt中的蛋白质,这有助于编写联合查询以结合它们的数据。
- 最后,RDF中的链接不仅仅是交叉引用,例如,Rhea被用于UniProt中来建模酶的催化活性。
- 这种使用Rhea的方式不仅仅是一个指针,实际上是UniProt数据模型的核心组成部分。
Para_07
- YummyData评估了与生物医学研究相关的SPARQL终端以及所提供的数据集,以帮助用户决定使用哪些,并促使数据提供者通过链接数据技术提高所提供数据的质量。
- Umaka评分(‘Umaka’是日语方言词汇,在英语中的意思是‘美味’),是一个用于质量评估的简单指数。
- YummyData对SIB项目给出的评分在70到97分之间,最高分为100分,平均分为61分(截至2023年8月-评分随时间变化,主要是因为‘数据新鲜度’的标准)。
- 这种对SIB SPARQL终端的独立评价显示了它们的质量和适用性。
Querying RDF data using SPARQL
Para_08
- SPARQL语言允许搜索条件极为精确。
- 为了说明这一点,我们展示了三个SPARQL查询示例,这些示例展示了生命科学家或生物信息学家如何在RDF中查询数据:(i)一个作为示例的查询,这种查询在其他情况下是不可能实现的;(ii)一个联合查询,其中不同的部分在三个不同的SPARQL端点上执行,并将从它们那里检索到的数据组合在查询结果中;(iii)一个涉及两个资源的联合查询,其中一个资源是SIB资源。
- 重要的是,SPARQL查询的结果始终与SIB资源中的最新信息保持同步,因为它们的SPARQL端点中的数据在每次发布时都会更新。
Para_09
- 作为第一个例子,考虑一个无法用Rhea网站中的基于文本搜索来表达的SPARQL查询。
- 在Rhea SPARQL网页上的示例15检索了所有作为反应参与者出现在Rhea中的ChEBI化合物,其中ChEBI可以是小分子、大分子的反应部分或是聚合物(点击显示查询按钮可以看到SPARQL查询,参见https://purl.org/sib-rdf/query-example-0001)。
- 查询结果列出了ChEBI标识符(链接到ChEBI中的相应条目)、化合物名称以及该化合物在Rhea中的出现次数,如图1所示。
- 查询结果以CSV、XML和JSON格式提供,方便用户再次使用。
- 图 1. 通过 SPARQL 查询在 Rhea 中发现的酶促和运输反应中的十大化合物。查询返回了 ChEBI 标识符(链接到 ChEBI 中的条目,列 chebi)、化合物名称(列 name)以及该化合物在 Rhea 中出现的次数(列 countRhea)。
Para_10
- 复杂的生物学问题可能需要通过单一的联邦SPARQL查询来查询和结合不同资源中的不同数据。
- 所有SIB SPARQL终端都支持当前版本的SPARQL(即1.1版),因此支持联邦查询。
- 生物查询界面(https://purl.org/bioquery)专门用于使用UniProt、Bgee和OMA中的数据进行联邦查询。
- 该界面专为不懂SPARQL或底层数据模型的用户设计。
- 考虑一位研究肺癌的研究人员,他想知道‘与‘肺癌’相关的蛋白质有哪些?以及在大鼠肺部表达的同源蛋白有哪些?’
- 为了用Bio-Query回答这个问题,研究人员可以在‘同源基因+基因表达+蛋白质和功能信息’类别下编辑一个问题模板。
- 更具体地说,模板问题是‘与‘胶质母细胞瘤’相关的蛋白质有哪些?以及在大鼠脑部表达的同源蛋白有哪些?’,其中研究人员应该将胶质母细胞瘤替换为肺癌,将脑部替换为肺部,从而构成其原始问题。
- 这个模板查询展示了如何结合OMA中的同源基因信息、Bgee中的基因表达数据和UniProt中的疾病注释。
- 编辑后的模板问题通常在10秒内返回人类UniProt蛋白质链接,这些链接由一个UniProt标识符、相应蛋白质在大鼠肺部表达的OMA链接、使用Ensembl基因标识符定义的RDF图中的OMA基因表示(这不是可点击的链接)以及从UniProt提取的与肺癌相关的蛋白质疾病注释组成。
- 此外,用于回答编辑后问题的联邦SPARQL查询可以通过点击页面顶部的‘显示SPARQL查询编辑器’从Bio-Query界面获取。
- 或者,SPARQL查询可以在OMA SPARQL终端上运行(参见查询:https://purl.org/sib-rdf/query-example-0002),或任何其他SPARQL 1.1终端。
- SIB资源中的信息可以与外部资源中的数据相结合。
- 图2展示了这三个数据库上的联邦查询的图形表示。
- 图 2. 在 Bgee、OMA 和 UniProt 数据库上进行的语义查询的图形表示。此查询检索与‘肺癌’相关的蛋白质及在大鼠肺部表达的同源蛋白。
- 带有问号的节点代表某个概念的任意值,例如,?gene 代表给定数据库中的任何基因。
- 前缀加后缀形式的节点代表词汇表中的一个术语。
- 例如,orth:OrthologousCluster 在 ORTHology 本体 (https://qfo.github.io/OrthologyOntology) 中定义。
- 前缀加后缀形式的边是节点之间的关系,这些关系也在词汇表中定义。
- 例如,up: in up:annotation 对应于 http://purl.uniprot.org/core/。
- 所有前缀都在 SPARQL 查询的头部定义。
- 为了简化起见,图中省略了它们。
- 最后,带有‘*’的边意味着这是一个复合边,其中同一类型的边可以重复多次,具体次数取决于数据源中可用的数量。
- 因此,它表示通过多个由相同类型边连接的节点进行遍历。
Para_11
- UniProt 提供的另一个联合查询示例(参见查询 38,网址:https://purl.org/sib-rdf/query-example-0003)检索了人类条目 P05067、淀粉样前体蛋白在 Wikidata 中的基因起始和终止位置。
- 结果表明,编码淀粉样前体蛋白(APP)的基因位于第 21 号染色体上,在基因组组装 GRCh38 中的位置范围是从 25880550 到 26171128,如图 3 所示。
- 虽然这些信息可以通过在 Ensembl 或 USCS 中搜索轻松获取,但对大量蛋白质进行这样的操作会非常繁琐;然而,SPARQL 查询可以轻松修改以适应一系列蛋白质条目列表。
- 图 3. 在 Wikidata 和 UniProt 上进行的联合查询结果,该查询检索了 APP 基因在两种基因组组装(GRCh37 和 GRCh38)中的位置。已知这个基因的变异会导致一种阿尔茨海默病。
Para_12
- 两个联邦SPARQL查询示例说明了如何打破数据孤岛。
- 在https://yummydata.org/endpoint展示的SPARQL端点选择提供了生命科学家感兴趣的数据类型。
- 值得注意的是,Rhea利用了集成小分子数据库(IDSM)的SPARQL端点,这使得能够检索出具有类似结构的化学化合物。
- Coudert等人利用此功能检索所有与配体结合的蛋白质,这些配体的结构与查询配体相似,在这种情况下,查询配体是血红素b。
- 这种类型的查询可以在药物设计的背景下应用。
Para_13
- 探索和使用语义数据存在几个障碍。
- 第一个是熟悉 SPARQL 语法。
- 对于熟悉结构化查询语言(SQL)的程序员或生物信息学家来说,这不应该构成任何问题。
- 实验生物学家可以通过运行和修改资源提供的示例来学习。
- 第二个是对数据模型的理解,以便正确地构建查询。
- 查阅文档或使用查询来探索数据通常可以解决这个问题。
- 最后,查询超时也限制了 SPARQL 查询的实用性。
- 这可以通过多次运行查询来克服,每次检索数据的不同部分。
Applications of SPARQL and RDF data
Para_14
- 语义数据在RDF中的应用及使用SPARQL进行查询的例子很多。
- 它们可以用来从各种来源生成、探索、提取和组合数据,还可以将数据以可互操作的格式发布,仅举几例。
- 下面给出一些例子来说明这些用途中的几种。
Para_15
- SPARQL 不仅用于查询数据,如前一节所述,还可以用来注释数据。
- 例如,瑞士-蛋白数据库的管理员构建了注释规则(HAMAP 规则),这些规则被用于自动注释。
- HAMAP 规则作为集成工作流程的一部分,该工作流程包括对 UniProtKB/瑞士-蛋白数据库中实验性特征化的模板条目的管理,以及相关规则和蛋白质家族特征的管理(以通用配置文件形式编码)。
- 这些复杂的 HAMAP 规则被转换为 SPARQL 1.1 语法,并使用免费提供的 SPARQL 引擎应用于 RDF 格式的蛋白质序列。
- 这种采用 SPARQL 语法实现的 HAMAP 规则可以由用户应用到 RDF 表达的蛋白质序列上进行注释,无需定制的管道即可使用现成的 SPARQL 引擎实现这一功能
Para_16
- SPARQL查询也可以用来探索和比较不同数据库中的数据。
- 最近通过结合联邦SPARQL查询与人工检查,分析了GlyConnect和UniProt中涉及SARS-CoV-2宿主-病原体相互作用的糖基化位点中存在的糖类。
Para_17
- 语义网技术也可以用来检索数据,并将其与来自不同来源(无论是公共还是私有的)的数据相结合,只要允许重用。
- 这使得可扩展精准医学开放知识引擎(SPOKE;https://spoke.rbvi.ucsf.edu)得以创建,该引擎包含了从41个数据库下载的2700万个节点和5300万条边,包括Bgee、STRING和UniProt/Swiss-Prot的数据。
- Bgee高质量的基因表达数据集最近被整合到一个知识图谱中,以支持精准医学。
- 通过这种方式,创建了数据孤岛之间的桥梁,RDF格式的数据集可以方便地传播和重用。
- 两个例子说明了这一点。
- 首先,创建了一个略作修改的neXtProt数据库版本(https://doi.org/10.5281/zenodo.7071135),用于比较关系数据库到RDF映射系统的性能。
- 其次,PDBj(29)中一部分RDF格式的数据已经在Zenodo上发布(https://doi.org/10.5281/zenodo.8098467),用于评估实现SPARQL标准的图数据库Oxigraph Server。
- RDF档案还可以作为协作项目中细粒度版本控制的后端支持
Swiss health data in RDF
Para_18
- RDF也在瑞士个性化健康网络倡议(SPHN)的背景下得到应用。
- SPHN已经开发了一项全国性的策略,用于健康相关数据的语义表示。
- SPHN语义互操作框架的核心是通过SPHN RDF模式正式表示的语义。
- 该模式作为一个协调一致的模型,用于表示与常规临床数据相关的概念和属性。
- 它被设计成可组合的方式,因此为用户提供了扩展其功能的灵活性,从而满足他们的特定需求。
- 虽然使不同来源的多样化数据类型能够无缝集成,该框架还促进了遵循FAIR原则对健康数据的二次利用。
Para_19
- 开发的工具和基础设施使瑞士大学医院能够以快速且成本高效的方式共享根据SPHN RDF模式(https://www.biomedit.ch/rdf/sphn-ontology/sphn)定义的临床常规数据。
- 在当前SPHN阶段,设立了四个国家数据流(NDS),它们将临床常规数据与其他健康相关数据(例如组学数据、队列和登记册数据或PROMS)链接在一个知识图谱中。
- 这四个NDS专注于不同的疾病领域:感染性疾病(瑞士重症监护室中的感染相关结局个性化、数据驱动预测与评估,IICU)、肿瘤学(瑞士个性化肿瘤学,SPO)、低价值护理(住院患者低价值护理,LUCID)以及儿科(瑞士儿科个性化研究网络,SwissPedHealth)。
- 未来,NDS将成为新研究项目的重要且高度策划的数据资源。
Documentation and outreach
Para_20
- 大多数 SPARQL 接口用户要么是程序员,要么是投入精力学习 SPARQL 并探索资源数据模型的高级用户。
- 为了降低生物学家使用这些接口的门槛,大多数 SIB 资源的 SPARQL 接口都提供了用户友好的界面。
- 这些包括 SPARQL 查询示例,允许新手用户从修改查询开始,然后再学习编写自己的查询所需的 SPARQL 查询语法。
- 用户还可以查阅文档来了解资源的数据模型,获取指向 SIB 或外部资源的交叉引用,这些资源提供了附加信息,以及教程或培训材料(表 2)。
- 对于 SPHN,还提供了 RDF 数据、SPARQL 和 SHACL 的培训,以及用户指南和文档。
- 值得注意的是,YummyData (https://yummydata.org/) 还在 GitHub 上提供了一个论坛,使 RDF 格式的生物医学信息的用户和提供者能够交流并提高 (生物) 数据网络的可用性。
- 表2. 为SIB数据库和SPHN提供的文档、样本查询和培训材料,这些材料提供了语义数据
Para_21
- 迄今为止,已经举办了四次面对面的教程。
- 第一次教程是在2012年SWAT4LS研讨会上为生命科学家介绍SPARQL。
- 2015年的第二次教程是在巴塞尔BC2会议上为生物学家和生物信息学家介绍SPARQL。
- 2019年在爱丁堡举办的第三次教程展示了9个SIB数据库,并通过联合查询作为对下一位演讲者介绍资源的引入(幻灯片可在https://purl.org/sib-rdf/2019-swat4hcls-tutorials获取)。
- 最新的教程在2023年巴塞尔的SWAT4HCLS会议上涵盖了UniProtKB、Rhea以及SPHN。
- 这些教程间接促进了多个独立SIB资源之间的合作,通过提高它们之间的互操作性来增强其可重用性。
- 此外,提供教程是第10条经验教训的一部分,该教训讨论了如何通过增强互操作性来提升生物信息学知识库的可重用性。
Concluding remarks
Para_22
- 语义网技术在组织生物和生物医学知识方面的日益普及,为表示生命科学各子领域内以及跨领域的日益复杂的相互关系提供了一种方式。
- RDF(由万维网联盟制定的标准)正在学术界、产业界和政府中得到应用。
- 它正处于一场革命的核心,在这场革命中,数据不仅仅是信息的基础,而且是可行动的知识的基础。
- 鉴于数据量和多样性的激增导致数据库和数据存储库数量的增加,这种需求变得尤为迫切。
- 美国国家科学基金会宣布资助创建一个开放式知识网络原型,这一举措既及时又必要。
Para_23
- SIB 努力在生命科学的不同学科间构建一个语义网的数据体系。
- SIB 的资源贡献了高质量的链接数据,覆盖了一系列主题。
- 这些结构化的数据与其他地方的数据相互联结,通过语义查询变得更加有用。
- 当前 SPARQL 接口提供的联邦 SPARQL 查询示例将 11 个 SIB SPARQL 接口中的 6 个相互连接,并向多个外部 SPARQL 接口发送请求。
- 未来的工作将集中于识别和解决项目文档之间的空白或重叠问题,以协作的方式进行。
- 需要共同努力来增加不同数据库中同一概念不同标识符之间的缺失等效性,并加强协调以进一步提高它们的互操作性。
- 这些资源中使用标准化元数据将有助于构建机器可读的 FAIR 数据集目录。
- 最后,将这些数据构建成知识图谱的形式,使它们能够利用人工智能算法进行挖掘,这些算法提供了语义可解释性和可说明性。
- 这些算法包括基于从数据中提取的逻辑规则的推理、基于机器学习潜在关系的归纳推理,以及这些方法的神经符号组合。
- 这些技术构成了强大的手段,用于挖掘、改进和丰富可用的知识,帮助回答复杂的生物学和临床问题。
Data availability
Para_24
- SIB 瑞士生物信息学研究所的 SPARQL 服务免费提供,并列于 https://purl.org/sib-rdf。
本文由mdnice多平台发布
共有 0 条评论