NAFLDkb: 基于知识图谱的非酒精性脂肪肝药物研发平台


  榴莲忘返 2014  

编辑:Student Zero

导读

NAFLDkb:非酒精性脂肪肝病药物开发平台

NAFLDkb 是一个针对非酒精性脂肪肝病(NAFLD)药物开发的知识库和平台,其综合多角度信息,旨在推动新药物的发现和研究进程。

非酒精性脂肪肝病(NAFLD)是一种普遍的慢性肝病,表现形式多样。由于 NAFLD 的发病率持续攀升,其复杂的病理机制为药物研发带来了显著挑战。尽管已有众多努力,但迄今为止尚未有药物获得 FDA 批准。

NAFLDkb 致力于针对 NAFLD 的计算机辅助药物设计,它融合了来自各种来源的信息,构建了一个药物相关实体的知识图谱。该平台的网页界面提供了包括化学结构搜索、药物类似性筛选、基于知识的药物重定位和研究文章注释等多项实用工具。

此外,文章中还展示了基于知识图谱重定位模型和生成神经网络模型的案例研究。在这些研究中,研究者发现了三种重定位药物候选品和 137 种新的类似先导化合物,这些成果是通过利用 NAFLDkb 中的数据和机器学习工具得到的。这些成果不仅展示了 NAFLDkb 在识别新的药物-疾病关联方面的临床可靠性,也彰显了其在加速 NAFLD 药物开发方面的巨大潜力。NAFLDkb 的网址为: https://www.biosino.org/nafldkb,平台将定期更新最新的研究成果。

方法

数据源收集

研究文章和临床试验作为核心数据来源

为建立健全的 NAFLD 数据库,广泛收集了研究文章和临床试验资料。从 1970 至 2022 年的相关文章,通过 PubMed 以特定搜索词汇获取,涉及的数据包括标题、摘要和出版类型,以供进一步分析。

全球临床试验:全面概述

截至 2022 年 4 月的临床试验数据,从各国际平台获取,包括世卫组织、欧盟,以及伊朗、中国、印度和日本的登记处。为确保数据集的独特性和可靠性,进行了去重处理。

知识提取与整合

调查性药物及其属性

临床试验的数据提供了 NAFLD 调查药物的洞见。这包括了从 DrugBank、AdisInsight 和各个试验报告中提取的关于药物靶点、作用机制和治疗类别的详细信息。

研究文章洞察:从发病机制到治疗策略

这些文章为 NAFLD 相关的治疗、靶点、相关疾病和模型提供了宝贵信息。京都基因和基因组百科全书以及 UniProt 等数据库在收集这些信息中起了关键作用。

候选药物库建设

重新定位和药物样候选物

构建了一个候选药物库,将 DrugBank 中的药物分类为四种与 NAFLD 相关的类型。此外,策划了一个药物样候选物的筛选库,包括生物活性化合物和天然产品,以探索 NAFLD 药物开发的新途径。

数据记录验证:确保准确性

克服数据收集挑战

在收集研究文章时使用的关键词有时会导致无关数据,这些数据被仔细剔除。使用 RDKit 等工具,彻底审查和验证了数据记录,以维护信息的完整性。

网络界面实施与数据可视化

技术在数据传播中的作用

通过 Django 和 SQLite 开发的用户友好型网络界面,使 NAFLDkb 数据库易于获取。使用 Highcharts 等工具创建的交互式图表和知识图谱,促进了复杂数据的可视化。

主要结果及图表

非酒精性脂肪性肝病(NAFLD)药物开发知识库

NAFLDkb 是一项旨在加快非酒精性脂肪性肝病药物研究与发现的综合性药物开发知识库。

  • 📚 该数据库汇集了广泛的研究数据和临床试验信息,包括多种药物、治疗策略和靶点。
  • 💡 它支持利用工具和模型进行药物重定位和新药发现的研究。
  • 🌐 网站界面提供简便的搜索功能和全面的数据访问。

NAFLDkb 包含 40,433 篇研究论文和 1,001 项临床试验资料,为 NAFLD 药物开发提供丰富的候选药物库。数据库还收录了 581 种调查药物、17 种治疗策略、45 个治疗靶点。所有数据均在其网站上免费提供,并定期更新最新发现。

NAFLDkb 的特色在于其多样的治疗策略和丰富的治疗靶点,网站的不同界面进行了展示。例如,它总结了病理机制,指出高脂饮食、脂肪组织和脂质积累是关键因素。研究中常提及的 NAFLD 并发症包括糖尿病、高血压和血脂异常。

网站界面提供全文搜索功能,可按类别显示搜索结果。用户可利用过滤器浏览特定数据子集。此外,还提供了基于化学结构的搜索、药物筛选工具、基于知识的药物重定位和研究文章注释工具。

两个案例研究展示了 NAFLDkb 在药物重定位和新分子生成方面的应用潜力。第一个案例利用 NAFLDkb 的知识图谱构建了药物重定位模型,第二个案例则采用生成神经网络和 NAFLDkb 知识图谱生成新分子。这些案例展现了 NAFLDkb 在临床相关性和化学可靠性方面的优势,并鼓励用户利用 NAFLDkb 的资源,开发更复杂的机器学习模型,探索更有效的 NAFLD 药物发现途径。

图表 1: 探索 NAFLDkb——针对非酒精性脂肪肝病(NAFLD)的独特知识库

图表 2: NAFLDkb 知识库的构建过程

图表 3: NAFLDkb 数据内容一览

  • (A) 治疗方案概述
  • (B) 目标治疗机制分析
  • (C) 药物分类详解
  • (D) 临床试验阶段细节
  • (E) NAFLDkb 中药物重定位的标准说明
  • (F) 展示 NAFLD 研究中常见词汇的词云图
  • (G) 关于 NAFLD 相关疾病的词云图
  • (H) NAFLDkb 收录的生物活性化合物的量化估计和 Lipinski“五规则”分布
  • (I) NAFLDkb 中天然产品的相关数据展示

图表 4: NAFLDkb 的用户界面和实用功能

  • (A) NAFLDkb 主页展示
  • (B) 数据浏览和筛选功能:药物研究实例
  • (C) 知识图谱应用:以 Saroglitazar 为例
  • (D) 化学结构搜索功能:相似性搜索示例
  • (E) 药物类似性筛选功能:挑选与 NAFLD 相关目标关联的药物样本
  • (F) 基于知识的药物重定位功能:针对 T2DM、PPAR-γ 和抗炎特性的药物搜索

图表 5: 利用 NAFLDkb 进行药物重定位的实践案例

  • (A) 26.5%的 NAFLD 研究药物属于重定位药物
  • (B) NAFLD 治疗策略的知识图谱:关注抗炎方向
  • (C) NAFLD 治疗目标的知识图谱:以 PPAR-γ 为核心
  • (D) 与 NAFLD 相关的疾病知识图谱:聚焦 T2DM
  • (E) NAFLD 药物重定位模型的知识图谱:针对 T2DM、PPAR-γ 和炎症的药物
  • (F) Icosapent 作为 NAFLD 新药候选的知识图谱

图表 6: NAFLD 中新型分子生成的案例研究

  • (A) 分子生成流程:从候选样本库中选取样本集,利用 SMILES 枚举器增强数据后用于训练生成模型。随后,从 1000 批次采样中选取样本,构建包含 137 种新领先类似化合物的最终

结果集

  • (B) 分子生成模型的训练效果展示
  • (C) 模型生成的分子有效 SMILES 分布情况
  • (D) 新领先类似化合物与已知药物(例如 Pioglitazone、Lanifibranor 和 Saroglitazar)的相似性比较
  • (E) 新领先类似化合物的独特结构框架
  • (F) 结果化合物 45 号与 PPAR-γ 受体结合的示例,展示最佳模型亲和力-9.92 kcal/mol

NAFLD 药物发展的数据驱动方法

利用数据分析与模型训练,开拓了 NAFLD 药物研发的新途径。

  • 📊 文章数据提取:筛选研究论文中的标题、摘要、关键词等信息,聚焦于人类及广泛使用的动物模型。
  • 🧬 基因表达分析:从 GEO 数据库获取 NAFLD 相关的基因表达数据,识别差异表达基因,并应用 CLUE 软件进行数据分析。
  • 💊 药物候选化合物筛选:以现有药物为基准,构建针对 NAFLD 的新型药物候选物库。
  • 🤖 分子生成模型训练:通过调优参数训练模型,创造出具有药物潜力的独特分子。

首先,作者收集并分析了关于 NAFLD 的研究论文数据,关注点包括人类及其他广泛使用的生物模型,例如小鼠。通过 GEO 数据库,研究者获取了两套公开的 NAFLD 基因表达谱(GSE126848 和 GSE135251),用于鉴定差异表达基因(DEGs)。这些 DEGs 数据随后被导入 CLUE 软件中,计算出每个 CMap 候选物的连通性分数和其统计显著性。

紧接着,为深入挖掘 NAFLD 药物候选物的化学潜力,研究者构建了一个全新的分子生成模型。基于此,选择了三种具有前景的 PPAR 激动剂(Pioglitazone、Lanifibranor 和 Saroglitazar)作为参考药物。依托这些药物,研究者从候选物库中挑选了 9 种重定向候选物和 18 种具生物活性的化合物作为实验数据集。

最终,该模型在数据集上经过优化参数训练,当损失值降至 0.22 时提前终止训练。研究者对 10 万个 SMILES 字符串样本进行采样,用于分子生成,并基于结构验证、分子独特性、合成可行性及药物特性(与参考药物的二维药效团相似度)对生成的 SMILES 字符串进行筛选。此外,还对结果进行了筛选,排除了样本数据集和 NAFLDkb 中已有的分子,以确保生成化合物的新颖性。

讨论

NAFLDkb 融合了众多数据,为非酒精性脂肪肝病(NAFLD)药物研发开辟了新视野。

作为一个知识库和平台,NAFLDkb 整合了涉及药物-靶标、药物-策略、药物-临床试验、药物-基因表达以及药物间相互作用等多个方面的数据。通过个性化知识图谱的展示,NAFLDkb 成为首个专注于 NAFLD 药物研究的全面计算辅助设计资源。鉴于 NAFLD 与多种非肝脏疾病,尤其是肝外癌症风险的增加相关,NAFLDkb 还提供了更广泛的背景下的见解。

为展示 NAFLDkb 的显著应用潜力,本研究提供了两个案例研究,扩展了 NAFLD 药物设计的候选库。这些基于知识的应用虽需进一步验证,但为这一长期研究提供了宝贵见解。此外,NAFLDkb 网站提供了逐步教程,以方便使用。

面向广泛的研究社区,NAFLDkb 未来将整合公共资源中的药物相关组学数据,包括药物组学、蛋白质组学、转录组学、代谢组学和动力学等,并提供基于网络的分析工具。同时,将结合 NAFLD 药物开发的最新发现。基于 NAFLD 全面知识图谱的虚拟筛选、药物重定位和分子生成等深入工具也在开发中。

缺点:

  • 对限制和挑战讨论不足:
    • 论文没有充分讨论使用 NAFLDkb 相关的限制和潜在挑战,如数据偏差或不准确性。
    • NAFLD 发病机理的复杂性和不断发展的特性要求知识库持续更新和验证,这在论文中未得到充分讨论。

改进建议

  • 讨论限制和挑战:
    • 讨论当前版本 NAFLDkb 的限制,包括数据中可能存在的偏差和不准确性,并概述解决这些问题的策略。
    • 提供未来更新和改进的路线图,确保平台保持相关性和准确性。

参考资料:

  • Xu, T., Gao, W., Zhu, L., Chen, W., Niu, C., Yin, W., Ma, L., Zhu, X., Ling, Y., Gao, S., Liu, L., Jiao, N., Chen, W., Zhang, G., Zhu, R., & Wu, D. (2023). NAFLDkb: A Knowledge Base and Platform for Drug Development against Nonalcoholic Fatty Liver Disease. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.3c00395

  • Website: https://www.biosino.org/nafldkb

  • Code:  https://github.com/tjcadd2020/NAFLDkb

  • 文献下载(复制链接到外部浏览器打开): https://is.gd/cm0y7e

译者 | 柠檬青年
策划 | Student Zero
来源 | 榴莲忘返 2014版权 | 文中所述观点仅代表作者本人观点,不代表本平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系本平台编辑 (请添加微信号 jixing26)进行删改处理。原创内容未经授权,禁止转载至其他平台。有问题可发邮件至: [email protected]

— 完 —

点击这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

每天进步一点点 ~ 

版权声明:
作者:Zad
链接:https://www.techfm.club/p/89514.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>