Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PrimeKG : 构建知识图谱以实现精确医疗

PrimeKG : 构建知识图谱以实现精确医疗

作者头像
DrugAI
发布于 2022-06-10 07:23:09
发布于 2022-06-10 07:23:09
1.4K0
举报
文章被收录于专栏:DrugAIDrugAI

编译|黄金朋 审稿|郭梦月

本文介绍了一篇由Payal Chandak、Kexin Huang和Marinka Zitnik三人所著的文章《Building a knowledge graph to enable precision medicine》,文章发表于BioRxiv,他们三人分别来自哈佛麻省理工学院健康科学与技术项目组、斯坦福大学计算机科学系、哈佛大学生物医学信息学系。

他们所提出的模型是PrimeKG,一个面向精准医学的知识图谱,它提供了疾病的整体视图。PrimeKG整合了20个高质量资源,以4050249种关系描述了17080种疾病,这些关系代表了10个主要的生物学尺度,包括疾病相关的蛋白质扰动、生物学过程和途径、解剖学和表型尺度,以及所有已批准和试验性药物及其治疗作用。他们将PrimeKG的图形结构与药物和疾病临床指南的文本描述相结合,以实现多模式分析。

1

研究介绍

本研究旨在将包含疾病信息的原始数据资源整合为一个全面的、疾病丰富的和功能性的知识图谱,但存在三个挑战:(1)现有的疾病网络分析方法需要专家对知识图谱中的数据进行审查和管理,需要大量的人工劳动和昂贵的专家投入,因此很难扩展。(2)缺乏跨生物医学数据集和临床指南的一致疾病表示,医学知识库中精心策划的疾病描述并不遵循任何命名惯例。(3)“独特”疾病的定义在医学和科学上仍然模糊不清。

研究的贡献在于

(1)PrimeKG整合了20个高质量资源,以4050249种关系描述了17080种疾病,这些关系代表了10个主要的生物学尺度,大大扩展之前在基于疾病的知识图谱创建方面的工作。

(2)PrimeKG增加了indications, contradictions 和off-label use这些在其他知识图谱中缺少的边,以支持药物疾病预测。

(3)使用药物和疾病节点的临床指南的文本描述来补充PrimeKG丰富的图形结构,以实现多模态分析。

2

方法(模型)

PrimeKG设计为具有10种类型的节点和30种类型的无向边的异构网络。通过检索并整理图2a所示的资源,以及图2b和2c描述的资源之间的关系和图2d用文本描述扩充了该网络中的药物和疾病节点。

然后他们分几个部分详细介绍了PrimeKG知识图谱的构成过程:

2.1管理主要数据资源

这部分说明选择图2a里20种资源的原因是它们是广泛覆盖生物医学实体的数据集,要么经过专业的注释,要么是广泛使用的标准化本体或者是实验测量的直接读数。

2.2数据资源的标准化和协调

这部分说明了如何将选择的20种资源进行标准化和协调,包括(1)定义节点类型和选择公共本体。(2)协调外部数据资源。(3)解决表型和疾病节点之间的重叠。

2.3构建PrimeKG

他们将统一的原始数据资源合并到一个图中,并提取其最大连通分量,如图2c所示,整合了各种处理过的、精选的数据集,并通过删除Nan和重复边、添加反向边、再次删除重复边和删除自循环来清理图谱。

2.4用临床信息补充药物节点

如图2d所示,他们从DrugBank和Drug Central的知识图中提取了药物节点的文本和数字特征,因为药物是使用DrugBank标识符编码的,因此来自DrugBank的特征直接映射到知识图谱。

2.5用临床信息补充疾病节点

如图2d所示,他们从Mondo Disease Ontology、Orphanet、Mayo Clinic和UMLS中提取知识图中疾病节点的文本特征。

3

数据记录

这部分他们继续详细描述用于构建PrimeKG的20个主要数据资源,篇幅较长,主要是将这些资源的URL列出来,并介绍了一下他们的数据处理手段:如凭借经验筛除、剔除曝光信息、完整引用、只提取部分特征。

4

技术验证(实验结果)

验证PrimeKG的结构和连通性。

4.1 PrimeKG表征

PrimeKG包含129375个节点和8100498条边,其中包含10种类型的节点和30种类型的边,图1展示了图形结构,图1b证明疾病节点与知识图中的其他节点类型紧密相连。疾病特征包括关于疾病流行、症状、病因、危险因素、流行病学、临床描述、管理和治疗、并发症、预防和何时就诊的信息。药物特征包括化合物的分子量信息、适应症、作用机制、药效学、蛋白结合事件和途径信息等。这种描述整个药物和疾病范围的广泛临床信息是PrimeKG的独特特征,使PrimeKG在其同行知识图谱中脱颖而出。图1c提供了在这些表征中可用的支持信息的示例。

表1和表2提供了按节点类型划分的节点数和按边类型划分的边数。

表3和表4展示了可用于药物和疾病节点的功能数量的统计信息。

4.2 PrimeKG与孤独症临床表现相关性的个案研究

他们通过对自闭症谱系障碍进行个案研究,分析PrimeKG的疾病表征是否与其临床表现密切相关,分为两个步骤进行:(1)通过在所有相关的原始数据资源中执行自闭症概念的实体解析。(2)通过检查这些自闭症概念与自闭症临床亚 型之间的关系。他们从探索PrimeKG中的自闭症疾病节点是否调和了数据库和本体中自闭症概念的差异开始。如图3所示,Mondo疾病本体论有37个与自闭症相关的疾病概念,而UMLS有192 个与自闭症相关的概念,Orphanet有6个与孤独症相关的概念。他们通过使用Mondo疾病本体定义所有节点并将所有其他词汇映射到Mondo中的疾病来克服以上概念是如何相互关联,如图3a所示。最后,在使用Mondo疾病概念作为PrimeKG中的疾病节点之前,他们需要评估Mondo中的自闭症疾病概念是否与自闭症的临床亚型相关。孤独症表现为三个临床亚组,导致Mondo中的疾病节点与孤独症的临床表现并不一一对应,他们开发了一种策略,将Mondo中的疾病分组到PrimeKG中的医学相关和一致的节点中,继续描述和评估该策略。

4.3 疾病节点分组的计算方法

自闭症案例研究所示,Mondo中的疾病概念可能与医学亚型没有很好的相关性。因为Mondo包含许多没有明确临床相关性的重复疾病实体,因此他们将Mondo中的疾病分组为医学相关实体,他们采用了一种半自动的无监督方法来对PrimeKG中的疾病概念进行分组、使用跨疾病名称的字符串匹配策略来识别疾病组、通过探索疾病名称之间的单词嵌入相似性,进一步加强了使用字符串匹配识别 的分组,如图3b所示。

最终Mondo中的22205个疾病概念被分解为17080个分组疾病,这导致疾病和更多临床相关疾病节点的平均边缘密度更高。我们预计PrimeKG是一个更强大的数据集,因为疾病表征是集中和稳健的,这反过来可以使从PrimeKG收集的生物学见解具有医学相关性。

5

结论

PrimeKG在更深的生物学水平上描述了药物特征,在更深的临床水平上描述了疾病特征,具有巨大的潜力。PrimeKG可以与机器学习配对发现新的疾病生物标志物,描述疾病过程,完善疾病分类,识别表型特征,预测生物机制,并重新利用药物。随着机器学习功能的实现,预计PrimeKG和类似的知识图谱将成为推进精准医疗的关键工具。

参考资料

https://www.biorxiv.org/content/10.1101/2022.05.01.489928v1

代码

https://github.com/mims-harvard/PrimeKG

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
知识图谱增强的KG-RAG框架
昨天我们聊到KG在RAG中如何发挥作用,今天我们来看一个具体的例子。 我们找到一篇论文: https://arxiv.org/abs/2311.17330 ,论文的研究人员开发了一种名为知识图谱增强的提示生成(KG-RAG)框架(https://github.com/BaranziniLab/KG_RAG),该框架利用生物医学知识图谱SPOKE与大型语言模型相结合,有效的提升了LLM在医疗领域的问答效果。
JadePeng
2024/04/12
1.6K0
知识图谱增强的KG-RAG框架
BP综述:自闭症中基于功能连接体的预测模型
自闭症是一种异质性的神经发育疾病,基于功能磁共振成像的研究有助于推进我们对其对大脑网络活动影响的理解。我们回顾了使用功能连接和症状的测量的预测建模如何帮助揭示对这种情况的关键见解。我们讨论了不同的预测框架如何进一步加深我们对复杂自闭症症状学基础的基于大脑特征的理解,并考虑预测模型如何在临床环境中使用。在整个研究过程中,我们强调了研究解释的一些方面,如数据衰减和抽样偏差,这些都需要在这种情况下进行考虑。最后,我们提出了自闭症预测建模令人兴奋的未来方向。
悦影科技
2022/12/07
6110
Bioinformatics|基于知识图谱嵌入的药物靶标发现
药物靶点的预测对于早期药物分子的成药性评价和老药新用等领域都具有重大意义,但由于通量、精度和费用的限制,实验手段的应用难以广泛开展。作为一类快速而低成本的方法,基于人工智能的药物-靶标预测算法正受到越来越多的重视。
DrugAI
2021/01/29
1.5K0
Bioinformatics|基于知识图谱嵌入的药物靶标发现
KGML-xDTD:基于知识图谱的药物治疗预测和机制描述机器学习框架
今天我想给大家介绍的论文是《KGML-xDTD: A Knowledge Graph-based Machine Learning Framework for Drug Treatment Prediction and Mechanism Description》,是一个基于知识图谱的机器学习框架,用于药物再利用预测和作用机制解释。
DrugAI
2025/03/24
1470
KGML-xDTD:基于知识图谱的药物治疗预测和机制描述机器学习框架
对知识推理的认识的相关论文
面向知识图谱的知识推理旨在基于已有的知识图谱事实,推理新的事实或识别错误知识。例如,在DBpedia 中已知三元组(X,birthPlace,Y),可以在很大程度上推理出缺失的三元组(X,nationality,Y)。
全栈程序员站长
2022/09/06
4550
对知识推理的认识的相关论文
GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
今天看到这样一篇文章,文章的标题是【关于AI技术的思考,是 提高 or 降低 | 开发者的职业天花板】,文章的链接:https://cloud.tencent.com/developer/article/2466467 文章很有作者个人的思考,有些见解比较独到,让我深有所思。
zhouzhou的奇妙编程
2024/12/09
2.3K3
再添近10个新冠知识图谱,OpenKG发布第二批开放数据集
2020年2月11日,世界卫生组织宣布了新型冠状病毒肺炎官方正式命名为 COVID-19,21日国家卫健委决定与世界卫生组织保持一致,中文名称不变。随着关于新型冠状病毒病毒疫情的不断发展,有关疫情的各类信息也在不断更新。OpenKG 紧随疫情发展,继续发布新领域的新冠知识图谱,同时对已经发布的图谱进行持续不断的更新。
AI科技大本营
2020/03/03
1.8K0
Drug Discov Today|用生物医学知识图谱阐释药物的临床结果路径
2022年2月16日,美国北卡罗来纳大学Eshelman药学院的Alexander Tropshab等人在Drug Discov Today杂志发表文章,提出了临床结果路径 (COP) 的概念,将其定义为有关药物分子治疗效果的一系列关键的分子和细胞事件。COP可以通过挖掘生物医学知识图谱进行计算阐释,这为产生新的、有指导意义的药物发现和再利用的假设铺平道路。
智药邦
2022/04/13
8270
Drug Discov Today|用生物医学知识图谱阐释药物的临床结果路径
中医与人工智能-基于Protégé构建知识图谱
本文为系列长文,为便于读者单独阅读每篇博客都对整体项目有个大致理解,每个文章前都大致介绍下完整流程,包括数据集的介绍,数据处理,以及本篇博客相关的内容。
IT从业者张某某
2022/11/12
1.5K0
中医与人工智能-基于Protégé构建知识图谱
知识图谱嵌入在医疗领域的应用
在医疗领域中,海量的医疗数据充斥着各种疾病、治疗方案、药物使用、临床诊断等丰富的信息。这些数据通常以非结构化形式存在于病历、影像、实验室报告等文档中。因此,如何有效地挖掘这些数据并进行推理是医学领域的一个重要研究方向。知识图谱作为一种能展示实体及其间关系的结构化图模型,在医疗领域的应用逐渐成为趋势。知识图谱嵌入技术(Knowledge Graph Embeddings,KGE)旨在将图中实体和关系编码为低维向量,允许我们使用向量空间中的计算来推断出实体之间的隐藏关系。
数字扫地僧
2024/10/06
3760
知识图谱嵌入在医疗领域的应用
脑科学研究的三大发展方向
2005 年 7 月,Science 杂志为庆祝创刊125 周年,邀请全球几百位科学家讨论当今世界最重要的前沿科学问题,最终归纳出“125 个科学问题”,其中18 个问题属于脑科学。排在最前面的脑科学问题包括意识的生物学基础、记忆的储存与恢复、人类的合作行为、成瘾的生物学基础、精神分裂症的原因、引发孤独症(自闭症)的原因,这些都是人们关心且未被解决的重大问题。尽管该“125 个科学问题”是10 多年前总结的,但现在公认的重大脑科学问题依旧未变。
脑机接口社区
2020/06/30
2.2K0
脑科学研究的三大发展方向
319篇文献、41页综述文章讲述图神经网络用于医疗诊断的前世今生与未来
ScienceAI编译 编辑:文龙 本文介绍图神经网络(GNN)用于医疗诊断和分析的一篇综述文章《Graph-Based Deep Learning for Medical Diagnosis and Analysis: Past, Present and Future》。 随着数据驱动的机器学习研究的进步,探索如何利用机器学习来分析医疗数据变得至关重要。现有方法的一个主要限制是人体生理信息的数据结构通常是不规则的和无序的,很难将这些数据网格化为易于分析处理的格式。而图表神经网络通过边连接交互节点,并可以将
机器之心
2023/03/29
2K0
319篇文献、41页综述文章讲述图神经网络用于医疗诊断的前世今生与未来
BRAIN:静息态脑电图揭示了肌萎缩性脊髓侧索硬化症的四种亚型
肌萎缩性脊髓侧索硬化症(ALS)是一种以运动系统退化为主要特征的疾病,临床证据表明,多达50%的病例出现认知和行为改变。ALS在临床上和生物学上都是异质性(一种遗传性状可以由多个不同的遗传物质改变所引起)的。目前使用临床参数进行亚分组,如症状出现的部位(延髓或脊柱)、疾病负担和家族性疾病患者的基因组学。然而,除基因组学外,这些亚分类没有考虑潜在的疾病病理生物学,不能完全预测疾病的病程或预后。
用户1279583
2022/02/28
7740
BRAIN:静息态脑电图揭示了肌萎缩性脊髓侧索硬化症的四种亚型
Nat. Med. | 治疗罕见疾病,哈佛医学院提出TxGNN用于药物再利用
今天为大家介绍的是来自哈佛医学院的Marinka Zitnik团队的一篇论文。药物再利用,即为已批准的药物寻找新的治疗用途,通常是一项偶然且机会主义的努力,旨在扩展药物在新疾病中的应用。药物再利用人工智能模型的临床效用仍然有限,因为这些模型过于集中于已有药物的疾病。在此,作者提出了TxGNN,一种用于零样本药物再利用的图基础模型,它能够识别出针对治疗选择有限或无现有药物的疾病的治疗候选药物。TxGNN基于医学知识图进行训练,利用图神经网络和度量学习模块,对17,080种疾病的潜在适应症和禁忌症药物进行排名。在与8种方法的基准测试中,TxGNN在严格的零样本评估下,将适应症的预测准确性提高了49.2%,禁忌症的准确性提高了35.1%。为了便于模型解释,TxGNN的解释器模块提供了透明的多跳医学知识路径,作为TxGNN预测依据的解释。对TxGNN解释器的人工评估显示,TxGNN的预测和解释在多种表现维度上,尤其在准确性之外的维度上,表现令人鼓舞。许多TxGNN的新预测与医生在大型医疗系统中此前做出的适应症外用处方高度一致。TxGNN的药物再利用预测准确、一致,并且可以通过多跳可解释的推理路径供人类专家进行研究。
DrugAI
2024/11/23
2360
Nat. Med. | 治疗罕见疾病,哈佛医学院提出TxGNN用于药物再利用
探索「老药新用」最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG
自 2019 年 12 月至今,新型冠状病毒在全球迅速扩散已导致近 760 万人感染,40 余万人死亡。目前急需快速有效的新冠病毒有效药物的发现路径。药物重定位是一种将现有药物用于治疗新的适应症的药物发现方式。相比较传统的新药开发,它可以有效缩短药物研发周期,降低成本,规避风险,是一种非常有前景的新冠肺炎治疗策略。
机器之心
2020/06/16
1K0
探索「老药新用」最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG
Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码
生信菜鸟团
2025/01/16
4500
Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码
Google的医疗野心
Google, 这家市值千亿美金的互联网巨头,似乎对生物医疗领域有格外偏好,通过旗下的风投Google Ventures,在生命科学、健康和医疗领域里表现的相当活跃。本文对Google的投资案例进行了盘点: 基因测试的先驱:23andme 23andMe是一个为客户提供完全个人化DNA测试服务的公司,客户只需邮寄一份自己的唾液样本并支付99美元,即可进行DNA测试。测试结果在4-6周之后出来,客户可以通过在线的方式查看。最后生成的测试报告涉及250 多项与健康相关的特点,甚至还包含家谱、病史、遗传性状、对
大数据文摘
2018/05/22
7060
Bioinformatics丨SumGNN:基于高效知识图总结的多类型药物相互作用预测
今天为大家介绍的是剑桥大学CaoXiao等人发表在Bioinformatics上的文章“SumGNN: 基于高效知识图总结的多类型药物相互作用预测”。由于药物-药物相互作用(DDI)数据集和大型生物医学知识图(KGs)的不断增加,使用机器学习模型准确检测不良的DDI成为可能。然而,如何有效地利用生物医学大噪声KGs进行DDI检测仍是一个有待解决的问题。此外,以往的研究多集中于二值DDI预测,而多型DDI的药理作用预测更有意义,但任务更艰巨。为了填补空白,作者提出了一种新的方法SumGNN: 知识摘要图神经网络。这个网络是通过子图提取模块实现的,该子图提取模块可以有效地锚定KG中的相关子图,从而在子图中生成推理路径,以及多通道知识和数据集成模块,该模块利用大量外部生物医学知识,显著改善了多类型DDI的预测。SumGNN比最佳模型的性能高出5.54%,在低数据关系类型中性能提高尤其显著。此外,SumGNN通过为每个预测生成的推理路径提供可解释的预测。
智能生信
2021/07/22
8580
Nat. Biotechnol.| BioCypher推动生物医学知识表征大一统
今天我们介绍由海德堡大学医学院的Sebastian Lobentanzer等学者发表在Nature Biotechnology上的工作。在所有研究人员之中,标准化的生物医学知识表征是一项难以克服的任务,它阻碍了许多计算方法的有效性。为了促进知识表征的协调和互操作性,该工作将知识图谱创建的框架标准化。本文提出的BioCypher实现了这一标准化,这是一个FAIR(可查找、可访问、可互操作、可重用)框架,可以透明地构建生物医学知识图谱,同时保留源数据的来源。将知识映射到生物医学本体有助于平衡协调、人类和机器可读性以及对非专业研究人员的易用性和可访问性的需求。本文展示了该框架在各种用例中的有用性,从维护特定于任务的知识存储,到生物医学领域之间的互操作性,再到为联邦学习按需构建特定于任务的知识图。
DrugAI
2023/09/19
3610
Nat. Biotechnol.| BioCypher推动生物医学知识表征大一统
DRKG | 大规模药物重定位知识图谱
自2019年12月起,新型冠状病毒迅速在全球扩散,急需快速地发现有效药物。药物重定位是一种将现有药物用于治疗新的适应症的药物发现方式,相对于传统的新药研发,它可以有效缩短药物研发周期,降低成本,规避风险。因此药物重定位是一种非常有前景的新冠肺炎治疗策略。
DrugAI
2021/02/01
3.8K0
DRKG | 大规模药物重定位知识图谱
推荐阅读
相关推荐
知识图谱增强的KG-RAG框架
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档