Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >知识图普嵌入技术的极简教程:KGE以及如何计算它们

知识图普嵌入技术的极简教程:KGE以及如何计算它们

作者头像
数据派THU
发布于 2022-03-04 03:08:12
发布于 2022-03-04 03:08:12
1.2K00
代码可运行
举报
文章被收录于专栏:数据派THU数据派THU
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
来源:DeepHub IMBA本文约2200字,建议阅读5分钟推荐系统是KEG应用的一个重要领域。

图是我最喜欢使用的数据结构之一,它们可以使我们能够表示复杂的现实世界网络,如快速交通系统(例如,公交道路、地铁等)、区域或全球空中交通,或者人们的社交网络之类的相关事物。并且他们非常灵活,很容易被人类理解,但是为了让计算机“理解”和“学习”它们,我们需要额外的一步(称为矢量化)。这种解释可能过于简单,我们将在本文的后续部分详细解释。

知识图谱有何特别之处?

为了轻松理解知识图与其他图的不同之处,我们想象一个具有不同级别的游戏,随着游戏的深入,每个级别都会变得困难。

Level 1:可以是一个简单的无向图,比如大学里的朋友群,朋友是节点,朋友之间的关系是边。这里我们只有节点和边,没有什么太花哨的。

Level 2:在上一层的基础上增加一层信息,比如方向,这样我们就得到有向图。一个简单的例子是城市范围的公交网络。将公共汽车站视为节点,将公共汽车的路线视为边,每辆公共汽车都以特定的方向从一个站点移动到另一个站点,这就是增加了方向信息。

Level 3:我们采用有向图并向节点和边添加多种属性。想象一下互联网上的社交网络,节点上的属性是用户所基于的社交网络类型。例如,它可以是 Twitter、Facebook 或 YouTube。边的属性可以是不同用户之间的交互类型,即关注(在 Twitter 的情况下)、朋友或关注(在 Facebook 的情况下)和订阅(在 YouTube 的情况下)。图的有向性在这里开始发挥作用,因为上面这些属性只能是单向的(相互关注就是有两条边)。例如,你可以关注 Elon Musk,但他可能不会在 Twitter 上关注你,这就是有一条向的边。

Level 4:上一级中的图中,不使用节点和边,而是使用三元组进行表示:三元组是知识图谱的构建块,它是由 3 个元素组成的元组,即:源节点(头)、关系和目标节点(尾)。

这就是我们所说的知识图谱了,源节点和目标节点有时也被称为实体。

“知识图谱”一词的使用有点含糊,因为知识图谱没有固定的定义,从广义上讲可以将任何包含一些知识/重要信息的相当大的图称为知识图谱。这里的关键点是我们将三元组作为知识图谱的基本组成部分。

知识图谱嵌入方法

因为向量化或嵌入(实体的数字表示和图之间的关系表示)对于使用图作为机器学习算法的输入是必要的。我们对知识图谱的处理方式与其他机器学习模型不同,所以我们需要不同的技术来学习它们的数值表示(或嵌入)。生成知识图嵌入 (KGE) 的方法有多种,我们可以大致分为 3 个部分:

1、基于翻译的方法:

使用基于距离的函数(在欧几里得空间中)用于生成嵌入。我们可以建立一个简单的算法使头向量和关系向量的组合等于尾向量。它可以表示为 h + r ≈ t。这种算法称为 TransE。相同算法还有其他版本,但对它的修改很少。一些示例包括 TransH、TransR、TransD、TransSparse 和 TransM。

2、基于分解的方法:

这是基于张量分解的想法,使用这种技术提出的初始算法是 RESCAL。三向张量以 n x n x m 的形式定义,其中 n 是实体的数量,m 是关系的数量。张量保持值 1 表示实体之间存在关系, 0表示不存在则。

通过分解这个张量来计算嵌入。但是对于大型图这通常在计算上非常的费时所以出现了很多基于 RESCAL 理念的 DistMult、HolE、ComplEx 和 QuatE 等算法优化解决计算量问题。

3、基于神经网络的方法:

神经网络现在在许多领域都很流行,它们被用于查找KGE也就是很正常的事情了。Semantic Matching Energy它定义了一个能量(energy )函数,用于通过使用神经网络为三元组分配一个值。神经张量网络(Neural Tensor Network)使用能量函数,但它用双线性张量层代替了神经网络的标准线性层。

像 ConvE 这样的卷积神经网络以“图像”的形式重塑实体和关系的数值表示,然后应用卷积滤波器提取特征,从而学习最终的嵌入。我们还可以找到受 GAN 启发的模型(例如 KBGAN)和基于 Transformer 的模型(例如 HittER)来计算KGE。

为了实现这些算法,我们有多个 python 库,例如:

  • LibKGE
  • PyKEEN
  • GraphVite
  • AmpliGraph

KGE 算法的结构

有一些共同的基本思想来构建一个算法来计算KGE。下面列出了其中一些想法:

Negative Generation:

这是在知识图中生成否定或损坏的三元组的概念。负三元组是不属于原始图的三元组。这些可以随机生成,也可以使用伯努利负采样等策略生成。

Scoring Function:

它是一个包装三元组的函数,它输出一个值或一个分数。如果分数高,那么三元组是有效的,如果分数低,那么它是一个负三元组。评分函数是构建 KGE 算法的重要部分之一。

Loss Function:

由于算法是根据优化问题建模的,因此我们在训练过程中使用了损失函数。这个损失函数使用正负三元组的分数来计算损失。我们的目标是尽量减少损失,减少损失的过程肯定也少不了优化器。

一般情况下损失函数包括——Cross entropy loss, Pairwise margin-based hinge loss等。

生成嵌入后的下一步是什么?

学习 KGE 算法并应用它们来查找嵌入是很有趣的。现在,下一步是什么?嵌入的用途是什么?

有一些图下游任务可以应用于知识图谱,例如:

知识图谱补全:

这也称为链接预测,我们的目标是预测知识图中缺失的关系或潜在的可能关系。它也可以称为知识图谱增强。这项任务归结为找到一个可以最好地表示为具有给定的关系和一个实体的事实。简单地说,任务是猜测 (?, r, t) 或 (h, r, ?) 中的缺失部分,也可以分别称为头部预测或尾部预测。我们使用基于等级的评估技术来查找我们的知识图嵌入的性能。

三元组分类:

这是一个识别给定三元组是否有效的问题,即它是正三元组还是负三元组。此任务的输出只有是或否。使用评分函数并设置阈值以将正三元组与负三元组分开。通俗的讲就是一个二元分类的问题。

推荐系统是KEG应用的一个重要领域。嵌入的质量对于上述任务的性能和准确性很重要。这些任务的结果告诉我们是否能够生成高质量的嵌入。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​基于RotatE模型的知识图谱嵌入技术
知识图谱(Knowledge Graph, KG)是一种以图结构形式表示的知识库,通常用于表示实体(如人、地点、物品)及其之间的关系。知识图谱的应用遍及搜索引擎、推荐系统、问答系统等多个领域。随着大数据技术的发展,知识图谱的规模迅速扩大,导致传统的知识表示方法面临挑战。
二一年冬末
2024/09/28
4920
​基于RotatE模型的知识图谱嵌入技术
综述 | 知识图谱技术综述(上)
知识图谱技术是人工智能技术的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值。
zenRRan
2019/12/27
2.8K0
综述 | 知识图谱技术综述(上)
最新《知识图谱:机遇与挑战》综述,详述知识图谱最新进展
随着人工智能和大数据的爆炸式增长,如何合理地组织和表示海量的知识变得至关重要。知识图谱作为图数据,可以用来积累和传递现实世界的知识。知识图谱可以有效地表示复杂信息,因此,近年来迅速受到学术界和工业界的关注。为了加深对知识图谱的理解,本文对该领域进行了系统综述。
一点人工一点智能
2023/03/29
5.3K0
最新《知识图谱:机遇与挑战》综述,详述知识图谱最新进展
知识图谱中的结构信息建模
全球最具权威的IT研究与顾问咨询公司高德纳发布了2020年AI领域技术成熟度曲线,其中知识图谱的期待值处在AI领域的顶峰,还有5到10年的发展机会达到平稳期,也就是大规模商用。知识图谱这个概念是在2012年谷歌知识图谱的提出而火起来的,追根溯源,知识图谱的前身是语义网络。通俗地说,知识图谱将无序分散的信息,以图的方式整合成知识。
里克贝斯
2021/06/21
1.3K0
知识图谱中的结构信息建模
知识图谱「世界杯」榜单揭晓,度小满TranS算法刷新世界纪录
---- 新智元报道   编辑:好困 【新智元导读】知识图谱竞赛的世界纪录,又被中国团队刷新了! 近日,素有知识图谱「世界杯」之称的OGBL-wikikg2的比赛结果公布了。 度小满AI-Lab团队强势夺冠,碾压Meta AI实验室FAIR、蒙特利尔Mila实验室等一众国内外顶级AI科研机构,创造了KGE算法新纪录。 地址:https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2 OGB是斯坦福大学发布的国际知识图谱基准数据集,也是图神经
新智元
2022/04/25
4740
知识图谱「世界杯」榜单揭晓,度小满TranS算法刷新世界纪录
知识图谱综述论文阅读
论文为A Survey on Knowledge Graphs: Representation, Acquisition and Applications,发表日期2020年,论文PDF,点击链接。
里克贝斯
2021/05/21
9600
知识图谱综述论文阅读
中科大王杰教授:基于表示学习的知识图谱推理技术
作者 | 维克多 编辑 | 青暮知识图谱蕴含丰富的人类先验知识,具有重要的学术价值和广泛的应用前景。知识图谱推理作为知识图谱领域的核心技术,能够极大地扩展现有知识的边界,有力地辅助人类进行智能决策。2021年12月17日,中国科学技术大学教授,博士生导师,国家优青王杰在 CNCC 2021 “知识为意,图谱为形--基于图机器学习的知识推理”专题论坛上做了《基于表示学习的知识图谱推理技术——从简单推理到复杂推理》的报告。在报告中,王杰结合知识图谱近年来的研究趋势与应用场景,聚焦从单一图谱推理到联合外部信息推理
AI科技评论
2022/03/03
1.2K0
知识图谱嵌入与图神经网络的深度融合
在过去的十年里,知识图谱(Knowledge Graph, KG)作为结构化的知识表示方式,已经在多个领域得到了广泛应用。它通过图结构来表达实体之间的关系,使得计算机能够理解和推理复杂的语义关系。然而,随着知识图谱规模的不断扩大,传统的基于逻辑和规则的推理方法已经无法满足现代应用对高效推理和深度语义挖掘的需求。
二一年冬末
2024/09/27
6320
知识图谱中的链接预测——张量分解篇
知识图谱以形式化、规范化的方法表示知识,将知识表示为三元组(triple)进行存储。三元组包含主语(头实体)、宾语(尾实体)和二者之间的关系,通常表示为(h,r,t),在计算机中可以用一个有向图表示。知识图谱的完整性和准确性是影响其可用性的主要因素,目前已有的知识图谱多数存在数据不完整的问题,链接预测技术能够自动知识图谱进行补全,提高知识图谱的质量,是一个非常有意义的研究问题。
学识家
2022/04/27
3.9K0
知识图谱中的链接预测——张量分解篇
Bioinformatics|基于知识图谱嵌入的药物靶标发现
药物靶点的预测对于早期药物分子的成药性评价和老药新用等领域都具有重大意义,但由于通量、精度和费用的限制,实验手段的应用难以广泛开展。作为一类快速而低成本的方法,基于人工智能的药物-靶标预测算法正受到越来越多的重视。
DrugAI
2021/01/29
1.5K0
Bioinformatics|基于知识图谱嵌入的药物靶标发现
[AAAI | 论文解读] 知识图谱如何嵌入对未知数据的外推:语义证据视图
How Does Knowledge Graph Embedding Extrapolate to Unseen Data: A Semantic Evidence View
智能生信
2022/12/29
5800
[AAAI | 论文解读] 知识图谱如何嵌入对未知数据的外推:语义证据视图
ICDE 2020丨第四范式新作:借鉴AutoML,自动设计不同知识图谱嵌入的评分函数
本文介绍的是ICDE 2020入选论文《AutoSF: Searching Scoring Functions for Knowledge Graph Embedding》,作者来自香港科技大学和第四范式。
AI科技评论
2020/04/21
8330
ICDE 2020丨第四范式新作:借鉴AutoML,自动设计不同知识图谱嵌入的评分函数
基于知识图谱嵌入的自动化问答生成
随着自然语言处理(NLP)和人工智能技术的飞速发展,自动化问答系统在各个领域的应用越来越广泛,特别是在客服、教育、医疗等领域中。自动化问答系统能够通过理解用户问题,快速地生成准确的答案,为用户提供高效的服务。传统的问答系统大多依赖于基于规则的匹配或检索式问答,而随着知识图谱(Knowledge Graph)技术的成熟,基于知识图谱的问答系统逐渐成为研究热点。通过知识图谱嵌入(Knowledge Graph Embedding, KGE),我们可以将复杂的图结构数据嵌入到低维向量空间中,从而实现高效的问答生成。
二一年冬末
2024/10/08
4810
基于知识图谱嵌入的自动化问答生成
知识图谱嵌入的关系推理
随着大数据时代的到来,知识图谱在许多领域得到了广泛应用,如搜索引擎、推荐系统、语音助手等。然而,知识图谱的构建通常是通过自动化和半自动化的方式进行的,其中很多关系是通过算法推理得出的。这就引出了关系推理这一关键问题:如何从现有的知识图谱中推断出新的关系,以丰富图谱内容。
二一年冬末
2024/09/26
3360
知识图谱嵌入在医疗领域的应用
在医疗领域中,海量的医疗数据充斥着各种疾病、治疗方案、药物使用、临床诊断等丰富的信息。这些数据通常以非结构化形式存在于病历、影像、实验室报告等文档中。因此,如何有效地挖掘这些数据并进行推理是医学领域的一个重要研究方向。知识图谱作为一种能展示实体及其间关系的结构化图模型,在医疗领域的应用逐渐成为趋势。知识图谱嵌入技术(Knowledge Graph Embeddings,KGE)旨在将图中实体和关系编码为低维向量,允许我们使用向量空间中的计算来推断出实体之间的隐藏关系。
二一年冬末
2024/10/06
4330
知识图谱嵌入在医疗领域的应用
知识图谱嵌入模型 (KGE) 的总结和比较
来源:Deephub Imba本文约2900字,建议阅读5分钟本文介绍了知识图谱嵌入模型的总结与比较。 知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间,这些低维空间向量一般只有几百个维度(用来表示知识存储的内存效率)。向量空间中,每个点代表一个概念,每个点在空间中的位置具有语义意义,类似于词嵌入。 一个好的KGE 应该具有足够的表现力来捕获 KG 属性,这些属性解决了表示关系的独特逻辑模式的能力。并且KG 可以根据要求添加或删除一些特
数据派THU
2023/04/03
1K0
知识图谱嵌入模型 (KGE) 的总结和比较
干货 | 大规模知识图谱的构建、推理及应用
作者简介 李健,携程度假研发部研发总监,2013年底加入携程,在数据挖掘分析、人工智能方面有一定的实践与积累。 随着大数据的应用越来越广泛,人工智能也终于在几番沉浮后再次焕发出了活力。除了理论基础层面的发展以外,本轮发展最为瞩目的是大数据基础设施、存储和计算能力增长所带来的前所未有的数据红利。 人工智能的进展突出体现在以知识图谱为代表的知识工程以及以深度学习为代表的机器学习等相关领域。 未来伴随着深度学习对于大数据的红利消耗殆尽,如果基础理论方面没有新的突破,深度学习模型效果的天花板将日益迫近。而另一方面
携程技术
2018/03/16
2.8K0
干货 | 大规模知识图谱的构建、推理及应用
知识图谱前沿跟进,看这篇就够了,Philip S. Yu 团队发布权威综述,六大开放问题函待解决!
2019 年年底,图灵奖获得者 Bengio 曾指出,我们正处于从以感知智能为代表的深度学习“系统一”,向以认知智能为代表的深度学习 “系统二”过渡的时期。
AI科技评论
2020/03/11
2K0
知识图谱构建技术综述-2.3知识推理-学习笔记「建议收藏」
【63】等提出一阶归纳学习就是谓词逻辑推理,可以自动提取高质量的事实并去噪声,但效率很低。
全栈程序员站长
2022/09/02
1.1K0
知识图谱构建技术综述-2.3知识推理-学习笔记「建议收藏」
AAAI 2024| 知识图谱论文总结
最近,收集一下AAAI 2024关于知识图谱的论文,主要是以Knowledge graph为关键词进行总结,关于知识图谱中涉及到的实体识别、关系抽取等文章就不在本次的总结之列(如有遗漏,欢迎大家补充)。
时空探索之旅
2024/11/19
2.6K0
AAAI 2024| 知识图谱论文总结
推荐阅读
相关推荐
​基于RotatE模型的知识图谱嵌入技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档