首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >知识图普嵌入技术的极简教程:KGE以及如何计算它们

知识图普嵌入技术的极简教程:KGE以及如何计算它们

作者头像
数据派THU
发布于 2022-03-04 03:08:12
发布于 2022-03-04 03:08:12
1.2K00
代码可运行
举报
文章被收录于专栏:数据派THU数据派THU
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
来源:DeepHub IMBA本文约2200字,建议阅读5分钟推荐系统是KEG应用的一个重要领域。

图是我最喜欢使用的数据结构之一,它们可以使我们能够表示复杂的现实世界网络,如快速交通系统(例如,公交道路、地铁等)、区域或全球空中交通,或者人们的社交网络之类的相关事物。并且他们非常灵活,很容易被人类理解,但是为了让计算机“理解”和“学习”它们,我们需要额外的一步(称为矢量化)。这种解释可能过于简单,我们将在本文的后续部分详细解释。

知识图谱有何特别之处?

为了轻松理解知识图与其他图的不同之处,我们想象一个具有不同级别的游戏,随着游戏的深入,每个级别都会变得困难。

Level 1:可以是一个简单的无向图,比如大学里的朋友群,朋友是节点,朋友之间的关系是边。这里我们只有节点和边,没有什么太花哨的。

Level 2:在上一层的基础上增加一层信息,比如方向,这样我们就得到有向图。一个简单的例子是城市范围的公交网络。将公共汽车站视为节点,将公共汽车的路线视为边,每辆公共汽车都以特定的方向从一个站点移动到另一个站点,这就是增加了方向信息。

Level 3:我们采用有向图并向节点和边添加多种属性。想象一下互联网上的社交网络,节点上的属性是用户所基于的社交网络类型。例如,它可以是 Twitter、Facebook 或 YouTube。边的属性可以是不同用户之间的交互类型,即关注(在 Twitter 的情况下)、朋友或关注(在 Facebook 的情况下)和订阅(在 YouTube 的情况下)。图的有向性在这里开始发挥作用,因为上面这些属性只能是单向的(相互关注就是有两条边)。例如,你可以关注 Elon Musk,但他可能不会在 Twitter 上关注你,这就是有一条向的边。

Level 4:上一级中的图中,不使用节点和边,而是使用三元组进行表示:三元组是知识图谱的构建块,它是由 3 个元素组成的元组,即:源节点(头)、关系和目标节点(尾)。

这就是我们所说的知识图谱了,源节点和目标节点有时也被称为实体。

“知识图谱”一词的使用有点含糊,因为知识图谱没有固定的定义,从广义上讲可以将任何包含一些知识/重要信息的相当大的图称为知识图谱。这里的关键点是我们将三元组作为知识图谱的基本组成部分。

知识图谱嵌入方法

因为向量化或嵌入(实体的数字表示和图之间的关系表示)对于使用图作为机器学习算法的输入是必要的。我们对知识图谱的处理方式与其他机器学习模型不同,所以我们需要不同的技术来学习它们的数值表示(或嵌入)。生成知识图嵌入 (KGE) 的方法有多种,我们可以大致分为 3 个部分:

1、基于翻译的方法:

使用基于距离的函数(在欧几里得空间中)用于生成嵌入。我们可以建立一个简单的算法使头向量和关系向量的组合等于尾向量。它可以表示为 h + r ≈ t。这种算法称为 TransE。相同算法还有其他版本,但对它的修改很少。一些示例包括 TransH、TransR、TransD、TransSparse 和 TransM。

2、基于分解的方法:

这是基于张量分解的想法,使用这种技术提出的初始算法是 RESCAL。三向张量以 n x n x m 的形式定义,其中 n 是实体的数量,m 是关系的数量。张量保持值 1 表示实体之间存在关系, 0表示不存在则。

通过分解这个张量来计算嵌入。但是对于大型图这通常在计算上非常的费时所以出现了很多基于 RESCAL 理念的 DistMult、HolE、ComplEx 和 QuatE 等算法优化解决计算量问题。

3、基于神经网络的方法:

神经网络现在在许多领域都很流行,它们被用于查找KGE也就是很正常的事情了。Semantic Matching Energy它定义了一个能量(energy )函数,用于通过使用神经网络为三元组分配一个值。神经张量网络(Neural Tensor Network)使用能量函数,但它用双线性张量层代替了神经网络的标准线性层。

像 ConvE 这样的卷积神经网络以“图像”的形式重塑实体和关系的数值表示,然后应用卷积滤波器提取特征,从而学习最终的嵌入。我们还可以找到受 GAN 启发的模型(例如 KBGAN)和基于 Transformer 的模型(例如 HittER)来计算KGE。

为了实现这些算法,我们有多个 python 库,例如:

  • LibKGE
  • PyKEEN
  • GraphVite
  • AmpliGraph

KGE 算法的结构

有一些共同的基本思想来构建一个算法来计算KGE。下面列出了其中一些想法:

Negative Generation:

这是在知识图中生成否定或损坏的三元组的概念。负三元组是不属于原始图的三元组。这些可以随机生成,也可以使用伯努利负采样等策略生成。

Scoring Function:

它是一个包装三元组的函数,它输出一个值或一个分数。如果分数高,那么三元组是有效的,如果分数低,那么它是一个负三元组。评分函数是构建 KGE 算法的重要部分之一。

Loss Function:

由于算法是根据优化问题建模的,因此我们在训练过程中使用了损失函数。这个损失函数使用正负三元组的分数来计算损失。我们的目标是尽量减少损失,减少损失的过程肯定也少不了优化器。

一般情况下损失函数包括——Cross entropy loss, Pairwise margin-based hinge loss等。

生成嵌入后的下一步是什么?

学习 KGE 算法并应用它们来查找嵌入是很有趣的。现在,下一步是什么?嵌入的用途是什么?

有一些图下游任务可以应用于知识图谱,例如:

知识图谱补全:

这也称为链接预测,我们的目标是预测知识图中缺失的关系或潜在的可能关系。它也可以称为知识图谱增强。这项任务归结为找到一个可以最好地表示为具有给定的关系和一个实体的事实。简单地说,任务是猜测 (?, r, t) 或 (h, r, ?) 中的缺失部分,也可以分别称为头部预测或尾部预测。我们使用基于等级的评估技术来查找我们的知识图嵌入的性能。

三元组分类:

这是一个识别给定三元组是否有效的问题,即它是正三元组还是负三元组。此任务的输出只有是或否。使用评分函数并设置阈值以将正三元组与负三元组分开。通俗的讲就是一个二元分类的问题。

推荐系统是KEG应用的一个重要领域。嵌入的质量对于上述任务的性能和准确性很重要。这些任务的结果告诉我们是否能够生成高质量的嵌入。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
当AI碰上足球,DeepMind和利物浦队擦出了火花
1950年3月,曾在二战服役的英国皇家空军中校、会计师查尔斯 · 里普(Charles Reep)发现他最喜欢的足球在战术革命上变得停滞不前。
新智元
2021/05/28
4770
当AI碰上足球,DeepMind和利物浦队擦出了火花
武磊告别西甲!Python带你解读「全村的希望」武磊职业数据
北京时间7月20日,这个赛季的西甲联赛正式结束,最受关注的“全村的希望”武磊和他的西班牙人队彻底告别西甲。
CDA数据分析师
2020/07/22
5580
武磊告别西甲!Python带你解读「全村的希望」武磊职业数据
【2018世界杯数据分析】梅西为什么进不了球?
来源:fivethirtyeight.com 作者:Bobby Gardiner 编译:闻菲 【新智元导读】在阿根廷vs冰岛一战中,梅西的表现引来无数吐槽,不仅射丢点球,全场大部分时间还在“散步”。但
新智元
2018/06/25
7310
当足球遭遇大数据,胜负靠计算还是直觉
2013/14赛季英超联赛戏剧性地画上句号,如果说还有什么比最后一轮才决出冠军归属更让人跌破眼镜的,一定是卫冕冠军“红魔”曼联的快速衰落和名不见经传的埃弗顿异军突起。埃弗顿不仅力压曼联,排名甚至高于转
小莹莹
2018/04/18
2.6K0
当足球遭遇大数据,胜负靠计算还是直觉
梅西、内马尔谁是全能的五边形战士?教你用BI做出可视化能力图
最近因为XX的原因,好多足球比赛都不得不停止,相信很多球迷现在在家中都没办法看比赛了。
大数据分析不是事儿
2020/03/09
9380
【数据分析】数据告诉你:梅西究竟厉害在哪里?
(原文来自 FiveThirtyEight,译言 linuxor 翻译) 内特·西尔弗(Nate Silver)是个天才数据分析师,曾经在2012年美国总统大选中准确预测了50个州的选举结果,并为了预测棒球选手的成绩而开发了统计工具PECOTA。就是这个内特·西尔弗,新创办了一个使用统计数据来分析所有现象的新闻网站FiveThirtyEight。近日,该网站的体育数据分析师兼作家Benjamin Morris,在彻底分析了有关里奥内尔·梅西这个被认为是当今世界NO.1的足球运动员的各种数据后发现,梅西身
小莹莹
2018/04/19
1.4K0
【数据分析】数据告诉你:梅西究竟厉害在哪里?
足球数据 | 被对手进球后的十分钟内最有可能扳回比分
大数据文摘作品 转载具体要求见文末 作者|Alex Bleakley 选文 | Aileen 翻译 | 徐宇文 校对 | 王昱森 摘要:在凌晨结束的世预赛亚洲区12强赛第4场比赛中,中国队客场0比2不敌乌兹别克斯坦,4战之后仅积1分。赛后,国足主帅高洪波在发布会上宣布辞职。 有人说,当一支足球队刚进球了以后,他们会突然变得比之前更容易被对方进球,这种说法是可靠的吗?这一现象又与主客场、球队实力等因素有无关系? 来自英国的作者Alex Bleakley通过数据分析,针对这一现象进行了研究:他分析了201
大数据文摘
2018/05/22
1.4K0
足球大数据:统计和分析之间岂止一步之遥
相比于其他体育运动,足球的数据统计和分析工作开展得很晚,而且鉴于比赛的特殊性也没有太多的经验可供参考。不过,随着大数据时代的到来,这种趋势越来越明显,我们需要做的不仅是搜集数据,而且需要更好的分析数据
小莹莹
2018/04/23
5.2K0
足球大数据:统计和分析之间岂止一步之遥
大数据预测世界杯 八种方法谁靠谱
西班牙、英格兰连续两场失利,小组赛即遭淘汰,不仅让一些球迷伤心欲绝,让彩民损失不小,还顺便连累了众多预测世界杯的高人欲哭无泪。这届世界杯在大数据火爆之后,不管是民间还是官方,都把大数据的概念运用到了世界杯预测上,但这些预测真的准吗?下面选取国内外主要的八种世界杯预测,对他们的预测方法进行简要的分析,看看谁的更准一些。 (1)百度分析最传统 据验证,今年全国高考作文题目18卷中12卷的作文方向被百度大数据预测命中,被戏称“神预测”。因此,这次百度收集网上的综合数据,然后进行整理、分析,最终通过大规模机器
大数据文摘
2018/05/21
8.1K0
六冠王奇迹的背后,是德甲AI加持的足球
有关德国足球,人们的印象可能是快速的攻防节奏、领先的教练发展体系,以及各种科学到极致的训练和健身计划。德甲球队为我们贡献了高水平的比赛,最近一次欧洲冠军联赛、世俱杯冠军也都被德甲豪门拜仁慕尼黑获得。
机器之心
2021/03/15
5580
六冠王奇迹的背后,是德甲AI加持的足球
太硬核!用大数据技术预测足球胜率
点个关注👆跟腾讯工程师学技术 引言| 足球作为世界第一运动,充满了速度和力量的结果,团队与谋略的对抗。人们也说,足球是圆的,恰恰也表明了足球比赛的不可预知性,一切结果都皆有可能。强如巴萨,也有可能被联赛副班长逆转,弱如第三世界的朝鲜队也可闯进世界杯八强。天气、场地、球星、战术、伤病、裁判,每一个因素都可能会影响一场比赛的结果。有言道,在足球比赛里,不到最后一刻,你永远不知道事情的结果。对于足彩爱好者来说,不仅在欣赏足球荡气回肠、悬念丛生的魅力,更是在与博彩公司进行一场心理与策略的博弈(其实是为了投注赚钱)
腾讯云开发者
2022/12/05
6.3K0
太硬核!用大数据技术预测足球胜率
程序员的欧洲杯:用大数据预测胜率,比踢球还刺激
激战正酣的欧洲杯已经进入了淘汰赛阶段,每一场比赛的胜负都牵动着万千球迷的心。天气、场地、球星、战术、伤病、裁判,每一个因素都可能会影响一场比赛的结果。有言道,在足球比赛里,不到最后一刻,你永远不知道事情的结果。对于足彩爱好者来说,不仅在欣赏足球荡气回肠、悬念丛生的魅力,更是在与博彩公司进行一场心理与策略的博弈(其实是为了投注赚钱)。 本文作者从数据层面出发,通过挖掘足球比赛相关的数据特征,结合机器学习的模型方法,对足球比赛的胜、平、负结果进行预测。特别提醒,本文不构成任何投资、下注建议,博彩有风险,下注需注意!
腾讯云开发者
2024/07/04
1.5K2
程序员的欧洲杯:用大数据预测胜率,比踢球还刺激
太酷了,用Python制作足球可视化图表!
最近不少小伙伴都会熬夜看欧洲杯。今年的欧洲杯相比起往年的欧洲杯来说,可谓是冷门频出,出乎意料。
小F
2021/07/23
6040
大数据的下半场:谁参透数据的本质,谁就能破局称王
企鹅号小编
2017/12/29
6780
大数据的下半场:谁参透数据的本质,谁就能破局称王
十分钟,Python 带你看遍世界足球俱乐部沉浮
作为一名足球迷,在年终盘点中,怎么能少了足球呢。如果你是关注欧洲足球的球迷(没办法,人家欧洲是足球的世界的中心),那么你一定知道,2019年是属于利物浦的一年,不多说,红军的首个英超冠军已经遥遥在望了,fighting!
周萝卜
2020/05/22
4110
这个大力神杯,梅西已足足等了16年!AI预测:阿根廷冠军
由卫冕军法国对上寻求队史第三冠的阿根廷,同时也是两位顶尖球星兼巴黎圣日耳曼队友梅西、姆巴佩的「内战」。
新智元
2023/01/09
4620
这个大力神杯,梅西已足足等了16年!AI预测:阿根廷冠军
足球粉丝福利来啦-图解欧洲足球五大联赛
R爬虫&可视化系列文章来到了第五季,我们来聊聊欧洲足球五大联赛。本人作为一个不会踢球的资深球迷,俗称“懂球帝”,今天就与大家用数据分析一下2017-2018赛季欧洲五大联赛的各项指标。
周萝卜
2019/07/17
1.4K0
足球粉丝福利来啦-图解欧洲足球五大联赛
这届 AI 预测欧洲杯冠军,通通被打脸
场景描述:持续了一个月、吸引了全球关注的 2020 欧洲杯终于落下帷幕,在赛前跃跃欲试的各家冠军预测 AI,也终于能够验证自己的预测结果了。不过意大利的夺冠,似乎都不在这些 AI 的预期中。
HyperAI超神经
2021/07/29
4440
鸟枪换炮,利用python3对球员做大数据降维(因子分析得分),为C罗找到合格僚机
    众所周知,尤文图斯需要一座欧冠奖杯,C罗也还想再拿一座欧冠奖杯,为自己的荣誉簙上锦上添花。意甲霸主在意甲虽然风生水起,予取予求,但是在今年欧冠1/8决赛赛场上,被法甲球队里昂所淘汰,痛定思痛,球队解雇了主教练萨里,签约名宿皮尔洛,但是要想在欧冠赛场上夺冠,这还不够,球队还需要什么?没错,需要一名强力中锋,在正印中锋伊瓜因难堪大用的情况下,尤文图斯必须引进一名强力中锋。
用户9127725
2022/08/08
4980
鸟枪换炮,利用python3对球员做大数据降维(因子分析得分),为C罗找到合格僚机
这里有一个机器学习模型,它知道2.2亿欧元的内马尔值不值得买
李根 编译整理 量子位 报道 | 公众号 QbitAI △ 内马尔2.2亿欧元转换大巴黎 阿森纳主帅温格在位20载,什么样优秀的球员没见过,但现今他也是越来越看不懂转会市场了。 温格感叹:不是阿森纳不
量子位
2018/03/28
8270
这里有一个机器学习模型,它知道2.2亿欧元的内马尔值不值得买
推荐阅读
相关推荐
当AI碰上足球,DeepMind和利物浦队擦出了火花
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档