实体链接(EL)是将文本中的实体提及自动链接到知识库(存储实体相关事实的数据库,如Wikidata)中对应条目的过程。例如,在句子中需要将"英格兰"链接到"英格兰足球队"实体,而不是"英格兰"国家实体。
实体链接是自然语言处理应用中的常见第一步,包括问答、信息提取和自然语言理解。它对于连接非结构化文本与知识库至关重要,使得能够访问大量经过整理的数据。
当前实体链接系统在标准数据集上表现出色,但在实际应用中存在几个限制。首先,它们计算密集,使得大规模处理成本高昂。其次,大多数系统设计用于链接到特定知识库(通常是维基百科),难以适应其他知识库。最后,最高效的现有方法无法将文本链接到训练后引入知识库的实体(零样本实体链接任务),意味着必须频繁重新训练以保持更新。
在NAACL 2022工业轨道上,我们推出了名为ReFinED的新实体链接系统,解决了所有三个问题。我们在主会议的第二篇论文中基于这项工作,引入了一种将额外知识库信息纳入模型的新方法,进一步提高了准确性。
ReFinED在标准实体链接数据集上的F1分数平均超过最先进性能3.7分,并且比具有竞争性能的现有方法快60倍。ReFinED能够泛化到大规模知识库(如Wikidata,其实体数量是维基百科的15倍)并支持零样本实体链接。速度、准确性和规模的结合使ReFinED成为从网络规模数据集中提取实体的有效且成本效益高的系统。
实体链接具有挑战性,因为实体提及经常存在歧义。因此,实体链接系统必须有效利用上下文(周围词语)来可靠地消除实体提及的歧义。
最近的实体链接系统使用深度学习方法将提及与知识库中存储的信息(如文本实体描述或细粒度实体类型)进行匹配,而不是直接与实体匹配。这对于链接到训练数据中未见过的实体(零样本实体链接)是有利的,因为用于描述它们的信息将具有模型在训练期间见过的属性。
然而,这种零样本能力方法比非零样本模型计算成本高一个数量级,因为它们需要大量实体类型和/或多个前向传递来编码提及和描述。这使得某些应用的大规模处理成本过高。
与早期的零样本能力模型一样,ReFinED使用细粒度实体类型和实体描述来执行实体链接。但我们使用简单的基于Transformer的编码器,比更复杂的架构产生更好的性能,在五个实体链接数据集上超越了最先进水平。
与之前的工作不同,ReFinED在单个前向传递中执行提及检测(识别实体提及范围)、细粒度实体类型(预测实体类型)和实体消歧(对实体评分),使其比可比模型快60倍,因此运行资源效率提高约60倍。
在内部,ReFinED是一个基于Transformer的神经网络,计算两个分数:描述分数和实体类型分数,以指示实体对提及的适合程度。
这种方法的一个缺点是,可能有些提及的候选实体无法通过知识库实体描述和类型来消歧。作为说明,考虑以下句子,其中包含"克林顿"可能指的两个实体的实体描述和类型:
仅给定句子上下文和知识库描述及类型信息,无法正确决定句子是指希拉里·克林顿还是比尔·克林顿。
我们的第二篇NAACL论文"通过基于知识库的推理改进实体消歧"解决了这个缺点。我们提出了一种使用与候选实体相关的额外知识库事实的方法。
知识库事实编码了实体对之间的关系,如下例所示:
为了使用这类信息,我们为模型添加了一个额外机制,使其能够预测连接文本中提及对的关系。例如,模型将从句子上下文中推断出"克林顿"的出生地和教育地点是"希望城,阿肯色州"和"温泉高中"。然后我们可以将这些推断与知识库中的事实进行匹配。
在这种情况下,我们会发现两个预测与比尔·克林顿的知识库事实匹配,但与希拉里·克林顿不匹配。因此,我们的模型将提高比尔·克林顿的分数,并有望做出正确预测。
通过向模型添加这种机制,我们能够在文献中常用的六个数据集上平均提高最先进性能1.3 F1分,在专注于特别具有挑战性示例的"ShadowLink"数据集上提高12.7 F1分。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。