当 Heng Ji(某机构的学者,也是伊利诺伊大学的计算机科学教授)大约15年前开始参加北美计算语言学协会的年会时,该会议仅吸引了约700人。“今年,我们可能会达到3000人左右,” Ji表示,她是本次会议信息抽取研究领域的高级领域主席之一。“当我们还是学生时,每个领域通常只需要一位主席。今年,信息抽取领域有三位高级领域主席,我们手下还有18位领域主席。这个领域正在疯狂增长。”
这种增长,当然是深度学习革命以及统计方法在近期人工智能的自然语言处理研究中扮演关键角色的结果。然而,Ji对会议在革命前的那段时期仍抱有怀念之情。“从方法论的角度来看,实际上现在比以前更少异质化,多样性降低了,”她说。“机器学习方法是一把锤子,现在我们有很多钉子。过去,我们没有一把很好的锤子,所以我们忙于发明其他工具。”
不过,作为高级领域主席,Ji对她负责的研究主题——信息抽取——的论文提交情况有很好的概览。在最近的研究中,她看到了曾经被忽视的 符号语义学 理念正在复兴。
“深度神经网络的整个理念建立在 分布语义学 之上,这意味着你不需要规则或语言直觉,因为你只需统计词频,对吧?”她说。“所以‘苹果’和‘橙子’相似,仅仅因为它们出现在相似的上下文中。如果我给你10亿份文档,你只需统计数据。”
分布语义学是大多数语言 嵌入 的基础,即将单词和词串表示为多维空间中的点,使得点之间的空间关系编码了文本之间的语义关系。像BERT这样的基于预训练Transformer的嵌入网络是近期自然语言处理大多数进展的基础。它们通常从词语与其他词语的共现关系中推断语义关系。
符号语义学
相比之下,符号语义学利用了符号之间的逻辑关系,这些关系要么编码为规则(基于语言直觉),要么编码为句子内的句法关系。Ji表示,符号语义学已经开始以四种主要方式回归到信息抽取领域。
“第一个想法是直接改变输入数据,”她说。“当我说‘约翰·史密斯’时,我可能指的是这个约翰·史密斯或那个约翰·史密斯。我说‘苹果’时,可以指这家公司或这种水果。这个想法是,在学习嵌入之前,尝试进行消歧。因此,我们不只说‘苹果’,而是说‘苹果公司’来表明它是一家公司。我们改变输入数据,使其更具知识意识。
“第二个想法是保持输入数据不变,但尝试将自然语言转换成某种结构。例如,我们可以使用语义解析将输入句子转换为图结构。然后,我们可以使用传统的嵌入来初始化表示,但在图的相邻节点之间传播这种嵌入表示。
“所以,例如,‘succeed’可以意味着在某事之后,也可以意味着成功。如果我们只统计共现,很难区分这两种意思。但如果我们知道动词是否有宾语,我们就可以区分这些含义。如果我们能提前告诉模型‘这是结构’,‘这是宾语’,那么我们就能更好地表示它。
“第三个想法是,我们将使用分布语义学来发现一些新的类型或新的聚类,然后使用符号语义学来为它们命名。许多NLP任务,特别是信息抽取中,一个大的问题是,每次我们定义需要本体的事物时——比如这些是我希望你们从新闻文章中抽取的10种事件类型——我们只标注那10种类型的数据。然后,当我们想增加10种新的事件类型时,用旧训练数据训练出来的旧系统就变得没用了,因为深度学习模型是针对那10种类型定制的。
“这里的想法是,让我们忘掉分类范式。让我们尝试使用嵌入来发现聚类,对吧?所以,如果所有这些词看起来相似,我们把它们放在一个聚类里。如果我们能深入理解这个聚类的代表性意义,我们就可以使用符号语义学来为其命名。
“然后是第四种方法,我们只让嵌入方法在低层次上完成它们的工作,然后我们使用符号语义资源进行最终的解码。我们使用一些背景知识或常识知识作为全局约束,从分布语义学中挑选候选结果。
“我认为这是一个非常有前景的方向,因为过去二、三十年来我们准备的所有资源,可能不会被丢弃。我们仍然可以利用它们。另一方面,这也使所有结果更具可解释性。”
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。