雷锋网 AI 科技评论按:国际自然语言处理顶会 ACL 还有数月即将召开。本届会议共计有 1551 篇论文进入审查阶段(1021 长篇,530 篇短篇),录用率约为 20%。
雷锋网 AI 科技评论也一直密切关注国内外企业研究院的论文录用动态。其中,百度自然语言处理部共有两篇论文被 ACL 2018 录用,此外 DuReader 数据集及相应改进评测方法论文被 ACL 2018 阅读理解研讨会 workshop 录用。
百度自然语言处理部此前因为在微软 MARCO 阅读理解数据集上获得第一,在雷锋网学术频道「AI 科技评论」旗下数据库项目「AI 影响因子」中有不俗表现;而凭借 ACL 2018 的论文录用情况,在本月众多国内企业研究院中有巨大进步。
被 ACL 2018 收录的两篇论文从某种程度上代表了百度最新的阅读理解技术进展:多文档校验模型 V-NET 及多文档校验的强化学习训练机制。两项工作均为围绕实际应用需求,在搜索引擎多文档场景下的阅读理解技术创新工作。
据了解,在搜索引擎返回多文档的场景下,由于引入了更多的和问题相关的文档,存在更多的歧义,最终可能导致阅读理解模型定位错误的答案。而人在这种情况下通常会采取「找到多个候选->校验相关答案->选出最终答案」的策略来找出置信度最高的答案。基于这种观察,百度自然语言处理团队提出了两种不同角度探索多文档校验的方案以提升阅读理解技术的最终效果。其中第一个工作将多文档校验的模块联合建模在统一的神经网络框架下(V-NET)也是第一个端到端建模的多文档阅读理解模型,而第二个工作则利用强化学习的方法对串行的多文档阅读理解模块进行联合训练。
在论文《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》中,百度提出了一种新的多文档校验的深度神经网络建模方法 V-NET,通过注意力机制使不同文档产生的答案之间能够产生交换信息互相印证,从而预测出更好的答案。V-NET 是一个端到端的神经网络模型,如下图所示,该模型同时使用三个不同的模块分别从三个方面来预测答案:答案的边界预测模块、答案内容预测模块和多文档的答案验证模块。在 MARCO 和 DuReader 数据集上,V-NET 模型效果显著优于其他系统。
V-NET 模型的整体架构
在论文《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》中,百度利用强化学习的方法对串行的多文档阅读理解模块进行联合训练。在传统的问答系统中,「抽取候选答案->综合选出答案」串行的模式非常常见,但通常将这两个步骤看成独立的模块分开处理。其实,这两个模块之间的联系非常密切,同时也由于数据集没有提供各文档的可能的候选答案,因此百度将各文档中的候选答案视为隐变量,用神经网络分别建模对应的两种行为(action),并在多文档校验模块中引入相关性矩阵建模候选答案之间的关联关系。在此基础上采用强化学习的方法联合训练,以提升最终答案与真实答案的匹配程度,也就是直接根据评价指标同步训练两阶段的模型。
此外,针对多文档阅读理解任务,百度自然语言处理团队在 ACL2018 阅读理解研讨会 (Workshop on Machine Reading for Question Answering) 上进一步发表了 DuReader 数据集以及相应改进的评测方法的论文:
DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications
本文介绍了一个面向真实应用的、开放域的、大规模中文阅读理解数据集 DuReader。相比于以前的阅读理解数据集,DuReader 有以下三方面的有点:(1)数据来源:DuReader 的问题和文档都来自于百度搜索和百度知道;答案都是人工构建的。(2)问题类型:DuReader 提供了更加丰富的问题类型标注,特别是是非类问题和观点类问题,这为研究人员提供了更多的研究机会。(3)规模:DuReader 包含了 20 万问题,42 万答案和 100 万文档;它是迄今为止最大的中文阅读理解数据集。实验表明,人类在该数据集的表现远高于目前最好的基线系统。这为研究人员留下了很大的研究和改进空间。为了帮助整个研究社区做出这些改进,我们已经将 DuReader 和相关的基线系统开源。同时,我们也组织了在线比赛以鼓励研究人员探索更多的模型。自比赛发布以来,最好系统的性能已经大幅提高。
Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task
当前的阅读理解自动评价指标(如 ROUGE 和 BLEU)的计算通常都基于候选答案和参考答案的词汇覆盖率。但是这种计算方法对于特定类型的问题不一定非常适用,如是非和实体需求类型的问题。因此,我们提出了一种改进的评价指标,通过对相关的 N 元覆盖进行一定加权使得改进后指标与人工判断结果更加接近。实验结果显示改进后的指标显著有效,我们认为该指标更加适合评价真实场景下的阅读理解系统。
领取专属 10元无门槛券
私享最新 技术干货