第57届国际计算语言学协会年会(ACL 2019)已于本月初在意大利佛罗伦萨闭幕。作为自然语言处理(NLP)领域的国际顶级学术会议,自1962年成立之初,ACL就一直致力于推动计算语言学及自然语言处理相关研究的发展和国际学术交流。
本次会议创下了国际NLP顶会的新纪录,论文提交数量飙升到2906篇,最终收录论文660篇,录取率仅为22.7%。今年会议投稿最多的3个领域分别是,信息提取和文本挖掘占所有有效提交的 9.2%;机器学习占比 8.2%;机器翻译占比 7.7%。可见,自然语言处理研究是迎来了黄金时代。
这里整理了ACL 2019收录的部分论文,除了对8篇最佳论文的介绍,还对ACL 2019部分论文解读文章进行了汇总整理,供大家学习参考。
最佳长论文奖
Bridging the Gap between Training and Inference for Neural Machine Translation
弥补神经机器翻译在训练和推理过程之间的缺口
论文作者:Wen Zhang, Yang Feng, Fandong Meng, Di You ,Qun Liu
论文地址:https://arxiv.org/pdf/1906.02448.pdf
论文摘要:
神经机器翻译(NMT)是以上下文为条件来预测下一个词,从而顺序地生成目标词。在训练时,它以ground truth词汇作为上下文进行预测;而在推理时,它必须从头开始生成整个序列。反馈上下文信息的这种差异会导致误差累积。此外,词级训练要求所生成的序列与ground truth序列之间严格匹配,这导致对不同的但合理的翻译的过度校正。在本文中,我们在模型训练中不仅从ground truth序列还从预测序列中来采样上下文,其中预测序列是用句子级最优来选择的。我们在Chinese->English 和 WMT‘14 English->German的翻译任务的实验结果表明,我们的方法可以在多个数据集上实现显著的改进。
最佳短论文奖
Do you know that Florence is packed with visitors?Evaluating state-of-the-art models of speaker commitment
“你知不知道佛罗伦萨全都是游客?”,评价最先进的说话人承诺模型
论文作者:Nanjiang Jiang, Marie-Catherine de Marneffe
论文地址:https://www.aclweb.org/anthology/P19-1412
论文摘要:
当一个人,比如 Mary问你“你知不知道佛罗伦萨全都是游客?”,我们会认为她相信佛罗伦萨全都是游客;但如果她问“你觉得佛罗伦萨游客多吗?”,我们就不会这样认为。推断说话人承诺(或者说事件真实度)是问答和信息提取任务中的关键部分。
在这篇论文中,作者们探索了这样一个假说:语言学信息的缺乏会影响说话人承诺模型中的错误模式。他们的验证方式是在一个有挑战性的自然语言数据集上分析模型错误的语言学关联性。作者们在 CommitmentBank 这个由自然英语对话组成的数据集上评价了两个目前最好的说话人承诺模型。CommitmentBank 数据集已经经过了说话人承诺标注,方式是在 4 种取消蕴含的环境中向着时态嵌入动词(比如知道、认为)的补充内容进行标注。作者们发现,一个带有语言学知识的模型能展现比基于 LSTM 的模型更好的表现,这表明如果想要在这样的有挑战性的自然语言数据中捕捉这些信息的话,语言学知识是必不可少的。对语言学特征的逐项分析展现出了不对称的错误模式:虽然模型能在某些状况下得到好的表现(比如否定式),但它很难泛化到更丰富的自然语言的语言学结构中(比如条件句式),这表明还有很大提升的空间。
杰出论文奖
Emotion-Cause Pair Extraction:A New Task to Emotion Analysis in Texts
情绪-原因对的提取:文本情感分析中的一个新任务
论文作者:Rui Xia, Zixiang Ding
论文地址:https://arxiv.org/pdf/1906.01267.pdf
论文摘要:
情绪原因提取(Emotion cause extraction ,ECE)是一项旨在提取文本中某些情绪背后潜在原因的任务,近年来由于其广泛的应用而受到了很多关注。然而,它有两个缺点:1)情绪必须在ECE原因提取之前进行标注,这极大地限制了它在现实场景中的应用;2)先标注情绪然后提取原因的方式忽略了它们是相互指示的事实。在这项工作中,我们提出了一项新任务:情绪 - 原因对提取(emotion-cause pair extraction ,ECPE)。这个任务旨在提取文本中潜在的情绪-原因对。我们提出了两步法来解决这个新的ECPE任务。首先通过多任务学习单独地进行的情绪提取和原因提取,然后进行情绪-原因配对和过滤。基准情绪-原因语料库的实验结果证明了ECPE任务的可行性以及我们方法的有效性。
A Simple Theoretical Model of Importance for Summarization
文本摘要重要性的一个简单的理论模型
论文作者:Maxime Peyrard
论文地址:https://www.aclweb.org/anthology/P19-1101
论文摘要:
摘要研究主要由经验方法驱动,手工精心调制的系统在标准数据集上表现良好,但其中的信息重要性却处于隐含状态。我们认为建立重要性(Importance)的理论模型会促进我们对任务的理解,并有助于进一步改进摘要系统。为此,我们提出了几个简单但严格定义的概念:冗余(Redundancy),相关性(Relevance)和信息性(Informativeness)。这些概念之前只是直观地用于摘要,而重要性是这些概念统一的定量描述。此外,我们提供了建议变量的直观解释,并用实验证明了框架的潜力以指导后续工作。
Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
用于面向任务的对话系统的可传输的多领域状态生成器
论文作者:Chien-Sheng Wu, Andrea Madotto, Ehsan Hosseini-Asl, Caiming Xiong, Richard Socher and Pascale Fung
论文地址:https://arxiv.org/pdf/1905.08743.pdf
论文摘要:
过度依赖领域本体和缺乏跨领域知识共享是对话状态跟踪的两个实际存在但研究较少的问题。现有方法通常在在推理过程中无法跟踪未知slot 值,且通常很难适应新领域。在本文中,我们提出了一个可转换对话状态生成器(Transferable Dialogue State Generator,TRADE)它使用复制机制从话语中生成对话状态,当预测在训练期间没有遇到的(domain,slot,value)三元组时可以促使知识转移。我们的模型由一个话语编码器、slot gate、状态生成器组成,它们跨域共享。实验结果表明,TRADE在人类对话数据集MultiWOZ的五个领域中实现了最先进的联合目标准确率48.62%。此外,我们通过模拟针对未见过的领域的zero-shot和few-shot对话状态跟踪,证明了其传输性能。在其中一个zero-shot域中TRADE实现了60.58%的联合目标准确率,并且能够适应少数几个案例而不会忘记已经训练过的域。
We need to talk about standard splits
我们需要谈谈标准的数据集分割做法
论文作者:Kyle Gorman and Steven Bedrick
论文地址:https://wellformedness.com/papers/gorman-bedrick-2019.pdf
论文摘要:
语音和语言技术的标准做法是根据在一个测试集上的性能来对系统进行排名。然而很少有研究人员用统计的方法来测试性能之间的差异是否是由偶然原因造成的,且很少有人检查同一个数据集中分割出不同的训练-测试集时的系统排名的稳定性。我们使用了2000年至2018年间发布的九个词性标注器进行复现实验,这些标注器每个都声称在广泛使用的标准的分割方式上获得了最佳性能。然而当我们使用随机生成的训练-测试集分割时,根本无法可靠地重现某些排名。我们在此建议使用随机生成的分割来进行系统比较。
Zero-Shot Entity Linking by Reading Entity Descriptions
通过阅读实体描述进行零样本实体链接
论文作者:Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin and Honglak Lee
论文地址:https://arxiv.org/pdf/1906.07348.pdf
论文摘要:
我们提出了zero-shot实体链接任务,其中mentions必须链接到没有域内标记数据的未曾见过的实体。这样做的目的是实现向高度专业化的领域的鲁棒迁移,因此我们不会假设有元数据或别名表。在这种设置中,实体仅通过文本描述进行标记,并且模型必须严格依赖语言理解来解析新实体。首先,我们表明对大型未标记数据进行预训练的阅读理解模型可用于推广到未曾见过的实体。其次,我们提出了一种简单有效的自适应预训练策略,将其称为域自适应预训练(domain-adaptive pre-training ,DAP),DAP可以解决与在新域中链接未见实体的域迁移问题。我们在为此任务构建的新数据集上进行的实验,显示了DAP在强预训练基线(包括BERT)上有所改进。
最佳 Demo 论文奖
OpenKiwi:An Open Source Framework for Quality Estimation
论文作者:Fabio Kepler, Jonay Trenous, Marcos Treviso, Miguel Vera and André F. T. Martins
论文地址:https://arxiv.org/pdf/1902.08646.pdf
论文摘要:
基于PyTorch的开源框架OpenKiwi,该框架可用于翻译质量评估。OpenKiwi支持单词级和句子级质量评估系统的训练和测试,实现了WMT 2015-18 质量评估比赛中的最佳系统。我们在WMT 2018(英-德 SMT 和NMT)的两个数据集上对OpenKiwi进行了基准测试,在单词级任务达到最先进的水平,句子级任务中也能够接近最先进的水平。
领取专属 10元无门槛券
私享最新 技术干货