一,问题
已有的新闻语料,为sentence-to-sentence模型在单文档摘要中的应用奠定基础。然而,针对多文档摘要,缺少相应大规模的用于复杂模型参数估计的语料。本文作者提出一种基于句子的方法,对句子重要度进行回归分析,然后基于句子重要度的排名得到相应的摘要。
二,方法介绍
本文的一个重要创新之处在于,利用句子之间的关系图,对句子向量进行优化。针对一个cluster中的多个篇章而言,每个篇章包含多个句子。
首先,每个句子的结构用RNN模型来捕捉,得到相应的句子向量。
图的构建:对于同一个cluster下,句子之间的关系(边的权重)通过三种方法衡量,利用tf-idf计算相似度,Approximate Discourse Graph,为了进一步增加变异性,作者提出sentence personalization score。
在图构建完之后,使用Kipf and Welling (2017)提出的Graph Convolutional Networks,最终输出,针对每个节点(句子)的隐藏特征,即考虑到篇章结构的句子向量。
每个篇章,继续使用rnn模型构建篇章的向量表示。
最后,针对每个cluster,篇章的平均最为cluster向量表示。
最终的句子重要度估计如下式所示:
领取专属 10元无门槛券
私享最新 技术干货