文章/答案/技术大牛

发布

社区首页 >专栏 >【论文笔记】A Triple Copy Strategy for Value Independent Neural Dialog State Tracking

【论文笔记】A Triple Copy Strategy for Value Independent Neural Dialog State Tracking

yhlin

发布于 2023-03-23 00:47:01

9860

文章被收录于专栏：yhlin's blogyhlin's blog

2020-ACL-TripPy: A Triple Copy Strategy for Value Independent Neural Dialog State Tracking

概要

多域对话以及开放词典设置使得对话状态追踪标的异常复杂。在本文中，作者充分利用了多种 拷贝机制 来填充槽值。一个槽的填充依赖于以下三种拷贝机制之一：

用户话语跨度预测：从用户输入中预测跨度作为槽值。
系统提示记忆：槽值从系统所保留的提示信息中获得，这解决了显示选择问题。
对话状态记忆：槽值可以从对话状态中已经包含的其他插槽复制值，以解决槽间共引问题。

实验表明该方法结合了 基于跨度的槽填充方法 和基于记忆的方法 的优点，以 完全避免使用候选值选择列表 。该策略简化了 DST 任务，同时在各种流行的数据集，包括 MultiWOZ2.1 的基础上实现了最先进的性能，其中我们实现了超过55% 的联合目标精度。

问题定义

设长度为 T 的对话序列 $X = {(U_1,M_1),...,(U_T,M_T) }$ ， $U_t,M_t$ 分别表示第 t 回合的用户话语和系统话语。DST 模型的任务如下：

确定每一对话回合 $S={S_1，……，S_N}$ 中的任何 N 个域 - 槽对是否存在
预测每一个槽 $S_n$ 的值
追踪 $t \in [1,T]$ 之间的对话状态 $DS_t$

模型

模型架构如上图。用 BERT 编码对话上下文，并将生成的上下文表示转发给各种分类头，以解决 DST 的子任务。聚合序列表示作为槽门分类器的输入。token 表示的序列是对跨度预测器的输入。

模型的大致执行流程如下：

在对话的每一回合，将当前 用户话语 、 先前系统话语 、 对话历史 经过上下文编码器（Context Encoder）编码得到聚合表示和 token 表示。
对于每一个槽，槽门分类器（Slot gate）判断其是否在输入中被给出。
根据槽门的分类结果（Span prediction, Inform memory, DS memory）通过拷贝机制之一预测相应的槽值。

下面分别介绍其组成：

Context Encoder

使用 BERT(Devlin 等人，2018)作为编码器，在每个回合的对话框上下文中进行编码为：

$Ht = (U{t-1},M_{t-1}),...,(U_1,M_1)$ : 为 t 回合前的对话历史 $R_t = [r_t^{CLS},r_t^1,...,rt^{seq{max}}]$ : Bert 的输出序列

其中 $r_t^{CLS}$ 是整个回合的表示，包括对话上下文 $H_t$ ，其他向量都用于下游跨度预测任务。

Slot Gates

模型为每个 域 - 槽 对配备了一个槽门。这确保了多域 DST 的最大灵活性，因为对单个回合中可能出现多少个域没有限制。

在每一个回合 $t$ 中，槽门分类器都将所有插槽 $S_n$ 都从 $C = {none,dontcare,span,inform,refer}$ 分配一个类别。各类别的表示如下：

none：表示槽不从当前回合得到值
dontcare：槽可以接受任何值
span：在 $U_t$ 上通过跨度预测获得值
inform：用户引用了在 $M_t$ 上被提及的一个值
refer：用户引用了一个在当前对话状态 $DS_t$ 中已经出现的值

其输出为一个分布，表示每一个类别的概率：

$p{t,s}^{gate} (r_t^{CLS}) = softmax(W_s^{gate} \cdot r_t^{CLS} + b_s^{gate}) \in \R^5$

每一个槽门都由一个可训练的线性分类层实现。

, 概率分布计算如下：

$p{t,s}^{bgate}(r_t^{CLS}) = softmax(W_s^{bgate}\cdot r_t^{CLS} + b_s^{bgate}) \in \R^4$

Span-based Value Prediction

改模块接受第 t 回合整个对话上下文的 token 表示 $[r_t^1,...,rt^{seq{max}}]$ ，计算过程如下：

每个跨度预测器都由一个可训练的线性层分类层实现，然后是两个平行的 softmax 层来预测开始和结束位置。而对于错误预测 ( $end_t^s < start_t^s$

System Inform Memory for Value Prediction

系统提示的记忆保存了第 $t$ 回合对话被系统提及的所有槽值。满足如下条件会激发该机制：

如果用户 积极 引用了它（如系统希望用户确定一个选择）

用户仅仅显示地做出了选择但是跨度预测不可用时

$DS_t$ 中的一个槽值就需要其来填充，如下图中的红框中的对话：

其中域槽对 <restaurant,name> 被分类为 inform, 故其值会从系统提示的值中拷贝也即 fitzbililies restaurant，令 $s$ 是各自的域插槽的索引。

DS Memory for Coreference Resolution

对话越复杂，就越有可能需要解析 共同引用 。例如，餐馆的名字很可能是坐出租车的目的地，但在同一谈话中点出租车时可能不会明确提到餐馆。 共同引用 解决方案是具有挑战性的，因为如何形成引用的丰富多样性，以及 由于共同引用经常跨越多个回合。

第三种拷贝机制利用 DS（对话状态）作为内存来解析共同引用。如果槽门预测用户引用了在 对话期间已经分配给不同插槽的值，则可以引用的所有可能插槽上的概率分布为：

对于每个插槽，线性层分类层要么预测包含引用值的插槽，要么预测没有引用的插槽。

Auxiliary Features(槽门辅助特征)

一些最近的神经 DST 方法利用 辅助输入 来保存上下文信息。例如，SOM-DST 将对话状态添加到其单回合输入中，作为跨回合保存上下文的一种手段。

在本模型中，通过引入 $H_t$ 我们已经将上下文信息输入 BERT 中了。除此之外，我们还基于系统通知记忆和 DS 内存创建辅助特征。方法是生成了两个二进制向量 $a_t^{inform} \in {0,1}^N 以及 a_t^{ds} \in {0,1}^N$ 分别表示：

一个槽的值是否被系统提示过（基于系统提示的记忆）
一个槽的值是否在对话状态中被填充过（基于对话状态的记忆）

）中去，即：

$\hat{r}_t^{CLS} = r_t^{CLS} \oplus a_t^{inform} \oplus a_t^{ds}$

Partial Masking

我们用 BERT 的通用 UNK 标记替换值，部分屏蔽对话框历史 $H_t$ 。掩蔽是部分的，因为它只应用于过去的系统话语。对于系统话语，所包含的值是已知的，其掩蔽也很简单。这种处理使得该模型被迫关注历史背景信息，而不是对特定值的观察。这将导致更鲁棒的表示 $r_t^{CLS}$ ，从而获得更好的整体槽门性能。

Dialog State Update

使用与 BERT-DST 相同的基于规则的更新机制来跟踪对话状态。在每个回合中，如果检测到一个值不是none，我们都会更新一个插槽。如果预测一个插槽为none，则该插槽将不会被更新。

实验

数据集

MultiWOZ 2.1 多域
WOZ 2.0 单域
sim-M 单域
sim-R 单域

主要结果

消融实验

分析

我们分析了 TripPy 在 MultiWOZ2.1 上的消融实验中的性能（见表 4）。我们的基线模型与 BERT-DST 相比最好；我们只以单个回合作为输入，只使用跨度预测从回合中提取值。由此产生的性能可与其他基于跨域的方法相媲美，如 DST- 读取器和 DST-span 等，并证实了 MultiWOZ 中的对话太复杂了，不能仅由这个信息提取机制来处理。

2021-ACL-Dual Slot Selector via Local Reliability Verification for Dialogue State Tracking

概要

问题动机

现有的方法通常从头开始预测对话状态。然而，每个回合中绝大多数插槽应该继承前一个回合的插槽值。因此，在每个回合中处理槽的机制不仅效率低下，而且可能由于冗余槽值的产生而导致额外的错误。

贡献

为了解决上述问题，我们设计了基于当前回合对话的 两段式 DSS-DST，它由基于当前回合对话的 双槽选择器 和基于对话历史的 槽值生成器 组成。

双槽选择器从两个方面决定每个槽是更新槽值还是从前一个回合继承槽值：

如果它与当前回合对话话语之间有很强的关系（继承）
如果可以通过当前回合对话来获得高可靠性的槽值（更新）

选择要更新的槽允许输入槽值生成器，通过混合方法更新值，而其他槽直接继承上一个回合的值。实验结果表明，该方法在 MultiWOZ2.0、MultiWOZ2.1 和 MultiWOZ2.2 数据集上的联合准确率分别为 56.93%、60.73% 和 58.04%，取得了新的性能，具有显著的改进。

模型

如上图所示，DSS-DST 模型包含Embedding，Dual Slot Selector，Slot Value Generator 三个组成部分, Dual Slot Selector 内又分为 Preliminary 和 Ultimate 两个部分。

具体来说，Preliminary Selector简要地触及了当前回合对话话语和每个插槽的关系。然后，Ultimate Selector获得每个插槽的临时插槽值，并计算其可信度。Ultimate Selector的基本原理是，如果可以通过当前的回合对话获得具有高可靠性的插槽值，那么就应该更新该插槽。最终，所选的槽进入槽值生成器，并利用提取对话方法和基于分类的混合方法根据当前对话话语和对话历史生成值。

T 回合对话上下文表示为 $\mathcal{X} = {(R_1,U1),...,(R{t-1},U_{t-1}),(R_t,Ut),(R{t+1},U_{t+1}),...,(R_T,U_T) }$ , 假设有 $J$ 个预定义槽 $\mathcal{S} = {S_1,S_2,...,S_J}$ 其中 $S_j$ 表示第 $j$ 个槽。第 $t$ 回合的对话状态为 $\mathcal{B}_t = {(S_j, V_j^t) | 1 \le j \le J }$ 其中 $V_j^t \in \mathcal{V}_j$ 表示槽 $S_j$ 对应的槽值， $\mathcal{V}_j$ 表示槽 $S_j$ 的所有值的集合。

另外，本文使用域 - 槽对来指代槽信息，如一个完整的槽表示应该是 $\mathcal{restaurant-pricerange}$

Embedding

嵌入层的输入为 $X_t = [CLS] \oplus Dt \oplus B{t-1}$ 。 $B_t=B_t^1 \oplus ... \oplus B_t^J，B_t^j = [SLOT]^j \oplus S_j \oplus - \oplus V_t^J$ 使用 ALBERT 作为编码器编码输入。对于每个 token，输入是输入 $Xt$ 和段 id 嵌入的和。对于段 id，我们对属于 $B{t−1}$ 的标记使用 0，对属于 $D_t$ 的标记使用 1。

编码器的输出表示为 $O_t∈R^{|Xt|×d}，且 h^{[CLS]}_t、h^{[SLOT]^j}_t∈R^d$ 分别为对应于 [CLS] 和 $[SLOT]_j$ 的输出。为了获得每个对话和状态的表示，我们将 $O_t$ 分为 $H t 和 H {t−1}^B$ ，作为第 t 轮对话和 $t−1$ 轮对话状态的输出表示。

Dual Slot Selector

双插槽选择器由一个初步选择器和一个最终选择器组成，它们根据当前的回合对话框对每个插槽共同作出判断。

Slot-Aware Matching

插槽可以被视为一类特殊的问题，因此受到 MRC 中通道和问题之间的明确注意匹配的启发，我们将插槽表示作为表示 H 和输出表示 $H^{[SLOT]^j}_t$ 依次输入插槽感知匹配层：

输出表示 H 的每个位置与 t 回合的第 j 个槽之间的相关性。

Preliminary Selector

初步选择者简要介绍当前回合对话话语和每个槽的关系，以作出初始判断。对于第 t 回合的第 j 个插槽 (1≤j≤J)，将其输出表示 $H^{[SLOT]^j}_t$ 和对话表示 $H_t$ 提供给 SAM 如下：

其中 $\alpha_t^j \in R^{N\times 1}$ 表示对话的每个位置与第 j 个槽的关系。然后我们得到聚合的对话表示 $H_t^j∈R^{N×d}$ ，并将其传递到一个完全连接的层，得到由第 j 个槽的选择和失败元素组成的分类，如下所示：

Ultimate Selector

最终选择器将对 $U_{1，t}$ 中的插槽做出判断。最终选择器的机制是获得槽的临时槽值，并通过 t 回合的对话计算其可靠性，作为每个槽的置信度。

首先预测其临时值 $\varphi_t^j$ ：

这里我们定义了 $V_j$ ，第 j 个槽的候选值集。如果 $\varphi^j_t$ 属于 $V_j$ ，我们计算其在所有可能提取的临时槽值中的概率，并计算 $Ult_score^j_t$ 作为第 j 个槽的分数：

如果不属于，我们使用基于分类的方法从 $V_j$ 中选择一个临时的插槽值:

我们选择 0 作为索引，因为 $V_j[0]=None$ 。

Threshold-base decision

基于阈值的决策，插槽选择的阈值 δ 是在我们的模型中设置和确定的。第 j 个槽的总分是预测的初步选择者分数和预测的最终选择者分数的组合：

Slot Value Generator

对于非继承的槽，由槽值生成器生成槽值。为了简单起见，我们将该过程概述如下，因为该模块使用了与最终选择器相同的提取方法和基于分类的混合方法：

值得注意的是，槽值生成器和最终选择器之间最大的区别是，槽值生成器的输入话语是之前 k−1 回合和当前回合的对话，而最终选择器只利用当前回合对话作为输入话语。

Optimization

在训练过程中，我们优化了双槽选择器和槽值生成器。

Preliminary Selector

Ultimate Selector

Slot Value Generator 本模块的训练目标 $L_{gen，t}$ 具有与最终选择器相同的训练目标形式。

实验

数据集

MultiWOZ 2.0
MultiWOZ 2.1
MultiWOZ 2.2

主要结果

尽管在 MultiWOZ2.2 上的实验结果具有稀疏性，但我们的模型在现有的公共模型中仍然大幅领先。类似于(Kimetal.，2020)，我们的模型在 MultiWOZ2.1 上比在 MultiWOZ2.0 上获得了更高的联合精度。对于 MultiWOZ2.2，分类槽的联合精度高于非分类槽。这是因为我们利用萃取方法和基于分类的混合方法来处理分类槽。然而，我们只能对非分类插槽使用提取方法，因为它们没有本体（即候选值集）。