CIKM'21「Adobe」Locker：具有局部约束的自注意力序列推荐

秋枫学习笔记

发布于 2022-09-19 11:11:45

5140

点击关注我们，提高学习效率

title：Locker: Locally Constrained Self-Attentive Sequential Recommendation
link：https://cseweb.ucsd.edu/~jmcauley/pdfs/cikm21.pdf
from：CIKM 2021

1. 导读

对于序列推荐任务，有许多方法都用到了自注意力机制来捕捉用户潜在的长期和短期兴趣，全局注意力机制虽然可以较好的捕捉长期兴趣，但是对短期兴趣的捕捉能力不强，近期的一些方法发现适当的归纳局部和其他偏差可以提高自注意力的泛化能力。因此作者提出了Locker来促进自注意力机制更好的捕获用户短期兴趣。

本文作者主要考虑的是自注意力无法很好捕捉短期偏好的情况，从而提出了对其进行相应的改进，具体地，作者提出了好几种尝试来归纳局部信息，基本思路就是对局部信息或者说对短期兴趣在注意力机制上进行约束。其实对于短期偏好问题，本文是关注注意力机制，之前阅读的文章中也有提到，如

WSDM'22「微软」会话推荐：多粒度连续用户意图学习

2. 基础

2.1 符号

用户集合为U，商品集合为I，用户行为序列集合为

S=\{S_1,...,S_{|U|}\}

，每个用户的交互序列为

S_u=\{s_1^{(u)},...,s_{N_u}^{(u)}\}

，其中的s_i就是商品。给定序列

S_u

，预测下一个可能交互的商品

S_{N_u+1}^{(u)}

2.2 自注意力推荐模型

自注意力推荐模型，简称为SAR。全局的自注意力机制可以用于发掘交互商品之间的相关性。令

H_i^l \in \mathbb{R}^{1\times d}

表示交互商品

s_i

经过

层自注意力层后得到的embedding。经过M个头的多头自注意力可得向量

\tilde{V}_i

，公式如下，其中

f_{att}

表示注意力机制。然后将V通过残差操作，LN和FFN等类Transformer操作得到生成下一层的embedding，具体不赘述。

\begin{array}{l} \tilde{V}_{i}=\left[\tilde{V}_{i}^{(1)} ; \ldots, \tilde{V}_{i}^{(m)} ; \ldots ; \tilde{V}_{i}^{(M)}\right] \mathrm{W}_{O}, \\ \text { where } \tilde{V}_{i}^{(m)}=\sum_{j=1}^{N} f_{\text {att }}\left(\mathrm{Q}_{i}^{(m)} \rightarrow \mathrm{K}_{j}^{(m)}\right) \cdot \mathrm{V}_{j}^{(m)}, \end{array}

3. 方法

3.1 Locker的框架

本来的多头注意力机制有M个头，不加区分。现在，将这M个头分为局部的和全局的编码器，

M_l+M_g=M

。则V的计算公式稍作改动，如下，

\tilde{V}_{i}=\left[\tilde{V}_{i, l}^{(1)} ; \ldots ; \tilde{V}_{i, l}^{\left(M_{l}\right)} ; \tilde{V}_{i, g}^{(1)} ; \ldots ; \tilde{V}_{i, g}^{\left(M_{g}\right)}\right] \mathrm{W}_{O}

3.2 基于模型的局部编码器

通过具有归纳局部偏差的神经网络来生成局部的embedding

\tilde{V}_{i,l}^{(m_l)}

3.2.1 固定深度的RNN

RNN在短期序列建模方面很有效。对于局部编码器，为了增强模型捕捉短期动态的能力（同时保持效率），很自然地引入了一个固定深度的 RNN 模块作为本地编码器，其中g是RNN，文中作者采用GRU

\tilde{V}_{i, l}^{\left(m_{l}\right)}=g(\mathrm{~V}_{i, l}^{\left(m_{l}\right)}, \underbrace{g\left(\mathrm{~V}_{i-1, l^{\prime}}^{\left(m_{l}\right)} \ldots\right)}_{\text {recurrent depth } s}),

3.2.2 卷积网络

卷积网络也可以用于建模邻域动态兴趣，定义基于CNN的编码器为下式，其中

\odot

表示内积，act是激活函数。

\tilde{V}_{i, l}^{\left(m_{l}\right)}=\left[\mathrm{c}_{1} ; \ldots ; \mathrm{c}_{d / M}\right], c_{j}=\operatorname{act}\left(V_{[i]_{s}, l}^{\left(m_{l}\right)} \odot \mathrm{W}^{(j)}\right)

3.3 基于掩码的局部编码器

基于掩码的局部编码器，通过引入局部感知掩码来重新考虑全局注意力函数 𝑓att，以增强捕获短期动态的能力，公式如下，其中σ是掩码，当其为1时表示全局自注意力机制。

f_{\text {att }, l}\left(\mathrm{Q}_{i} \rightarrow \mathrm{K}_{j}\right)=\frac{\exp \left(w_{i j}\right) \cdot \sigma_{i j}}{\sum_{k=1}^{N} \exp \left(w_{i k}\right) \cdot \sigma_{i k}}