标题:Cross-Domain LifeLong Sequential Modeling for Online Click-Through Rate Prediction 地址:https://arxiv.org/pdf/2312.06424 公司:腾讯微信
终身序列建模(LSM)显著的提升了社交媒体平台中推荐系统的性能。本文提出跨域LSM模型-本文跨域LSM的方法--终身序列交叉网络(LCN),与单域LSM不同的是,跨域 LSM 涉及对从源域到不同目标域的终生行为序列进行建模。LCN由两部分组成:1.交叉表示模块,使用对比损失来提高item的emb表征,有效的建立跨域item之间的联系。2.终身注意力金字塔模块(LAP),包含三个级联的注意力层并添加交互层整合三个层的结果。LAP模块可以广泛的捕捉用户兴趣且确保整个序列的梯度传播,还可以实现各个注意力层之间的联系,缩小顶层候选item池以允许使用高级注意力技术来减轻跨域的噪声并改善模型性能。
形式化建模表示,将用户特征分为三部分:用户基础特征;目标域和源域的短期行为序列分别为和;源域的终身行为序列特征对于给定的"用户-item"对<u, v>, 其中v代表目标域的item,模型的目标是预测用户u对目标域item v的点击率,设模型参数为,点击率定义为:而点击率模型通常由交叉熵损失函数来优化
CRP 模块是一个联合训练的子网络,其目标是学习可以跨域连接item的emb表征。这些表征在主网络中用于增强其从源域的终身序列中识别出与给定候选集最相关item的能力。LAP 模块由三层级联注意力构成,每层处理上一层排名靠前的item。LAP 模块的渐进性确保了与目标item直接相关的上下文信息的提取。整体结构如下图
终身行为序列记录用户在很长一段时间内的交互。当考虑特定item时,序列中可能只有一部分信息对用户的点击率具有预测价值,而这在跨域终身序列研究中体现的更加明显。对于跨域模型来说,最重要的是识别序列中最相关的item,以此来优化模型容量和计算效率。通常终身序列建模(LSM)被分割为两个单元:通用搜索单元(GSU)和精确搜索单元(ESU)。GSU的角色是通过终身序列筛选并识别与候选项目最相关的项目。其有效性高度依赖于所使用的item表征的质量。先前的方法通过重载模型训练期间学习的emb表征,已证实当数据分布和训练数据一致时表现很好。然而当候选item和序列item属于不同领域时,item表征必须要能够桥接源域和目标域之间的差距。鉴于模型主要在目标领域数据上进行训练,实现这一点并不容易。
为解决这个问题,本文提出Cross Representation Production(CRP)模块,该模块与主网络一起细化跨领域item。CRP模块的灵感来自于对比学习,它从用户短期行为序列中选择正负样本。然后对item表征施加额外的监督,以增强跨领域item之间的关系学习。
样本对的构建是对比学习的基础。在CRP模块中,通过从用户短期行为序列中选择item来实现这一点。选择过程可以理解为:用户的兴趣往往会在不同域之间保持稳定,尤其是在短周期内。因此用户短期行为序列中的item可能会表现出类似的特征,无论它们来自哪个领。这种一致性使得能够跨统一采样正样本和负样本对。
如下图所示,每个用户有三种不同类型的正样本对。首先从目标领域的短期序列中选择两个item形成目标领域内的正样本对。接着从源领域的短期序列中选择两个来构建跨领域正样本对。
关于负样本对,采用与正采样相似的方法,但使用的是同一训练批次中不同用户的不同行为序列中的item。同样产生三种类型的负样本对:,和。对于每种类型,每批训练时采样M对,然后将其用作该批次内所有正样本对的负向对应样本。
CRP模块采用对比损失函数,目的是强制模型最小化给定批次内正样本对的item表征之间的余弦距离。每种类型的正样本对都有相应的损失函数,如下所示:
最终的损失是上述各个样本损失的加权和
该模块将传统的两阶段框架扩展为三层级联注意力金字塔结构,旨在优化终身序列内的搜索过程,来实现在不同层之间的一致性,LAP减少了进入最顶层的item数量。这种减少允许在最顶层应用更先进的注意力技术来过滤噪声并增强表示的非线性。三层注意力分别为全范围注意力(CSA)、中范围注意力(MSA)和聚焦范围注意力(FSA)。
作为注意力的第一级,完全范围注意力(CSA)映射了传统框架中GSU的功能。在CSA中对整个终身序列执行广泛但通用的搜索。目标是确保序列中的每个项目都被考虑在内,从而排除最不相关的item进入后续层次。同时CSA可以通过在搜索期间获得的注意力分数来执行加权平均池化,从而提供初步的兴趣表示。对于给定候选item和终身行为序列,每个序列项目内的注意力分数计算如下:
其中表示终身序列item的embedding,则表示候选item的embedding。然后根据的排序结果选择topK个item,构建一个缩减的子序列送入到第二级注意力。
与先前两阶段方法不同,本文引入一个中间的中等范围注意力(MSA)层,有效地连接第一层和第三层。这种增加的动机是:通常绝大多数的注意力分数往往集中在序列中仅20%的项目上。通过引入MSA,将CSA的一部分功能——过滤相关性较低的项目——分散到这个中间层次,增强了LAP模块的整体一致性,并进一步缩小了最终注意力层次的item候选池。在MSA中结合有关item的额外上下文信息来执行二次注意力搜索。需要注意的是,这层使用的上下文细节,如交互细节(比如观看时长)与最终层次中将使用一致。这种一致性至关重要,因为这些上下文信息已被证明对序列建模有显著益处。
形式上,本层注意力分数计算为:
同理,对第一层的结果按照注意力分数权重,再次筛选子序列
最终注意力层的目标与ESU相似,旨在根据通过前几个注意力层次筛选出的最相关item,提供针对候选item的详细且针对性的兴趣表征。聚焦范围注意力(FSA)得益于item集合的缩小,能够使用更先进的注意力技术来增加表示的非线性。本文采用了类似于多头变换器解码器的注意力来从不同角度提取兴趣。形式上,对于item候选集和终身子序列,多头注意力中的第h个头的输出计算如下:
与MSA中使用的过程唯一的区别在于增加多头机制以保持一致性。在此基础之上,整合了不同头的结果,并使用ReLU层来进一步增强模型的非线性
在LAP模块的最后,整合来自每个注意力层次的兴趣表示,生成一个包含终身序列中用户广泛兴趣的表征。这种整合还确保了整个序列的完整梯度传播,增强了不同注意力层次之间的一致性。LCN的最终损失函数是CTR损失函数和CRP损失函数的组合
公共数据集和工业数据集上的效果如下