TLDR: 在生成式自监督学习方法成功的启发下,本文提出了一种自动化的自监督数据增强方法,结合掩码自编码器方法,用于增强基于图神经网络的协同过滤方法。
论文:https://arxiv.org/abs/2303.07797 代码:https://github.com/HKUDS/AutoCF
港大数据智能实验室: https://sites.google.com/view/chaoh
推荐系统利用用户的个性化兴趣偏好,为用户推荐合适的商品,从而可以解决信息过载的问题。它在信息流应用、电商、线上广告等场景中扮演着重要角色。推荐系统的关键是在基于历史观测数据的基础上建立有效的用户-商品交互记录模型。目前,协同过滤方法已经有多种变体,其中包括矩阵分解、自编码器、注意力机制等。此外,基于图结构数据的图神经网络也可以通过迭代式信息传播进行高阶关系学习,是协同过滤任务效果最好的模型之一。然而,这些方法在标签数据不充足的情况下不能准确地表征用户和商品。
最近,计算机视觉和自然语言处理领域的对比自监督学习方法已经取得了显著的成果,因为它们可以缓解标签数据不足的问题。受到这一启发,推荐系统研究开始提出各种不同的对比学习方法,以缓解稀疏标签数据的问题。然而,现有的对比学习方法十分依赖于对比学习视图的可靠性。现有方法的有效性取决于生成的对比视图是否适合下游任务和数据集,因此在不同推荐场景中生成准确的数据增强视图具有挑战性。现有的手工数据增强方法常常会引入噪声和与下游任务无关的信息,从而影响了自监督学习的效果。
现有基于随机或某种先验进行随机扰动的自监督推荐方法(如SGL、HCCF)可能会丢失重要的结构信息,同时保留噪声信息。为了更深入了解这个问题,我们测试了不同方法在不同噪声程度、和不同长尾程度的数据集上的表现,比较的方法包括本文的AutoCF方法以及几个现有最好的基线方法。结果表明,面对不断增多的数据噪声,基线方法的效果严重衰退,且在意外的数据分布上,基线方法效果也表现出了严重的退化。
以上内容表明,手工数据增强方法对现有的自监督推荐系统受到限制,使其无法适应不同的数据和场景,无法产生高质量自监督学习信号。因此,需要一种能够自动化、自适应生成无噪自监督学习信号的自监督学习推荐系统,以减轻人工设计和调试数据增强方式的开销。本文针对上述问题,尝试回答:是否存在一种方式,能够自动化提炼重要的自监督信号,用于自适应的数据增强?
在生成式自监督学习方法成功的启发下,本文提出了一种自动化的自监督数据增强方法,结合Masked Autoencoding方法,用于增强基于图神经网络的协同过滤方法。本文主要解决以下几个技术问题:如何自动化提炼对推荐任务更有帮助的自监督信号?如何使图结构数据增强的过程可学习以保留重要的协同关系?如何设计图自编码器框架,以利用全局信息进行更好的图重建?
为了解决上述问题,本文提出了AutoCF框架,作为自适应于图结构的自监督信号提炼方法,以促进图神经协同过滤方法。该框架设计了一种可学习的掩码函数,能够自动找出重要的子图中心节点,并根据节点和周围子图的语义一致性判断图结构噪声程度进行masking和重建。同时,本文提出了一种新的Masked Graph Autoencoder模型,用于全局关系学习和图重建。
总的来说,本文对比分析了面对噪音扰动鲁棒性不足的自监督推荐系统,揭示了其不能自适应生成有效自监督信号的局限性,并提出了AutoCF框架,包括一种用于自动化生成自监督学习信号的可学习掩码框架和全局Masked Graph Autoencoder,以实现有效的生成式自监督学习。在多个数据集上进行实验,证明了AutoCF方法相对于现有的GNN和自监督推荐模型的优势。
本篇介绍的是AutoCF模型,主要包括自动化图增强模块及Masked Graph Autoencoder模块,模型框架如下所示。
为了利用用户商品交互图产生有效的自监督信号,本文提出了一种先掩藏再重建的生成式自监督任务,仅选择图中重要且不含噪声的子图进行处理。关键在于自动化地找到适合的子图中心节点,周围的子图结构将被掩藏并用于重建训练。
通过中心节点及其子图的互信息大小来衡量子图中节点的语义一致性,以自动选择出重要的子图,并通过Gumbel分布噪声进行扰动以增强掩藏子图挑选的随机性,从而增加模型的自监督信号。此方法可降低进行重建的子图包含噪音的含量。
得到上面的增强样本后,AutoCF采用Masked图自编码器网络对图增强样本进行重建。被掩藏的子图结构包含较少的噪声,通过对这些重要的图结构进行重建,AutoCF的图自编码任务可以产生更多的有效自监督信号,从而增强对模型参数的优化效果。
在AutoCF中,图卷积网络用于对被掩码的图增强样本进行高阶关系学习,在解码阶段,采用全局图自注意力机制和多头点积注意力计算方式,进行全局信息传播。
本文采用多任务优化方式,同时优化5种训练目标,包括3种自监督任务:最大化节点与子图表征互信息、最大化对掩藏边的重建预测、推远任意节点表征的对比损失。此外,AutoCF还进行了推荐任务的用户-商品关系预测,以及参数衰减的正则化。
我们在Gowalla、Yelp、Amazon三个数据集上开展了比较试验。总体试验结果如下,本文所提出的AutoCF在三个数据集上都表现出了明显的优势,比基础方法更有效。与其他自监督学习方法相比,AutoCF进一步提高了效果,证明了自动化数据增强对推荐效果的积极影响。同时,我们在不同稀疏度的子数据集上进行了测试,发现AutoCF在推荐效果方面相对基础方法有显著的优势。
我们还针对一些用户进行了实例学习,结果发现AutoCF基于互信息分值的噪声检测方法可一定程度反映用户行为的噪声程度。同时,该方法检测到的低噪声子图和高噪声子图在节点embedding方面也有所体现。随机选取的三个用户样例说明了这一点。前两个用户的互信息分值很高,他们的交互行为在场所/商家服务方面有较强的语义一致性;而第三个用户的互信息分值明显较低,查看其行为记录后发现他交互的商家位于多伦多和拉斯维加斯这两个距离较远的城市,而这些商家之间具有更高的多样性而缺乏明确的用户兴趣一致性。
此外,我们展示了互信息分值最高和最低的子图中多个节点表征的热度可视化结果。互信息较高的子图中,所有节点的表征表现出高度的一致性。与之相反,互信息较低的子图中节点表征则呈现出多样化的情况。这一样例展示了我们的AutoCF方法可选取表征一致的子图结构进行重建。
本文确认了现有自监督推荐系统的局限性,同时探讨了在图协同过滤框架下进行自动化自监督学习的方法。本文所提出的AutoCF能够自动生成自监督信号,增强Masked Graph Autoencoding自监督任务,从而有助于下游推荐任务的效果。本文提出了一种基于局部-全局互信息的自适应图增强方法,能够有效地提取重要、无噪的图结构信息,避免噪声和无关信息对自监督学习带来的负面影响。试验结果表明,AutoCF相对现有自监督推荐模型效果更佳,并验证了我们的自适应数据增强方法是合理和可解释的。