前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于生成模型的推荐系统综述 (Gen-RecSys)

基于生成模型的推荐系统综述 (Gen-RecSys)

作者头像
张小磊
发布2024-06-18 16:17:07
1670
发布2024-06-18 16:17:07
举报

TLDR: 本篇综述旨在调研生成式推荐模型(Gen-RecSys)的主要进展,包括:交互驱动生成模型的基本概述;大型语言模型(LLM)在生成式推荐、检索和会话推荐中的应用;推荐系统中处理和生成图像视频内容的多模态模型的整合。本文以整体视角讨论了Gen-RecSys的影响和危害,并指出了其面临的挑战。

论文:arxiv.org/abs/2404.00579 代码:github.com/yasdel/LLM-RecSys

1 研究背景

传统的推荐系统依赖于捕获特定领域内的用户偏好和项目特征,往往比较狭义,生成式模型的进步极大地改善了这一情况。具体地说,生成模型从复杂的数据分布中学习表示和采样,其不仅包括用户-物品交互历史,还包括文本和图像内容,从而为新的交互式推荐任务解锁了这些数据形式,作为补充。

此外,通过引入大型语言模型(LLM),如ChatGPT和Gemini,自然语言处理(NLP)取得了非凡的能力,包括推理、上下文少样本学习,以及在预训练参数内获取广泛开放的信息。由于其通用性,这些预训练生成模型为各种各样的推荐应用开辟了一个新研究空间,如下表所示。

生成模型的核心在于其能够从数据分布中建模和采样,以用于各种推断目的。这使得其在推荐系统中有两种主要的应用模式:

  1. 直接训练模型。这种方法直接在用户-物品交互数据上训练生成模型,例如VAE-CF,以预测用户偏好,而不使用大型、多样化的预训练数据集。这些模型基于用户之前的交互来学习用户可能喜欢的项目的概率分布。
  2. 预训练模型。该策略使用在不同数据(文本、图像、视频)上预先训练的模型来理解复杂模式,关系和上下文信息。本文推荐系统中的预训练模型的使用包括以下设置:
  • 零次和少次提示,后者使用上下文学习(ICL)进行广泛理解,无需额外训练。
  • 微调,对于不同的推荐任务,使用特定的数据集对模型进行调整。
  • 检索增强生成(RAG),将信息检索与生成式建模整合为上下文相关输出。
  • 嵌入下游训练,为复杂内容表示生成嵌入或标记序列。
  • 多模态方法,使用各种数据类型来提高模型推荐的准确性和相关性。

下图描述了本文关于Gen-RecSys调研的组织结构。其被分成几个层次,包括数据源、推荐模型和场景,系统评估方法及面临的挑战。本文提供了一种系统的方法,将Gen-RecSys研究的推荐过程分解为了离散的组件和方法。

2 交互驱动的推荐系统生成模型

交互驱动推荐是一种只有用户项目交互(例如“用户 A点击项目B”)可用的设置,这是推荐系统研究最通用的设置。此设置专注于用户-物品交互的输入和物品推荐列表的输出,而不是来自其他更丰富的输入或输出(例如推荐解释)。尽管不涉及文本或视觉信息,深度生成模型(DGM)仍然展现了其独特的可用性。例如,DGM可以增强模型训练的用户-物品交互,使用去噪进行推荐,并学习推荐布局的分布。

本节使用用户-物品交互数据,研究推荐任务的DGM 范式,包括自动编码模型、自回归模型、生成对抗网络、扩散模型等。

2.1 自编码模型

自编码模型学习并重建模型输入,其可用于去噪、表示学习和生成任务。

去噪自编码模型 去噪自编码器(DAE)是一组学习从损坏的输入中恢复原始输入的模型。传统上,去噪自编码模型一般具有作为“瓶颈”的隐藏层,例如,AutoRec尝试重建部分观察到的输入向量。更广泛地说,类似BERT的模型也被视为去噪自编码模型。这些模型通过堆叠的自注意力块来恢复损坏的(即掩码后的)输入。

变分自编码模型 变分自编码器(VAE)是学习从复杂概率分布到概率分布的随机映射的模型。分布通常很简单(例如,正态分布),解码器可从中采样以生成输出。VAE在传统推荐系统中得到了广泛的应用,特别是协同过滤、序列推荐和候选项生成。与去噪自编码器(DAE)相比,由于其更强的建模假设,VAE通常在协同过滤中表现出优越的性能,例如VAE-CF。此外,条件VAE(CVAE)模型学习给定用户的偏好推荐列表的分布,其在生成超越贪婪排序模式的列表时非常有用。ListCVAE和PivotCVAE等使用VAE生成整个推荐列表,而不是单独对单个物品进行排名。

2.2 自回归模型

递归自回归模型 循环神经网络(RNN)用于预测基于会话和序列推荐中的下一个物品,例如GRU4Rec及其变体。此外,利用循环网络的自回归生成性质,研究人员提取模型生成的用户行为序列,用于模型攻击的研究。

自注意力自回归模型 自注意力模型受Transformer的启发,用自注意力和相关模块取代了循环单元。这组模型可用于基于会话的推荐和顺序推荐、下一购物篮预测或捆绑商品预测以及模型攻击,类似于RNN。同时,自注意力模型的好处是它们比RNN更好地处理长期依赖关系并支持并行训练。此外,自注意力模型是预训练模型和大型语言模型的实际选择,其在推荐系统中越来越受欢迎。

2.3 生成对抗网络

生成对抗网络(GAN)由两个主要组件组成:生成器网络和鉴别器网络。这些网络进行对抗性训练,以提高生成器和鉴别器的性能。GAN在推荐系统中用于多种目的,在交互驱动的设置中,GAN被用于选择信息丰富的训练样本,例如,在IRGAN中,利用生成检索模型进行负样本采样。同时,GAN综合用户偏好或交互来增强训练数据。此外,GAN在生成推荐列表或页面方面表现出了有效性,例如全页面推荐设置。

2.4 扩散模型

扩散模型经过两步生成输出:(1)通过正向过程将输入损坏转化为噪声,(2)通过反向过程从噪声中迭代地恢复原始输入。其优秀的生成能力吸引了越来越多的推荐系统社区的兴趣。首先,有的工作通过扩散模型来学习用户未来的交互概率。例如,DiffRec使用来自用户历史交互的损坏噪声来预测用户的未来交互。其次,还有工作侧重于使用扩散模型来增强训练序列,可缓解序列推荐中的数据稀疏性和长尾用户问题。

2.5 其他生成式模型

除了前面提到的生成模型,推荐系统还借鉴了其他类型的生成模型。例如,VASER利用规范化流(和VAEs)进行基于会话的推荐。另一方面,GFN4Rec采用生成流网络进行列表推荐。此外,IDNP利用生成推荐中的大型语言模型神经过程进行序列推荐。

3 推荐系统中的大语言模型

利用文本内容的自然语言不仅可以表示物品特征或用户偏好,还可以表示用户-系统交互、推荐任务和外部知识。具体来说,实际物品通常与丰富的文本内容相关联,包括标题、描述、半结构化文本元数据和评论。同样,在传统系统和新兴的会话式推荐系统范例中,用户偏好可以很容易地在自然语言中表达:前者利用自然语言内容,如评论、搜索查询或喜欢的物品描述,后者则直接通过用户的口述与会话。预训练的大语言模型则可以利用这些文本数据,学习到基于用户偏好来生成和解释物品推荐的推理能力。这些预训练的能力可以通过提示、微调、检索和外部工具进一步增强。

3.1 仅编码的大语言模型推荐

密集检索推荐 每个项目的文本内容(例如,标题、描述或评论)被视为文档,并且如果没有来自用户的显式查询可用,通常的方法是通过连接用户最近喜欢的物品的描述来合成查询。密集检索器(例如,BERT、TAS-B)通过评估仅编码大语言模型的文档嵌入和查询嵌入之间的相似性(例如,点积或余弦相似性)来产生给定查询的文档的排序列表。

通过大语言模型物品偏好融合进行推荐 一些工作通过在大语言模型交叉编码器结构中联合嵌入自然语言项和偏好描述来实现得分预测。这种融合编码器方法通常表现出很强的性能,因为其允许用户和物品表示之间的交互,但其计算代价比密集检索大,因此最适用于小物品集或作为重排序器使用。

3.2 基于大语言模型的推荐

大语言模型的生成式推荐依赖于在大型文本语料库上的预训练,其可提供有关广泛实体、人类偏好和常识的知识,这些知识可直接用于推荐,或对其进行微调或提示以用于增强泛化性和减少对特定领域数据的需求。

零次和少次生成式推荐 其构造具有用户偏好的自然语言描述的提示或指令以推荐可能偏好物品或预测其得分。总的来说,未微调的大语言模型的性能不如基于足够数据训练的有监督的协同过滤方法,但在冷启动中颇具优势。少次提示(或情境学习),即提示包含输入-输出对的例子,通常比零次提示效果更好。

微调大语言模型进行生成式推荐 为了提高大语言模型的生成式推荐性能,向其内部参数增添知识,大部分工作工作集中于微调和提示词调优策略。

3.3 检索增强型推荐

虽然通过微调将知识添加到大语言模型内部通常会提高性能,但这种方法需要大量的参数来存储知识,并且每次系统更新都需要重新微调。另一种范式是检索增强生成(RAG),其以从外部知识来源(如密集检索器)检索的信息为条件来生成输出。RAG方法可以更好地促进在线更新,减少幻觉,并且通常需要较少的参数,因为知识可以外部化。最近已经开始探索RAG以进行推荐,最常见的方法是首先使用检索器或推荐系统基于用户查询或交互历史来构建候选项集,然后提示编解码大语言模型对候选物品集进行重新排序。

3.4 基于大语言模型的输入生成

与RAG中使用推荐系统或检索器以获取大语言模型输入的方式相反,大语言模型也可用于生成推荐系统的输入。例如:LLM2-BERT4Rec使用物品文本的OpenAI嵌入来初始化BERT4Rec的物品嵌入;Query-SeqRec将大语言模型的查询嵌入作为基于transformer的推荐系统的输入;Tiger首先使用大语言模型以生成物品文本嵌入,然后将其量化为语义ID,最后利用用户的历史交互物品ID,在基于T5的推荐系统上进行训练以生成新的ID。类似地,MINT和GPT4Rec通过提示大语言模型来生成给定用户交互历史的查询作为密集检索器的输入。

3.5 对话式推荐

该方向研究大语言模型在多回合、多任务、混合主动的自然语言推荐对话中的应用。它引入了对话历史作为一种丰富的新式交互数据。具体来说,ConvRec包括研究和整合各种会话元素,如对话管理、推荐、解释、问答、批评和偏好诱导。虽然一些研究使用单一的大语言模型(如GPT4)来处理ConvRec,但其他工作依赖于大语言模型来促进自然语言对话,并集成对推荐模块的调用,该模块根据对话或历史生成物品推荐。

4 生成式多模态推荐系统

近年来,用户开始期望比简单的文本或图像查询更丰富的交互水平,例如提供他们想要的产品的图片以及自然语言修改(例如,一件图片中的衣服,需要同样式但不同色)。此外,用户还希望可视化以了解物品是否符合使用场景(例如,衣服的上身效果,或者家具的摆放效果)。这种级别的交互需要新的推荐系统找出隐藏在每种模式中的独特属性。

4.1 为什么需要多模态推荐系统?

商户具有其客户和产品的多模态信息,包括产品描述、图像和视频、客户评论和购买历史记录。然而,现有的 RS 通常独立处理每个源,然后通过融合单模态得分来组合结果。

这种“后期融合”方法不足以满足客户需求。比如冷启动问题,收集有关物品的各种信息很有效,可以更好适配新物品或新用户。此外,部分场景需要理解用户请求。例如,“需要客厅金属玻璃的黑色咖啡桌,价格低于300美元”的请求,系统需要结合顾客中其他物体的外观和形状来推理该物品的外观和形状,则多模态理解变至关重要。

4.2 多模态推荐系统的挑战

多模态推荐系统的发展面临挑战。首先,收集数据来训练多模态系统比单模态系统要困难得多。其次,结合不同的数据模式来改善推荐结果并不简单。例如,现有的方法将每个数据模态映射到一个公共潜在空间,其中所有模态都大致对齐。然而,此类方法通常捕获跨模态共享的信息,但忽略了可能有益于推荐的互补方面。第三,学习多模态模型比学习单个数据模态的模型需要更多数量级的数据。

4.3 对比多模态推荐

学习多模态生成模型非常困难,因为不仅需要学习每种模态的潜在表示,而且还需要确保它们是对齐的。解决这一挑战的一种方法是首先学习多种模态之间的对齐,然后学习“对齐良好”表示的生成模型。其中有两种代表性的对比学习方法CLIP和ALBEF。

对比语言图像预训练(CLIP)是一种流行的方法,其任务是使用并行图像和文本编码器将图像和相关文本投影到嵌入空间的同一点。这是通过小批量中所有可能的图像和文本对之间的余弦相似性矩阵行列上的对称交叉熵损失来实现的。融合前对齐(ALBEF)通过融合文本和图像嵌入的多模态编码器增强了CLIP,并提出了预训练模型的三个目标:图像文本对比学习(ITC)、掩码语言建模(MLM)和图像文本匹配(ITM)。作者还引入动量蒸馏来提供伪标签,以补偿嘈杂的网络训练数据中可能不完整或错误的文本描述。

4.4 生成式多模态推荐

尽管有其优点,纯对比推荐系统的性能经常受到数据稀疏和不确定性的影响。生成模型通过在其潜在空间上施加合适的结构来解决这些问题。代表性的生成方法包括:多模态VAE、扩散模型和多模态大语言模型。

多模态VAE 虽然VAE可以直接应用于多模态数据,但在大型数据集上训练特定模态编码器和解码器的更好方法是按模态划分输入空间和潜在空间,例如图像和文本。然而,这种方法将多模态VAE划分为两个独立的VAE,每个模态一个。在ContrastVAE中,通过在以ELBO为优化目标的单模态潜在表示之间添加对比损失来对齐两个模态。实验表明,ContrastVAE通过充分建模了数据的不确定性和稀疏性,并且对潜在空间中的扰动具有鲁棒性,在纯对比模型的基础上进行了改进。

扩散模型 扩散模型是最先进的图像生成模型。虽然它们也可以用于文本生成,例如通过具有分类转换概率的离散潜在空间实现,但在实践中通常优选基于transformer或其他seq2seq模型的文本编码器。因此,文本和图像的多模态模型(例如文本到图像生成模型)将文本编码器与图像的扩散模型结合起来。例如,DALL-E以CLIP嵌入空间为出发点生成新图像,而Stable Diffusion使用UNet自编码器分别针对感知损失和基于补丁的对抗性目标损失进行预训练。

多模态大语言模型 其为用户提供自然语言界面,以多种方式方便用户查询,以不同模态帮助产品可视化。考虑到端到端训练大型生成模型的复杂性,研究人员通常集成不同的预训练编码器和解码器来组成系统。另一种很少训练或无需训练的方法是允许“控制器”大语言模型使用外部基础模型或工具来处理多模式输入和输出。其次,指令微调是大语言模型的重要一步。Llava 是一种多模态大语言模型,它以文本和图像为输入,并产生有用的文本响应,其使用简单的线性适配层将CLIP编码器与大语言模型解码器连接起来。有其他研究将连接层从线性投影改为两层MLP,并获得了更好的结果。

5 影响和危害评估

在评估推荐系统时,两个主要评估目标至关重要:系统的性能和功能,以及其是否会引起安全问题和社会危害。

5.1 线下影响评估

准确性 用于判别任务的常用指标是recall@K、 precision@K、NDCG@K、AUC、ROC、RMSE、MAE等。对于生成任务,可以借鉴NLP的技术指标。比如,BLEU广泛用于机器翻译,可用于评估解释、评论生成和对话推荐。ROUGE通常用于评估机器生成的摘要,可能有助于解释或审查摘要。

计算效率 由于计算负担,评估计算效率对于生成推荐模型(无论是训练还是推理)至关重要。该领域有待研究。

测试基准 许多现有的判别推荐模型的基准数据集在生成推荐模型中仍然有用,例如Movielens、Amazon Reviews、Yelp Challenge、Last.fm和Book Crossing,但应用范围很窄。最近的一些数据集,如 ReDial和INSPIRED,是用于会话推荐的有用数据集。对于推荐社区来说,开发新的基准仍需研究。

5.2 在线及纵向评估

由于系统中使用的不同模型和其他因素的相互依赖性,离线实验可能无法捕获准确结果。因此,A/B实验有助于了解模型在现实环境中多轴向上的性能。除了对参与度和满意度的短期影响之外,平台还想了解长期影响。这可以使用收入和参与度(花费的时间、转化率等)等业务指标来衡量。同时,可以使用多个指标来捕获对用户的影响,如每日/每月活跃用户、用户情绪、安全性、危害等。

5.3 会话评估

BLEU和混沌度是对话评估的有用指标,其需被特定于任务的指标(例如召回率)或特定于目标的指标(例如测量多样性响应)所取代。可以用大语言模型进行判断与评估,但通常人工评估是最终选择。CRSLab等工具包可以轻松构建和评估会话模型。然而,在许多工业用例中,缺乏标记数据使评估充满挑战。

5.4 危害评估

Milano等人提出了与推荐系统相关的六类危害:内容;侵犯隐私和数据滥用;对人类自主和福祉的威胁;透明度和问责制;有害的社会影响,如过滤气泡、极化和可操作性;公平性。此外,基于生成模型的推荐系统可能会带来新的挑战:

  • 大语言模型使用域外知识,引入了不同来源的偏差,且不易被现有的评估技术捕获。
  • 环境影响加剧。
  • 内容创建和管理的自动化可能会取代新闻业、创意写作和内容审核等行业的工人,导致社会和经济混乱。

5.5 整体性评估

如上所述,彻底评估推荐系统的离线指标、在线性能和危害是非常重要的。此外,不同的利益攸关方(例如平台所有者和用户)可能采用不同的评估方法。考虑到评估Gen-RecSys的复杂性,需要进一步研究其评估机制。

6 总结与未来方向

虽然本文强调了今后工作的许多方向,但以下Gen-RecSys的挑战和机遇尤为重要:

  • RAG。包括:多个来源的数据融合,端到端检索器生成器训练,以及对生成式重排序备选方案的系统研究。
  • 工具增强型大语言模型。重点是大语言模型驱动的对话控制、推荐器模块、外部推理器、检索器和其他工具的架构设计,特别是用于主动会话推荐的方法。
  • 个性化内容生成。如虚拟穿戴体验,它可以让用户看到推荐服装或配饰的上身效果,提高客户满意度并减少退货可能。
  • 红队测试。除了标准评估之外,现实世界中的生成式推荐系统在部署之前将必须进行红队测试(即对抗性攻击),以对系统的提示注入、健壮性、对齐验证和其他因素进行压力测试。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与推荐算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 研究背景
  • 2 交互驱动的推荐系统生成模型
    • 2.1 自编码模型
      • 2.2 自回归模型
        • 2.3 生成对抗网络
          • 2.4 扩散模型
            • 2.5 其他生成式模型
            • 3 推荐系统中的大语言模型
              • 3.1 仅编码的大语言模型推荐
                • 3.2 基于大语言模型的推荐
                  • 3.3 检索增强型推荐
                    • 3.4 基于大语言模型的输入生成
                      • 3.5 对话式推荐
                      • 4 生成式多模态推荐系统
                        • 4.1 为什么需要多模态推荐系统?
                          • 4.2 多模态推荐系统的挑战
                            • 4.3 对比多模态推荐
                              • 4.4 生成式多模态推荐
                              • 5 影响和危害评估
                                • 5.1 线下影响评估
                                  • 5.2 在线及纵向评估
                                    • 5.3 会话评估
                                      • 5.4 危害评估
                                        • 5.5 整体性评估
                                        • 6 总结与未来方向
                                        相关产品与服务
                                        NLP 服务
                                        NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
                                        领券
                                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档