Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/AMS-Regular.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >KDD'22「Salesforce」基于向量化的无偏排序学习

KDD'22「Salesforce」基于向量化的无偏排序学习

作者头像
秋枫学习笔记
发布于 2022-09-19 02:11:39
发布于 2022-09-19 02:11:39
7520
举报
文章被收录于专栏:秋枫学习笔记秋枫学习笔记

关注我们,一起学习~

标题:Scalar is Not Enough: Vectorization-based Unbiased Learning to Rank 链接:https://arxiv.org/pdf/2206.01702.pdf 代码:https://github.com/Keytoyze/Vectorization 会议:KDD 2022 公司:Salesforce

1. 导读

无偏的排序学习(ULTR)是从有偏的用户点击日志中训练一个无偏的排序模型。当前的大多数 ULTR 方法都是基于检验假设(examination hypothesis,EH),它假设点击概率可以分解为两个标量函数,一个与排序特征有关,另一个与偏差因素有关。特征、偏差因子和点击之间的相互作用在实践中很复杂,通常不能以这种独立的方式分解。

本文提出了一种基于向量的EH方法,并将点击概率表示为两个向量函数的点积。在此基础上,提出 Vectorization 模型,通过将embedding投影到基向量上来自适应地学习相关embedding并对文档进行排序

2. 基础

在本文中,使用粗体字母表示向量(如,

r

),使用细字母表示标量(如,r)。通常,LTR 的核心是学习一个排序模型f。对于查询,可以按分数降序对文档进行排序。与查询相关的观察数据

qQ

可以表示为

Dfullinfoq={(xi,ri)}ni=1

,其中

xiX

表示编码的查询、文档和用户的特征,

表示其真实相关性得分。目标是最小化以下损失函数来得到最优的排序函数,其中L是损失函数,真正的相关性分数

表示文档与查询的相关性

相关性分数通常是未知的,通常在离线点击日志中学习排序模型,但是点击日志往往是有偏的。例如,排名较高的文档更有可能被观察和点击(称为位置偏差)。与q相关的观测数据可以表示为

,其中

表示点击信号,

表示导致点击有偏差的偏差因素,例如文档位置、上下文信息、文档周围的其他点击或演示风格。不限制

的确切含义,能够将本文的结论推广到大多数以前的 ULTR 方法。为方便起见,令

表示曾经出现在数据集中的所有排序特征和偏差因子对。

假设文档的点击率仅取决于其排序特征和偏差因素。

表示点击率函数。为了从点击数据中推导出相关性,目前大多数 ULTR 方法基于检查假设 (EH) 来模拟用户的点击行为。假设如果该文档被观察到并且相关,则用户点击该文档。进一步假设相关性r取决于排名特征x并且被观察到的o取决于偏差因子,则可以表示为下式,这里的r和o得到的都是标量。

3. 方法

image.png

3.1 基于向量的EH

点击、偏差因素和特征之间的相互作用在现实世界中非常复杂。上面提到的c(x,t)分解方式在实际问题中通常不存在,因为这种形式产生的函数族不能涵盖所有可能的点击率函数。

为了捕捉相关性和观察数据之间的复杂交互,首先将基于标量的 EH 扩展到基于向量的形式。即点击函数c(x,t)可以写成两个函数的点积,一个在排名特征x上,另一个在偏差因子t上。简单来说就是原始的情况是用标量相乘,而这里是向量embedding相乘(相关性embedding和观察embedding)

3.2 使用相关embedding进行排序

但是,无法直接根据相关性embedding直接进行排序(因为它是一个向量),因此不能直接应用基于向量的 EH。对于给定查询q,具有n个排序特征

,目标是使用它们的相关embedding

进行排序。简单地对向量中的元素进行平均并根据平均值对所有向量进行排序是不合适的。一个方案是为查询q找到一个公共基向量

,并将每个相关性embedding投影到

上,如下所示,然后可以像传统的 LTR 方法一样使用标量

进行排序。

3.3 找到基向量

假设已经得到函数

,目标是在无监督的情况下找到基向量。首先,假设对于任意两个文档,如果修正了偏差因子,它们的点击率顺序等于它们的相关性顺序,公式如下,

对于一个查询q,他对应的特征是

,假设存在公共偏差因子t与上述特征一起存在于

中,则可以表示为下式,

表示计算的点击率。如果存在多个 t,则很难决定使用哪一个。使用最大似然估计 (MLE) 来选择最可能符合当前特征

的偏置因子

。假设 D 是从联合分布P(X,T)生成的,其中X是排名特征,T是偏差因子,公式如下,P(T|X)可以从 D 中估计出来。选择与排名特征相关的最可能的偏差因子作为q的基向量

可能存在不重叠的问题,例如,假设 t 表示文档的位置。假设一个排名特征

总是分配给第一个位置,另一个排名特征

总是分配给第二个位置。无论如何选择位置t,都存在一个排序特征

使得P(t|x)=0。

根本原因是X和T可能不重叠。为了解决这个问题,首先将 D 转换为

。然后使用MLE,公式如下,其中P(O|X)可以从

估计。

比原始偏差因子更密集,这可以缓解重叠问题。

将P(O|X) 建模为多元高斯分布(其所有分量都是独立的),因为始终可以建立P(O|X)>0,这避免了重叠问题并使得估计更稳定。假设

,其中μ和σ是给定x时的均值和均方差,公式如下,

使得导数为0,最终的公式为

。它表明对于给定的查询,基向量可以通过与q相关的所有排序特征的加权平均值来计算。方差越大,权重越小。方差表示模型的不确定性,它可以根据不确定性综合考虑基向量,这有助于提高鲁棒性。

4. 模型实现

image.png

4.1 训练阶段

step1:首先学习两个模型:相关模型r和观察模型o。对于数据

的查询q,使用基于 softmax 的交叉熵的 list-wise 损失函数,如下所示,

step2:在观察模型收敛后,需要对其进行修正并学习一个估计分布P(O|X)的基模型

,以找到推理阶段的基向量。固定一个高斯似然来对分布进行建模,v 的输出由预测均值和预测方差组成,其中μ和σ有基模型v得到,

想让由μ和σ参数化的高斯分布接近真实分布P(O|X)。可以通过最小化以下回归损失得到,在实践中,训练模型来预测对数方差,

,因为它在数值上比回归方差更稳定,因为损失避免了潜在的除以零

4.2 预测阶段

在推理阶段,使用相关性模型r和模型v来估计相关性标量以进行排序。对于查询q,首先计算q的基向量,然后将每个相关embedding投影到基向量上,然后计算得分。

5. 伪代码

训练:第 1 行初始化所有参数。第 2-7 行,通过基于向量的 EH 联合训练相关性模型和观察模型。第 8-12 行,训练基础模型,让分布估计接近观察embedding分布。

推理:第 1-2 行,计算观察数据的embedding分布以对特征进行排序。在第 3 行,计算基向量。第 4-5 行,将相关性embedding投影到基向量上计算排序分数。

6. 结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CIKM'22 | 序列推荐中的双重倾向性估计缓解数据有偏问题
对于序列推荐中的数据有偏问题,现有的基于逆向倾向分数(IPS)的无偏学习是在商品维度的,即将反馈数据视为与用户交互的商品序列。然而,也可以从用户的角度将反馈数据视为与商品交互的用户序列。此外,这两种视角可以共同增强倾向得分估计。本文从用户和商品的角度来估计倾向得分,称为双重增强倾向得分估计(DEPS)。具体而言,给定目标用户-商品对以及相应的商品和用户交互序列,DEPS首先构建一个时间感知因果图来表示用户-商品观察概率。根据该图,基于同一组用户反馈数据,分别从商品和用户的视图估计两个互补倾向得分。最后,设计了两个Transformer来进行最终的偏好预测。
秋枫学习笔记
2023/01/30
5160
KDD'22|序列推荐:多行为超图增强的Transformer
本文主要针对序列推荐场景学习用户动态偏好,以往的方法更多的是关注单一交互类型,本文设计了一个多行为超图增强的 Transformer 框架 (MBHT) 来捕获短期和长期的跨类型行为依赖关系。具体来说,多尺度 Transformer 结合低秩自注意力,从细粒度和粗粒度级别联合编码行为感知序列模式。将全局多行为依赖商品合并到超图神经架构中,捕获分层的长期商品相关性。
秋枫学习笔记
2022/09/19
1.2K0
CIKM'21 「腾讯」对比学习+课程学习进行序列行为增广
本文作者提出的Contrastive Curriculum Learning(CCL)方法,主要包含两方面,分别解决上述问题:
秋枫学习笔记
2022/09/19
4830
SIGIR'22「谷歌」BISER:双边无偏学习对有偏隐式反馈进行纠偏
推荐系统中通常采用隐式反馈(如点击)来构建模型,而观察到的反馈代表用户的点击日志,所以观察到的点击与真实用户意图之间时存在差异的,并且观察到的反馈通常偏向于热门商品,从而高估了热门商品的实际相关性。尽管现有研究已经开发出使用逆倾向加权 (IPW) 或因果推理的无偏学习方法,但它们只专注于消除商品的流行度偏差。本文提出了一种新颖的无偏推荐学习模型BISER,以消除推荐模型引起的商品曝光偏差。BISER 由两个关键组成部分组成:
秋枫学习笔记
2022/09/19
7730
深度学习应用篇-元学习[14]:基于优化的元学习-MAML模型、LEO模型、Reptile模型
Model-Agnostic Meta-Learning (MAML): 与模型无关的元学习,可兼容于任何一种采用梯度下降算法的模型。 MAML 通过少量的数据寻找一个合适的初始值范围,从而改变梯度下降的方向, 找到对任务更加敏感的初始参数, 使得模型能够在有限的数据集上快速拟合,并获得一个不错的效果。 该方法可以用于回归、分类以及强化学习。
汀丶人工智能
2023/10/11
1.6K0
深度学习应用篇-元学习[14]:基于优化的元学习-MAML模型、LEO模型、Reptile模型
MultiFS: 深度推荐系统中的自动多场景特征选择
传统的多场景推荐系统(MSRS)通常不加区别的使用所有相关的特征,忽视了特征在不同场景下的不同重要性,往往会导致模型性能下降。本文提出了多场景特征选择(MultiFS)框架来解决此问题,MultiFS能考虑场景间的关系,并通过分层门控机制为每个场景选择独特的特征。
秋枫学习笔记
2024/03/18
7570
MultiFS: 深度推荐系统中的自动多场景特征选择
ICDE'22「华为」MISS:多兴趣自监督学习框架用于点击率预估
本文提出了一种新颖的多兴趣自我监督学习(MISS)框架,该框架通过兴趣级别的自监督信号增强了特征embedding。在两个新的基于 CNN 的多兴趣提取器的帮助下,使用两个基于CNN的兴趣提取器考虑不同兴趣表征(逐点(point)和联合(union))、兴趣依赖性(短期(short range)和长期(long range))以及兴趣相关性(商品间和商品内)。并利用对比学习增强特征的表征学习。
秋枫学习笔记
2022/09/19
4420
SIGIR'21推荐系统挖掘隐式交互,利用互信息进行图学习增强
基于user-item二分图的图神经网络推荐系统已经得到了广泛的应用与研究。对于一些隐式反馈,用户没有被观察到的一些行为,在图中不会存在边,在图学习的过程中会学习到一些隐式行为,而这些行为中,有一部分是能够反映用户真实偏好的。但是这些行为中会混合着无用信息,我们可以理解为噪声。本文所做的工作就是如何有效的捕获这些真实偏好。
秋枫学习笔记
2022/09/19
5690
【机器学习-监督学习】双线性模型
  从本文开始,我们介绍参数化模型中的非线性模型。在前几篇文章中,我们介绍了线性回归与逻辑斯谛回归模型。这两个模型都有一个共同的特征:包含线性预测因子
Francek Chen
2025/01/22
960
【机器学习-监督学习】双线性模型
SIGIR'22「amazon」CaFe:从粗粒度到细粒度的稀疏序列推荐
本文是针对序列推荐的一篇短文,主要针对自注意力方法无法很好地应对稀疏数据,无法对稀疏数据提高较好的保证,而提出的从粗到细的自注意力方法CaFe。该方同时从购物意图和交互商品中对用户动态性进行建模,显式地从粗粒度和细粒度两方面学习序列中的含义。
秋枫学习笔记
2022/09/19
6270
CIKM'21「华为」推荐系统 | 因果推断+强化学习:反事实用户偏好模拟
文中涉及变分推断,可参考这篇阅读:https://zhuanlan.zhihu.com/p/70644599
秋枫学习笔记
2022/09/19
7840
行为感知Transformer:用于多行为序列推荐的
本文主要针对序列推荐中的多行为序列推荐,即行为序列中包含不同的行为类型,比如点击,加购,购买等。为了捕获用户的个性化行为模式和行为间的复杂协作关系,作者提出PBAT方法:
秋枫学习笔记
2024/02/27
6100
行为感知Transformer:用于多行为序列推荐的
AAAI'21 「京东」会话推荐--基于图学习和注意力机制的多层次交互关系挖掘
基于会话的推荐常用于在线应用,从电子商务到广告业务等。然而现有的工作没有很好地设计方法来捕获复杂动态转移中的时序信息和多层次的相互依赖的关系结构。因此本文提出 Multi-level Transition Dynamics (MTD) 方法。能够以自动和分层的方式联合学习会话内和会话间项目转换动态。
秋枫学习笔记
2022/09/19
4750
聊聊大模型位置编码及其外推性
现如今很多大模型都开始支持超过4096长度的推理,例如GPT-4支持超过30k,ChatGLM2-6B也支持最长为32K的文本。但是由于显存资源的限制,这些大模型在真正在训练过程中不一定要训练这么长的文本,通常在预训练时只会设计到4k左右。
NewBeeNLP
2023/09/15
2K0
聊聊大模型位置编码及其外推性
当胶囊网络遇到序列推荐
预备知识:胶囊网络https://zhuanlan.zhihu.com/p/264910554
秋枫学习笔记
2022/09/19
1.1K0
Ada-Ranker:咱就说咱能根据数据分布自适应,不信瞧瞧?
现在主流的排序模型设计和使用方式是:离线训练模型,冻结参数,并将其部署到在线服务。但是实际上,候选商品是由特定的用户请求决定的,其中潜在的分布(例如,不同类别的商品比例,流行度或新商品的比例)在生产环境中彼此之间存在很大差异。经典的参数冻结推理方式无法适应动态服务环境,使得排序模型的表现受到影响。
秋枫学习笔记
2022/09/19
5280
WWW'22 | 推荐系统:基于邻域关系的对比学习改进图协同过滤
本文利用对比学习缓解推荐系统中数据稀疏问题,并且利用图方法在对比学习中考虑邻域节点之间的关系。本文提出NCL方法,主要从两方面考虑对比关系,
秋枫学习笔记
2022/09/19
8710
CIKM'21序列推荐|基于区域的embedding捕获用户行为中的偏好
可以先看背景和总结部分,对整个文章做的工作进行了简单的概括,公式太长的可以左右滑动哦~
秋枫学习笔记
2022/09/19
4870
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
本文针对点击率CTR预估提出新方法GMT,推荐系统的性能通常受到不活跃行为和系统曝光的影响,导致提取的特征没有包含足够的信息。本文提出基于邻域交互的CTR预测方法,通过异构信息网络HIN挖掘目标用户-商品对的局部邻域来预测他们的链接。并且,考虑节点之间的四种拓扑交互来增强局部邻域表征。
秋枫学习笔记
2022/09/19
4390
CIKM'21 CBML | 基于聚类的元学习序列推荐方法
本文这主要是用于会话推荐的推荐方法,该方法主要针对冷启动方面,提出了对应的解决方式。主要包含两个方面,分别是基于自注意力转换模式学习和基于聚类的元学习。
秋枫学习笔记
2022/09/19
3320
推荐阅读
相关推荐
CIKM'22 | 序列推荐中的双重倾向性估计缓解数据有偏问题
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文