Wide & Deep Learning for Recommender Systems
摘要
具有非线性特征变换的广义线性模型被广泛用于大规模回归和分类,处理稀疏输入。
通过一系列cross-product特征转换来memorization特征交互是有效且可解释的,而generalization需要更多的特征工程工作。
通过较少的特征工程,深度神经网络可以通过针对稀疏特征学习的低维密集embedding,更好地generalization到看不见的特征组合。
然而,当user-item交互稀疏且high-rank时,具有EMBEDDING的深度神经网络可以过度泛化并推荐不太相关的item。
在本文中,我们提出Wide & Deep learning - 联合训练的宽线性模型和深度神经网络 - 结合memorization和generalization在推荐系统的优点。
引言
推荐系统可以被视为搜索排名系统,也就是说,输入是用户信息和用户相关信息,输出是推荐item的排序列表。
给定一个查询,推荐系统的任务是在数据库中查找相关item,然后基于某些目标(例如点击或购买)对item进行排名。
推荐系统中的一个挑战是实现memorization和generalization。
memorization可以定义为学习item或特征的频繁共现 并利用历史数据中的相关性信息。
另一方面,generalization是基于过去,探索过去从未或很少发生的新特征组合。
这篇文章,我们提出Wide & Deep learning框架,在一个模型实现memorization和generalization通过联合训练一个线性模型和一个神经网络。
WIDE & DEEP LEARNING
The Wide Component
是一个线性模型:
其中y是预测值,x是输入向量
The Deep Component
是一个全连接神经网络
其中l是layer
Joint Training of Wide & Deep Model
wide组件和deep组件的输出概率 加权求和 再输进一个逻辑损失函数,
这个joint training是和ensemble有区别的,ensemble里训练时模型互不影响 只是在预测时一起作用,joint training在训练时模型一起训练。
综合的公式:
综合如图:
其中左边是wide模块,右边是deep模块
结果
结论
文章的灵感来源是factorization machines[5]
引用
[5] S. Rendle. Factorization machines with libFM. ACM
Trans. Intell. Syst. Technol., 3(3):57:1–57:22, May 2012
领取专属 10元无门槛券
私享最新 技术干货