CTR预估中怎么使用Transfromers

原创

算法一只狗

发布于 2024-11-27 19:55:05

610

文章被收录于专栏：算法一只狗算法一只狗

好事发生

这里推荐一篇实用的文章：https://cloud.tencent.com/developer/article/2465556?shareByChannel=link

《使用Python实现深度学习模型：智能食品包装设计》

这篇文章介绍了如何使用Python构建一个用于智能食品包装设计的深度学习模型。主要内容包括数据准备、模型构建、训练、评估和预测应用。作者展示了如何通过卷积神经网络（CNN）进行包装图像分类，利用数据增强提升模型的泛化能力，并最终实现对新图像的预测。此技术可提升包装设计的效率和质量，为消费者提供更个性化和智能化的体验。这种智能化设计有望在未来的食品包装中得到更广泛的应用。

1.背景

目前Transformers及其衍生的各种模型（包括Bert，Roberta等）在NLP领域上大放异彩。不仅仅在NLP领域上，在CTR预估上，这些模型能够有效针对画像特征进行分类，从而有效学习高阶交互特征，提升CTR预估效果。同时CTR预估往往存在文本信息，因此也可以使用Transformers等模型来挖掘词语之前的关系。

CTR预估：旨在预测用户是否会点击所推荐的广告和商品，它通常会运用到在线广告和推荐系统中。

2.相关论文解析

2.1 《AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks》

论文指出，目前CTR预估中，存在两个问题：

输入的数据，比如用户数据和商品数据，这些都是高纬度和稀疏的特征，容易造成过拟合
有效的预估中，需要进行特征交叉。这其中又会涉及到大量的人工标记评估时间

因此本论文提出了新的模型AutoInt用来学习高阶的输入特征，用来解决稀疏且高纬度的输入特征。

同时这个模型能够同时处理数字型（numerical）和分类型（categorical）的特征。

2.1.1 论文贡献

论文中贡献有如下几点：

论文的模型能够进行显示学习高阶特征，同时能够找到很好的解释方法（其实也就是用了attention机制来解释）
提出了一个基于self-attention神经网络，它能够自动学习高阶特征，同时有效解决高纬度的稀疏数据问题
实验中展示出论文中提出模型达到了SOTA，且有更好的可解释性

2.1.2 模型结构

整体模型比较简单，在输入部分同时输入了one-hot特征和numerical特征。然后经过了整个multi-head self-attention结构，最后进行模型预测。

2.1.2.1 输入

创新点在于输入部分是结合了两种不同的特征，一种是one-hot vector；另一种是numerical数值特征。

（1）one-hot vector

普通的embedding特征，其中V_i代表向量化矩阵。把对应的one-hot特征向量化后，取平均值得到下面的公式：

（2）numerical数值特征

其中x_m为特征真实值，v_m为对应该特征的随机vector。也即是说，首先模型会随机向量化一个矩阵，同时这个矩阵有M个维度，对应的是M个特征。因此只需要把对应的数值特征与对应位置的vector相乘，就可以有效表征该特征。

2.1.2.2 注意力机制层

这里面的注意力机制层主要用到了transformers中的multi-head attention。同时在attention的输入和输出端引入残差结构。

特征m和特征k会有一个映射关系，相当于FM模型中的交叉特征，其中h为multi-head中的head的数量：

论文中提到这个是具有可解释性的：

假设开始输入四个特征值x_1,x_2,x_3,x_4，那么它们的二阶交叉特征为g(x_1,x_2),g(x_2,x_3),g(x_3,x_4)。这四个二阶交叉特征恰好可以通过上面的attention公式计算出来，也即是他们对应的注意力权重\alpha
给定一阶交叉特征值为e^{Res}_1和三阶交叉特征e^{Res}_3。则e^{Res}_3可以由x_1,x_2,x_3生成，这是因为有g(x_1,x_2)和残差连接x_3`可以生成的
因此可以推导，越高阶的特征，可以由低阶生成