好事发生
这里推荐一篇实用的文章:https://cloud.tencent.com/developer/article/2465556?shareByChannel=link
《使用Python实现深度学习模型:智能食品包装设计》
这篇文章介绍了如何使用Python构建一个用于智能食品包装设计的深度学习模型。主要内容包括数据准备、模型构建、训练、评估和预测应用。作者展示了如何通过卷积神经网络(CNN)进行包装图像分类,利用数据增强提升模型的泛化能力,并最终实现对新图像的预测。此技术可提升包装设计的效率和质量,为消费者提供更个性化和智能化的体验。这种智能化设计有望在未来的食品包装中得到更广泛的应用。
目前Transformers及其衍生的各种模型(包括Bert,Roberta等)在NLP领域上大放异彩。不仅仅在NLP领域上,在CTR预估上,这些模型能够有效针对画像特征进行分类,从而有效学习高阶交互特征,提升CTR预估效果。同时CTR预估往往存在文本信息,因此也可以使用Transformers等模型来挖掘词语之前的关系。
CTR预估:旨在预测用户是否会点击所推荐的广告和商品,它通常会运用到在线广告和推荐系统中。
论文指出,目前CTR预估中,存在两个问题:
因此本论文提出了新的模型AutoInt用来学习高阶的输入特征,用来解决稀疏且高纬度的输入特征。
同时这个模型能够同时处理数字型(numerical)和分类型(categorical)的特征。
论文中贡献有如下几点:
整体模型比较简单,在输入部分同时输入了one-hot特征和numerical特征。然后经过了整个multi-head self-attention结构,最后进行模型预测。
创新点在于输入部分是结合了两种不同的特征,一种是one-hot vector;另一种是numerical数值特征。
(1)one-hot vector
普通的embedding特征,其中V_i
代表向量化矩阵。把对应的one-hot特征向量化后,取平均值得到下面的公式:
(2)numerical数值特征
其中x_m
为特征真实值,v_m
为对应该特征的随机vector。也即是说,首先模型会随机向量化一个矩阵,同时这个矩阵有M
个维度,对应的是M
个特征。因此只需要把对应的数值特征与对应位置的vector相乘,就可以有效表征该特征。
这里面的注意力机制层主要用到了transformers中的multi-head attention。同时在attention的输入和输出端引入残差结构。
特征m
和特征k
会有一个映射关系,相当于FM模型中的交叉特征,其中h
为multi-head中的head的数量:
论文中提到这个是具有可解释性的:
x_1,x_2,x_3,x_4
,那么它们的二阶交叉特征为g(x_1,x_2),g(x_2,x_3),g(x_3,x_4)
。这四个二阶交叉特征恰好可以通过上面的attention公式计算出来,也即是他们对应的注意力权重\alpha
和三阶交叉特征
e^{Res}_3。则
e^{Res}_3可以由
x_1,x_2,x_3生成,这是因为有
g(x_1,x_2)和残差连接
x_3`可以生成的实验中使用了四个数据集,由三个拿到了SOTA:
在可解释性方面,画了attention权重可视化:
其中可以看到左图中颜色较深的是两个特征有关系的:<Gender=Male,Age=[18-24),MovieGenre=Action&Triller>,这个说明年轻人比较喜欢Action&Triller电影,符合常识。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。