更多腾讯海量技术文章,请关注云加社区:https://cloud.tencent.com/developer
作者:朱云龙
一、引言
本次腾讯社交广告算法大赛以移动app广告转化率预估为背景,以移动App广告为研究对象,预测App广告点击后被激活的概率:
,即给定广告、用户和上下文情况下广告被点击后发生激活的概率。由于我是一个数据挖掘比赛的新人,所以我就说一下我参加比赛的体验吧,和我们的一些结题思路吧。
二、初赛历程
(1)数据分析:
1.每天的交互行为即点击数、安装次数即转化数、转化率(如下2图):
2.每天出现的用户数量、app数量、app种类数量(如下3图):
等等,数据的初始分析让我们更好地理解数据的分布,加深对赛题的理解。
(2)特征提取:
ID类特征,统计特征,基于业务的特征以及一些trick。
ID类特征:
1.年龄 2.性别 3.平台 4.联网方式
以上的特征都采取one-hot编码
统计特征:
1.用户 2.素材 3.app 4.广告主 5.广告位 6.站点集合 7.联网方式 8.运营商
以上特征分别计算点击数,下载数,下载率
基于业务的特征:
1.重复点击的情况
2.不同年龄段重复点击的下载率
一些trick:
本题是一个用户下载率的问题,下载的主体是客户,所以要做细用户的特征,但由于每一天新用户(这里的新用户是指之前没有发生过交互行为的用户)占了很大的比重,所以之前对用户做的一些统计特征会变的很稀疏,起不到什么作用。但从业务的角度,当一个用户对某个APP发 生了多次点击行为,这个用户就会有更大的可能性会下载,所以我们可以利用这种业务的情况来做一些统计特征。举一个例子,之前对用户的年龄做统计特征时,发 现各个年龄段的用户的下载率都差不多相同,但对重复点击的这种行为做统计后就可以发现,不同年龄段的人下载率就会有比较大的差异,年龄比较小的人多次点击 的下载率就比较高,年龄比较大的人多次点击的下载率就比较低。其它的一些特征也是如此。
(3)模型搭建
TRAIN SET:24、25、26、27、28
VAL SET:29
TEST SET:31
单模型:
Xgboost,LightGBM,GBDT,RF,LR等等我们都尝试过。
目前来看基于我们提取的特征,单模型Xgboost效果会好点。
模型融合:
目前我们正在尝试stacking的方式,其基本思路与方法为:
训练过程:
预测过程:
最后感谢一下大赛的主办方,为我们提供了一个锻炼并提升自己的机会!
领取专属 10元无门槛券
私享最新 技术干货