首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

SPA大赛:SPA大赛数据探索与解题思路

更多腾讯海量技术文章,请关注云加社区:https://cloud.tencent.com/developer

作者:朱云龙

一、引言

本次腾讯社交广告算法大赛以移动app广告转化率预估为背景,以移动App广告为研究对象,预测App广告点击后被激活的概率:

,即给定广告、用户和上下文情况下广告被点击后发生激活的概率。由于我是一个数据挖掘比赛的新人,所以我就说一下我参加比赛的体验吧,和我们的一些结题思路吧。

二、初赛历程

(1)数据分析:

1.每天的交互行为即点击数、安装次数即转化数、转化率(如下2图):

2.每天出现的用户数量、app数量、app种类数量(如下3图):

等等,数据的初始分析让我们更好地理解数据的分布,加深对赛题的理解。

(2)特征提取:

ID类特征,统计特征,基于业务的特征以及一些trick。

ID类特征:

1.年龄 2.性别 3.平台 4.联网方式

以上的特征都采取one-hot编码

统计特征:

1.用户 2.素材 3.app 4.广告主 5.广告位 6.站点集合 7.联网方式 8.运营商

以上特征分别计算点击数,下载数,下载率

基于业务的特征:

1.重复点击的情况

2.不同年龄段重复点击的下载率

一些trick:

本题是一个用户下载率的问题,下载的主体是客户,所以要做细用户的特征,但由于每一天新用户(这里的新用户是指之前没有发生过交互行为的用户)占了很大的比重,所以之前对用户做的一些统计特征会变的很稀疏,起不到什么作用。但从业务的角度,当一个用户对某个APP发 生了多次点击行为,这个用户就会有更大的可能性会下载,所以我们可以利用这种业务的情况来做一些统计特征。举一个例子,之前对用户的年龄做统计特征时,发 现各个年龄段的用户的下载率都差不多相同,但对重复点击的这种行为做统计后就可以发现,不同年龄段的人下载率就会有比较大的差异,年龄比较小的人多次点击 的下载率就比较高,年龄比较大的人多次点击的下载率就比较低。其它的一些特征也是如此。

(3)模型搭建

TRAIN SET:24、25、26、27、28

VAL SET:29

TEST SET:31

单模型:

Xgboost,LightGBM,GBDT,RF,LR等等我们都尝试过。

目前来看基于我们提取的特征,单模型Xgboost效果会好点。

模型融合:

目前我们正在尝试stacking的方式,其基本思路与方法为:

训练过程:

预测过程:

最后感谢一下大赛的主办方,为我们提供了一个锻炼并提升自己的机会!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180112A0IXFV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券