腾讯广告算法大赛赛题解读及答疑

  • 1
    关注“腾讯产业互联网学堂”公众号加群互动有好礼相送
腾讯产业互联网学堂微信公众号
“腾讯产业互联网学堂”微信公众号

讲师简介

李泽军

腾讯数据平台部广告算法平台组应用研究员

硕士毕业于北京科技大学,主要研究方向为挖掘用户广告兴趣,提高广告推荐效果。

简介

审题&解题没思路?算法大赛出题方为你指点迷津!本次直播特邀请腾讯数据平台部广告算法平台组应用研究员-李泽军,为参赛选手详细介绍赛题内容,解析其中难点!

分享大纲:

2020腾讯广告算法大赛赛题“广告受众基础属性预估”,在具有研究价值的经典问题上“逆向思考”实现突破创新,通过“逆算”的方式增添了比赛的趣味性和挑战性。这种反向打通的操作在广告投放的真实场景中极具实践价值,且可以帮助缺乏用户信息的广告从业者,在更广的人群上实现智能定向或者受众保护。

本次直播特邀请算法大赛出题方专家——李泽军老师,现场亲授解题思路,为各位参赛选手答疑解惑,帮助大家更好地完成比赛,取得佳绩!

课程板块:

1. 算法大赛赛题介绍及难点分析

2. 算法大赛数据集介绍

3. 常见问题答疑

4. FAQ

讲义

一、赛题介绍

那么首先介绍一下赛题,年龄和性别是各种推荐系统的重要输入特征,这背后的假设是,用户对广告的偏好会随着其年龄和性别的不同而有所区别。

本次大赛的题目尝试从另外一个方向来验证这个假设。,即用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。 同时,该题目有一定的现实意义,例如对缺失值的预测并填充,实现更精准的推荐以及在更广的人群中实现智能定向或受众保护。

本次的赛题有一定难度,首先,在平时来自广告场景的海量数据,数据量会比较大。其次本次比赛给的课程主要是ID类特征,特征会比较稀疏,并且特征存在一定的缺失,所以会给模型的训练和预测带来一定的难度。

二、数据集介绍

接下来我们一起说一说选手最关注的部分,也就是本次比赛的数据集的介绍。

数据的来源是一组用户在长度为九十一天的时间窗口内的广告点击历史。 数据中包含了日期用户信息,广告信息等。

然后接下来我们具体介绍一下它的含义。对于点击历史文件比较简单,主要包含了时间跟用户ID,素材ID和当天该用户点击该广告素材的次数,用户数据里面就包含了用户的ID,用户的年龄和性别。

接下来重点讲一下广告数据集的部分。 广告ID,广告ID的意思比较好理解,就是广告库里边一条广告的ID 。 然后素材ID,一个广告可能包含多个素材。 例如,有若干张不同规格大小的图片,然后或者来说可能一个服装的广告包含多个不同的上衣的图片和裤子等。 每当给用户曝光一条广告时会从素材库里面选一条素材曝光给用户,即素材是用户真正看到的内容。 然后商品ID是表示具体的商品实体,即最终在广告中要推广的东西,例如开屏的广告就是某个APP的下载链接,例如开屏广告就是你打开某APP时刚开始展示的那广告就是开屏广告。 这个商品ID就可能对应的是这个APP的ID。 然后电商广告对应的是商品的ID,例如苹果手机可能这个商品来的就是这个苹果手机的ID。 然后很多同学发现,然后这个商品ID存在较多的缺失值,是因为部分广告是不存在商品实体的。 比如广告主想要推广的是他们这个网站,目的是增加这个网站的访问量,这个链接其实并不存在商品实体的改变,也就没有商品ID。 然后二级行业类目就指的是对这条广告所属的二级行业,例如电商服装的商品的类型就是表示的这条广告的显示的商品类型,例如开屏的APP, 或者是京东商品等。 一个广告,目前只会绑定一种商品类型,广告主ID顾名思义就例如京东广告主在系统里的ID。

三、常见问题答疑

接下来对大家的一些经常问到的问题进行解答一下。

Q1:1到91天是顺序的吗?有没有乱序和断天的情况?关于age也有类似的疑问?

A1:然后这个整体的数据集是在一段时间内抽出来的。,就是三个月内抽出来的所有数据,所以这个天数是顺序的,并没有乱序断天的情况。 但是一个人可能比如三十天内不是每天都会点广告。

Q2://N是缺失值吗?是特意挖掉还是本来就是缺失值呢?

A2:我们数据集里面的//N就是在比赛常会出现的缺失值,并不是我们故意挖掉的。

Q3:user_id 是每个人是唯一的,还是出现一条就增加一条?

A4:user_id 是每人唯一的,不会随着广告曝光,广告的变化增多而变化。

Q4:训练集和测试集所有用户的广告点击记录数据是来自长度为91的相同的时间窗口吗?还是不同用户的数据来自不同的时间窗口?

A4: 我们训练集和测试集里面的那个字段是相同的时间窗口。

Q5:creativeid业务意义是组成广告元素还是进入广告的方式接口?

A5:你看到一条广告,你会有广告图片,这个就是你看到的素材,你多条广告都是一条广告到多条素材中的一个。

Q6:对于本次算法大赛的评价值方式和指标,为什么选择在年龄预测和性别预测的评估值准确率之和?

A6: 对年龄这个字段,参赛者得到的其实是我们分段后的值,我们认为他是一个分类问题,然后希望参赛者能见建模出他们的区别, 所以我们就将常用的指标正确率之和当作了评价指标。

四、Q&A

Q1:一共有哪些特征包含了缺失值?

A1:这个我理解就是你个人统计一下, 哪些特征包含缺失值?一般来说广告ID、素材ID肯定不会缺失。

Q2:在训练集中性别不平衡怎么办?

A2: 可以通过建模的方式去解决这种数据不平衡的情况。

Q3:年龄区间的一到十是指?

A3:按1到10就是按年龄的大小来排序的。 1就代表年龄最小,10就代表年龄最大,所以年龄是顺序的。 然后那个时间,时间一到九十一顺序的,所以你可以把你也可以比如当做一个时序模型来建模。

Q4:用户点击广告的顺序重要吗?

A4:我们对广告点击率部的预测中,然后是有一些时序特征参加进去了。 因为用户的兴趣会随着时间的变化,其实会变化的,例如你小的时候你可能就喜欢玩具,然后中间的时候儿就是二十多岁的时候可能就喜欢游戏类的,然后但是你可能即使是三个月内相对比较短的时间内,你也可能例如前面呢可能最近喜欢打游戏,过一段时间就会发现没小说好看,你去看小说, 所以我的理解是这个时间还是有一定的意义了。

Q5:男女不是一比一的情况?

A5:因为我们是随机攒出来的一笔用户,所以不会去刻意的验证男女比例是不是相同的问题。

Q6:赛季的意义对于腾讯广告的实践有哪些方向?

A6:然后就是十前面大概讲到过。 通过这个我想你可以对缺失值的预测,然后预测填充然后对于没有性别和年龄的用户可能实现更精准的推荐以及在更广的时候跟去哪儿实行智能镜像或设置保护,例如某个用户没有年龄,这个我们通过他的广告点击历史来推断出他是一个小孩儿,那我们就可以再给他推广告的时候填这个住宅,然后我们的系统可能学习到的他的兴趣是那些小孩这个广告,然后就可能里面让他看到一些大人的广告, 就是类似于受众保护智能定向的一个小概念。

全部评论
讲师/助教

评论

直播日历