本赛题目标为在商场内精确的定位用户当前所在商铺。给出的信息包括wifi信号强度、GPS、基站定位、历史交易,来确定测试集交易发生的店铺。
我们队伍是我去,咋回事(出门向右 、东风西风读书屋 、wakup 、关山),最终15。
详情和数据见比赛官网
提供了用户脱敏的2017-07-01 ~ 2017-08-31的交易详细数据(包括交易时wifi信号强度、GPS、基站定位)数据,预测用户2017-09月01~14日的交易发生的店铺。
评价方式:准确率=预测正确的shop个数/总样本数。
主要有两部分,一是构造候选店铺集合,然后在候选集中做二分类预测。而构造候选如果没做好,后面预测就没有意义,所以构造候选使用了覆盖率的指标,在此基础上,最后使用准确率为最终指标,以便分步调优。
集合 | 样本区间 | 特征区间 |
|---|---|---|
训练集 | [2017-08-25, 2017-08-31] | [2017-07-01, 2017-08-25) |
预测集 | [2017-09-01, 2017-09-14] | [2017-07-01, 2017-08-31] |
采用了多个构造候选集的方式,通过覆盖率来评估其效果,第一赛季覆盖率97%,第二赛季95%。主要有:
此项目中,同一记录根据wifi信号强度排序获得排序值,并做weight=f(x)=exp((0 - i) * 0.6)映射。
距离计算使用公式
0.1 ** (((lon1 - lon2) ** 2 + (lat1 - lat2) ** 2) ** 0.5 * 100000)我们n取3或者4左右。
通过上一步构建候选集,这一步主要完成是否此店铺的问题,即二分类。
其他一些特征可以参考代码,在此不赘述。
初赛使用了XGBoost和lightGBM,lightGBM效果优于xgboost,复赛使用XGBoost和GBDT(XGBoost>GBDT)而且GBDT巨耗费能量,后期也是优于计算量的限制放弃了blending的融合方法。
前期使用了blending的融合方法,将训练集分为两部分,然后第一部分用于训练基模型,及基模型的概率值作为第二部分的特征,来训练第二部分,然后预测测试集。微笑提升,但是特别消耗计算量。
后期使用多个模型概率值加权融合,微小提升。
此次队友给力(出门向右 、东风西风读书屋 、wakup ),主要负责线下,我负责线上赛,复赛我们没有使用多分类构建特征(主要是考虑计算资源不够),是一个大的失误,据说提升2个点左右,有点遗憾,最终15名。此次计算资源也比较紧张,造成许多想法没能实现。
CSDN原文:http://blog.csdn.net/shine19930820/article/details/79130486