首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

参加kaggle-home credit比赛 top1经验分享

参加kaggle-home credit比赛 top1经验分享

为入门数据挖掘领域,我参加kaggle比赛积累经验,参加比赛时间21天,排名62/6660,达到top1。

image.png

背景介绍

image.png

大数据普及人们生活,因此,互联网公司提供各类应用解决人们生活所需,但是大数据也面临一些问题,为了集智,大数据挖掘者们通过大数据竞赛促进交流。

image.png

Kaggle比赛是典型的代表,可以从三个方面了解。

image.png

参加kaggle比赛,不可避免用下以下工具。

image.png

参加Kaggle比赛流程如下:

image.png

2.案例讲解: Home Credit Default Risk

1)数据介绍

该数据集包括以下几个CSV文件,关系图如下图所示:

image.png

image.png

通过可视化,可以看到该数据集存在Unbalance现象,因此有必要开展数据清洗。

image.png

如图,可以看到数据中存在Missing value:

image.png

2)特征提取-手动

举例说明,application_train.csv的相关代码如下,其他几个CSV文件。

image.png

特征维度过高,存在冗余,因此,按照特征重要性可视化。

3)特征提取-自动

举例,通过下列代码可以建立数据间关系,自动生成特征:

Import featuretools as ft

es = ft.EntitySet(id=‘clients’)

image.png

image.png

模型

可选择模型如下,LightGBM具有较强的优势:

LR

Random forest

Xgboost

LightGBM

更快的训练效率

低内存使用

更好的准确率

支持并行学习

可处理大规模数据

4)超参数微调

目前,业界用的较多的方法分别是Grid search、Random search和Bayesian Optimization。

其中,Grid search和random search简单高效, 通常后者会表现出更好性能。

在参数空间维度较高时, Grid search和Random search会产生组合爆炸, 训练回合急剧增加, 尝试更高效的Bayesian optimization。

image.png

对比效果如下:

参考资料如下:

https://zhuanlan.zhihu.com/p/29923137

https://zhuanlan.zhihu.com/p/33903267

https://www.kaggle.com/plantsgo/kernels

https://www.kaggle.com/aharless/xgboost-cv-lb-284

https://zhuanlan.zhihu.com/p/31271282

https://zhuanlan.zhihu.com/p/35363444

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180822G0GTWW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券