前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >结构化数据上的机器学习大杀器XGBoost

结构化数据上的机器学习大杀器XGBoost

作者头像
AI科技大本营
发布于 2018-04-27 05:45:07
发布于 2018-04-27 05:45:07
1.2K0
举报

XGBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。

它的威力有多强?

自从2014年9月份在 Kaggle 的希格斯玻色子机器学习大赛中夺魁以来,XGBoost 与深度学习两个算法垄断了 Kaggle 大赛的大部分冠军。

现在 Kaggle 大赛的情况基本是这样的,凡是非结构化数据相关,比如语音、图像,基本都是深度学习获胜,凡是结构化数据上的竞赛,基本都是 XGBoost 获胜。要知道大部分的业务数据,都是以良好格式存储在关系数据库中的结构化数据,这也就是说,跟行业应用、业务优化这些真金白银息息相关的场景里,XGBoost是目前最好用的大杀器之一。

如果时间倒退两年,在2015年,只要你用 XGBoost 算法参赛,不用做特别优化,在很多结构化数据科学竞赛中就排到前十。尤其是 2015 年下半年,XGBoost 横扫 Kaggle 大赛,冠军拿到手软。

看看这些冠军们怎么评价 XGBoost

2015年7月 Avito 上下文广告点击大赛冠军Owen Zhang 说:“要是你犹豫不决,不知如何是好,就放 XGBoost 出来咬。” 2015年8月卡特彼勒钢管价格预测大赛冠军四人组说:“XGBoost是我们手上最牛的单一模型算法。” 2015年8月物业检查预测大赛冠军Qingchen Wang 说:“我只用 XGBoost”。 2015年9月优惠券销售预测大赛冠军 Halla Yang 说:“在监督学习算法中我只使用Gradient Boosting,而在 Gradient Boosting算法的实现中我只使用 XGBoost。” 2015年10月 True Native 大赛冠军Mad Professor 说:“我已经拿了好几个Kaggle竞赛冠军了,你们可以相信我的话,XGBoost真的是个牛逼的全能算法,你值得拥有。”

但比较奇怪的是,然而只要离开这个小小的圈子,在广大的数据科学的蛮荒之地,绝大多数人都只知有深度学习,而不知有 XGBoost。我想大概可以归结为两方面原因。

第一是公众的注意力集中在人工智能下围棋、机器人、识别人脸、自动驾驶这些性感的应用场景里,对于专业领域内的应用,即便大脑知道它们很重要、很有价值,但小脑提不起兴趣。

但这种态度不科学啊!要知道深度学习虽然具有革命性,但是你去看看 Kaggle 上来自真实需求的那些竞赛课题,会发现大多数还是结构化行业数据的分析。预测客户的回头率啊,预测产品寿命,预测病人是否爽约,分析干系人是否有作案嫌疑,计算产品在各城市最佳的铺货分布,等等。这些项目背后是各行各业对 AI 的迫切而真实的需求,是几千上万亿甚至十万亿级美元的潜在市场。而这正是 XGBoost这一类算法可以驰骋的舞台,所以我们当然应该关注。

第二是网上现有的 XGBoost 文章,差不多都是给正在学习机器学习的人准备的“课外读物”,它假设你已经花很长时间复习了数学基础,正在学习20个机器学习算法,而 Gradient Boosting 只是其中之一,XGBoost 只是工具之一。如果你不是这种情况,那就很难看懂这些文章。

但其实使用 XGBoost 也不想需要掌握那么多其他算法啊,也不需要自底向上一层一层的积累啊。跟学习深度学习类似,如果你的目标就是掌握这一两个大杀器,那你完全可以单刀直入,在比较短的时间里形成单点突破。这是今天学习和使用 AI 技术的一个可行的途径。甚至对于有经验的开发者来说,这是一个更优的选择。

XGBoost 该红不红,其实受损失的最终还是用户和学习者。所以我们觉得应该把 XGBoost 这个算法单独抽出来,从基础的原理到算法分析,从工具使用到工程经验,来一个单点突破。

能够讲这个单点突破课程的人不多。我们邀请到有多年一线机器学习教学经验的中科院专家,精心剪裁出一个 XGBoost 核心突破课程——《XGBoost从基础到实战》。

我们的目标是能够在10个小时之内使你达到能动手开发模型的程度。

如果你在学习机器学习,那这个课程能够帮助你纵向掌握 XGBoost 及其所有相关基础知识,在你武器库里添加一个大杀器。

如果你急于用机器学习来解决工作中的一个问题,又没有很多时间完整学习,那么请考虑 XGBoost 吧。也许很多高手学了一大圈之后,发现最后还是 XGBoost 好用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习行业盛会-旧金山机器学习研讨会上的10点思考
大数据文摘作品 转载具体要求见文末 作者 | Alan 选文 | Aileen 翻译 | 酒酒 校对 | 姜范波 2016旧金山/三番机器学习研讨会(The 2016 Machine Learni
大数据文摘
2018/05/22
3720
陈天奇做的XGBoost为什么能横扫机器学习竞赛平台?
在涉及非结构化数据(图像、文本等)的预测问题中,人工神经网络显著优于所有其他算法或框架。但当涉及到中小型结构/表格数据时,基于决策树的算法现在被认为是最佳方法。而基于决策树算法中最惊艳的,非XGBoost莫属了。
新智元
2019/05/13
3.1K0
线性模型已退场,XGBoost时代早已来
我对十五年前第一天工作的情况还记忆犹新。彼时我刚毕业,在一家全球投资银行做分析师。我打着领带,试图记住学到的每一件事。与此同时,在内心深处,我很怀疑自己是否可以胜任这份工作。感受到我的焦虑后,老板笑着说:
机器之心
2019/04/29
8940
线性模型已退场,XGBoost时代早已来
【干货】Entity Embeddings : 利用深度学习训练结构化数据的实体嵌入
【导读】本文是数据科学家Rutger Ruizendaal撰写的一篇技术博客,文章提出深度学习在非结构数据中有不错的表现,当前通过实体嵌入也可以使之在结构化数据中大放异彩。具体讲解了如何利用深度学习训
WZEARW
2018/04/16
3.9K0
【干货】Entity Embeddings : 利用深度学习训练结构化数据的实体嵌入
XGBoost 源码阅读笔记 ( 1 ) :代码逻辑结构
本文介绍了XGBoost算法在分布式计算中的源码实现,主要关注其在Linux操作系统中的cli命令和C++实现。通过阅读源码,我们可以了解到XGBoost在处理大规模数据时的效率和稳定性。
程飞翔
2017/08/11
6.4K2
XGBoost 源码阅读笔记 ( 1 ) :代码逻辑结构
深度学习(Deep Learning)是否已经让传统的机器学习无用了?
作者: 威廉·沃海思(William Vorhies) 编译: AI100 原文地址: http://www.datasciencecentral.com/m/blogpost?id=6448529
AI科技大本营
2018/04/26
2.7K0
深度学习(Deep Learning)是否已经让传统的机器学习无用了?
机器学习简史
深度学习已经得到了人工智能历史上前所未有的公众关注度和产业投资,但这并不是机器学习的第一次成功。可以这样说,当前工业界所使用的绝大部分机器学习算法都不是深度学习算法。深度学习不一定总是解决问题的正确工具:有时没有足够的数据,深度学习不适用;有时用其他算法可以更好地解决问题。我们简要回顾机器学习方法,并介绍这些方法的历史背景。这样我们可以将深度学习放入机器学习的大背景中,并更好地理解深度学习的起源以及它为什么如此重要。
HuangWeiAI
2020/02/24
6030
机器学习里的bias的一些处理方法和思考
机器学习的bias对性能影响很大,常常会使一个线下优秀的模型线上落不了地,或者闹出新闻里的笑话.在机器学习竞赛或数据集里,很多时候对bias的处理在test上带来的提升可能比模型提升还要多.以下写写我这些年遇到的一些机器学习里的bias的一些处理方法.
统计学家
2021/01/25
7310
阿里资深 AI 工程师教你逐个击破机器学习核心算法
近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。
机器学习算法工程师
2018/07/27
6070
阿里资深 AI 工程师教你逐个击破机器学习核心算法
回归建模的时代已结束,算法XGBoost统治机器学习世界
Vishal Morde讲了这样一个故事:十五年前我刚完成研究生课程,并以分析师的身份加入了一家全球投资银行。在我工作的第一天,我试着回忆我学过的一切。与此同时,在内心深处,我想知道我是否能够胜任这份工作。我的老板感觉到我的焦虑,他说:
Python数据科学
2019/05/07
9850
回归建模的时代已结束,算法XGBoost统治机器学习世界
人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了
选自 mlcontests.com 机器之心编译 编辑:泽南 看完这篇文章,怎样打比赛应该心里有数了。 2022 年是 AI 领域发展的重要一年,在数据竞赛领域也同样如此,所有平台的总奖金超过了 500 万美元。 近日,机器学习竞赛分析平台 ML Contests 对 2022 年的数据竞赛进行了一次大规模统计。新报告回顾了 2022 年发生的所有值得关注的事。以下是对原文的编译整理。 重点内容: 成功参赛者的工具选择:Python、Pydata、Pytorch 和梯度提高的决策树。 深度学习仍未取代梯度
机器之心
2023/03/29
3500
人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了
专访陈天奇:DMLC发起人与机器学习的故事
受访者:陈天奇 采访者:何通 编辑:王小宁 简介:陈天奇,华盛顿大学计算机系博士生,研究方向为大规模机器学习。他曾获得KDD CUP 2012 Track 1第一名,并开发了SVDFeature,XGBoost,cxxnet等著名机器学习工具,是Distributed (Deep) Machine Learning Common的发起人之一。 何:你的本科在上海交大的ACM班就读,是怎么开始做机器学习研究的呢? 陈:我们当时的培养计划里面有一项,就是希望我们尽早地接触学术研究。于是我们在大二
用户1737318
2018/06/05
4.7K0
遇事不决,XGBoost,梯度提升比深度学习更容易赢得Kaggle竞赛
梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在Kaggle上参加机器学习比赛,用什么算法最容易拿奖金? 你可能会说:当然是深度学习。 还真不是,据统计获胜最多的是像XGBoost这种梯度提升算法。 这就奇了怪了,深度学习在图像、语言等领域大放异彩,怎么在机器学习比赛里还不如老前辈了。 一位Reddit网友把这个问题发在机器学习板块(r/MachineLearning),并给出了一个直觉上的结论: 提升算法在比赛中提供的表格类数据中表现最好,而深度学习适合非常大的非表格数据集(例如张
量子位
2023/03/10
3170
遇事不决,XGBoost,梯度提升比深度学习更容易赢得Kaggle竞赛
200+机器学习竞赛最全分析:超550万美元总奖金,人人都用PyTorch,2070也能夺冠!
---- 新智元报道   编辑:编辑部 【新智元导读】2022年,200多个机器学习竞赛的最全分析报告来了。打比赛有这篇就够了。 2012年,ImageNet竞赛中,Hinton和他的学生Alex Krizhevsky设计的卷积神经网络AlexNet一举夺得了冠军。 十年过去,机器学习领域依旧不断结出AI之果。2022年,是机器学习竞赛重要一年。 200多场竞赛覆盖了广泛的研究领域,包括CV、NLP、表格数据、机器人技术、时间序列分析等等。 最新报告回顾了2022年所举办有关机器学习竞赛的情况,主要分
新智元
2023/03/29
6520
200+机器学习竞赛最全分析:超550万美元总奖金,人人都用PyTorch,2070也能夺冠!
竞赛大杀器xgboost,波士顿房价预测
经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山。
Datawhale
2019/07/19
2.1K0
竞赛大杀器xgboost,波士顿房价预测
XGBoost,NVIDIA是什么
XGBoost 是一个开源软件库,在梯度提升框架下执行优化的分布式梯度提升机器学习算法。
zhangjiqun
2024/12/14
860
XGBoost,NVIDIA是什么
集成模型Xgboost!机器学习最热研究方向入门,附学习路线图
导读:本文介绍了集成学习中比较具有代表性的方法,如Boosting、Bagging等。而XGBoost是集成学习中的佼佼者,目前,一些主流的互联网公司如腾讯、阿里巴巴等都已将XGBoost应用到其业务中。本文对XGBoost的历史演化、应用场景及其优良特性进行了阐述,为入门XGBoost并进一步学习打下基础。
Datawhale
2020/03/19
1.8K0
集成模型Xgboost!机器学习最热研究方向入门,附学习路线图
塔秘 | 详解用深度学习方法处理结构化数据
导读 鉴于使用深度学习方法按照本文所介绍的步骤处理结构化数据有以下的好处:快;无需领域知识;表现优良,本文主要详细讲述如何用深度学习方法处理结构化数据。 在机器学习/深度学习或任何类型的预测建模任务中,都是先有数据然后再做算法/方法。这也是某些机器学习方法在解决某些特定任务之前需要做大量特征工程的主要原因,这些特定任务包括图像分类、NLP 和许多其它「非常规的」数据的处理——这些数据不能直接送入 logistic 回归模型或随机森林模型进行处理。相反,深度学习无需任何繁杂和耗时的特征工程也能在这些类型的任务
灯塔大数据
2018/04/03
8650
塔秘 | 详解用深度学习方法处理结构化数据
XGBoost原理与实现
XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。
大数据技术与机器学习
2019/11/20
7950
陈天奇:机器学习科研的十年
十年前,MSRA的夏天,刚开始尝试机器学习研究的我面对科研巨大的不确定性,感到最多的是困惑和迷茫。十年之后,即将跨出下一步的时候,未来依然是如此不确定,但是期待又更多了一些。这其中的变化也带着这十年经历的影子。
量子位
2019/07/22
8840
陈天奇:机器学习科研的十年
推荐阅读
相关推荐
机器学习行业盛会-旧金山机器学习研讨会上的10点思考
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档