Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AutoML 是否被过度炒作?

AutoML 是否被过度炒作?

作者头像
AI科技评论
发布于 2019-10-23 02:45:49
发布于 2019-10-23 02:45:49
5960
举报
文章被收录于专栏:AI科技评论AI科技评论

汤姆和杰瑞,第70集(译者注:直到暑假去了上海Disney,我才知道它和兔八哥、啄木鸟伍迪都和迪士尼木有关系=-=)--按键猫(1952)

作者 | Denis Vorotyntsev 译者 | 呀啦呼 编辑 | 唐里

任何行业,挖掘数据的原因,无外乎是为了利润。而ML和data viz能帮助公司的决策者低成本的抽丝剥茧降维分析自己的商业需求。

我在多个机器学习竞赛中为了融合主要的模型使用了AutoML,并且我参与了两个AutoML的竞赛。我认为AutoML作为使建模过程自动化的一种想法非常出色,但是该领域被过度炒作(overhyped)。一些关键概念,例如特征工程(features engineering)或用于参数优化的元学习(meta-learning),将释放其潜力,但就目前而言,将封装的AutoML作为工具只是浪费金钱。

以下所有文本均与表格数据有关。

一、AutoML是嘛玩意?

Data Science projects数据科学项目

任何数据科学项目都包含几个基本步骤:从业务角度提出问题(选择成功的任务和度量标准),收集数据(收集,清理,探索),建立模型和评估其性能,在生产环境中部署模型并观察模型在生产中的表现。

跨行业的数据挖掘标准流程

过程的每个部分对于项目的成功都至关重要。但是,从机器学习的最擅长角度来看,建模部分至关重要,因为完善的ML模型可能会为公司带来很多价值。

在建模阶段,数据科学家正在解决优化任务:使用给定的数据集,目标-最大化所选指标。这个过程很复杂,它需要不同类型的技能:

1. 特征工程有时被视为艺术,而非科学(译者:我猜作者表达的是很多时候我们需要直觉或者经验总结,但是我不同意归为艺术);

2. 参数优化需要对算法和核心ML概念有深入的了解;

3. 需要软件工程技能(码畜们存在的意义)来让输出的代码易于理解、部署。

这就是为啥我们需要AutoML。

ML建模和软件工程一样,像是艺术和科学的结合体

AutoML

AutoML的输入是数据和任务(classification, regression, recommendations等),输出-生产就绪模型,该模型能够预测隐藏的数据。数据驱动管道中的每个决定都是一个参数(译者:闹不懂作者的意思,有点玄学)。AutoML的基本想法是找到这样的参数,这些参数可以在合理的时间内给出良好的分数。

  • AutoML选择了一种预处理数据的策略:如何处理不平衡的数据;如何处理不平衡的数据;如何填充缺失值;outlier的删除,替换或保留;如何编码类别和多类别列;如何避免目标泄漏;如何防止内存错误;等等。
  • AutoML生成很多新的特征并且选择当中有意义的;
  • AutoML自动选择适合的模型(Linear models, K-Nearest Neighbors, Gradient Boosting, Neural Nets, 等等);
  • AutoML为选择的模型进行参数优化(比如tree-based的模型有多少子树数量和子采样数, 神经网络的learning rate和epochs数量
  • AutoML建立了一个模型集成(译者:大杂烩,嘛都有)来尽可能的让模型分数更高。

二、AutoML的动机

AutoML将填补数据科学市场中供需之间的缺口

如今,越来越多的公司要么开始收集数据,要么想变现已收集数据的潜力:他们希望从中获得价值(译者:作者应该表达的是商业价值)。可是没有太多具有适当背景的数据科学家可以满足需求,因此巨大的缺口出现了。AutoML有可能会填补上。

但是这样的封装解决方案能给公司带来任何价值吗?我认为答案是“否”。

这些公司需要一个过程,但是AutoML只是一个工具。先进的工具无法弥补战略上的不足。在开始使用AutoML之前,请考虑先找咨询公司来个项目(译者:瓜娃子作者是咨询公司的托吧),这可能首先帮助您制定数据科学策略。大多数AutoML解决方案提供商也提供咨询服务并不是巧合。

看起来不像是一个完美计划,对吧(“South Park”, s2e17)

AutoML将会大幅节省数据科学团队的时间

根据2018 Kaggle ML and Data Science Survey, 一个数据可选的项目15-26%的时间花费在建模或者模型选择。

无论是考虑“员工工时”还是消耗的计算时间,这都是一项艰巨的任务。如果目标或数据发生更改(例如添加新特征),之前的过程就会被重复。AutoML可以帮助公司内的数据科学家节省时间,并将其更多地花费在更重要的事情上(例如在椅子上击剑)。

而我们在开始使用AutoML之前仅仅需要几行代码。

但是,如果数据科学团队的建模部分不是最关键的任务,则你的公司流程中显然存在问题。通常,即使模型性能的小幅提高也可能为公司赚取大量金钱,在这种情况下,建模时间是值得开销的时间:

让你的数据科学团队给日常任务编写脚本而不是使用封装的解决方案是一个好主意。 我为日常任务的自动化编写了一些脚本:自动特征生成,特征选择,模型训练和参数tuning,而这些我现在每天都在使用。

AutoML比普通的数据科学家更厉害

除了"An Open Source AutoML Benchmark”, 我们没有任何有用的“AutoML vs 人类”的benchmarks。

该论文的作者在2019年7月1日发布了几个AutoML库与优化后的Random Forest性能的比较结果。

我挺好奇的,然后来做我自己的benchmarks.我在三个数据集( credit, KDD Upselling, 和 mortgages)上比较了我的模型和AutoML的性能。我把数据集分为训练集(按目标分层随机分配了60%的数据)和测试集(剩余40%).

我的基准解决方案相对简单。 我没有深入研究数据,也没有创建任何高级特征:

  1. 5-StratifiedKFold;
  2. 用于分类列的Catboost编码器,如果您对CatBoost编码器不熟悉,请查看我之前的文章:Benchmarking Categorical Encoders;
  3. 数字列对的数学运算(+-* /)。 新特征数量的上限:500;
  4. 模型: 默认参数的LightGBM;
  5. 混合(OOF ranked predictions)

我用了两个AutoML的库: H2O 和 TPOT。我分阶段、次数训练了这俩宝贝:从15分钟到6小时。使用以下指标,我得到了令人惊讶的结果:

首先,在几乎所有情况下,我的baseline都超过了AutoML。 我有点难过,因为我计划在办公室里放松一下,而AutoML会做所有劳累的工作,但是无所谓咯 ?~~

其次,AutoML的得分并没有随着时间的推移而提高,这意味着我们等待多长时间都没有关系:它在15分钟内和6小时内的得分一样低。

AutoML与高分无关。

三、总结

  1. 如果你的公司想第一次使用其数据,整个咨询顾问先。
  2. 你应该让你的工作尽量的自动化。。。
  3. 。。。可是封装的解决方案得分很低,看起来并不像是正确的选择。

PS: 引擎并不代表一辆完整的车

在本文中,我谈论的是工具,但是请记住,建模部分只是整个数据科学项目管道的一部分,这一点很重要。 我喜欢将项目比作汽车。 这样,建模(机器学习模型)的输出就是一个引擎。

毫无疑问,发动机是必不可少的,但它并不是整车。 你可能需要花费大量时间来设计令人难以置信,周到和复杂的特征,选择神经网络的体系结构或调整Random Forest的参数,从而创建强大的引擎。 但是,如果你没有注意汽车的其他部分,则所有工作可能都没有用。

该模型本身可以显示很高的分数,但是由于你解决了错误的问题(业务理解)或数据有偏见,并且必须对其进行重新训练(数据探索)或由于模型过于复杂,因此使用该模型不会被部署。

最后,你可能会发现自己很傻:在经过数天或数周的艰苦建模工作后,你驾驶的是一辆装有跑车发动机的慢速自行车。

工具必不可少; 策略才是至关重要。

本文编译自技术博客 https://towardsdatascience.com/automl-is-overhyped-1b5511ded65f, 雷锋字幕组编译。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Quant值得拥有的AutoML框架
自动机器学习,也称为 AutoML,是将机器学习应用于实际问题的端到端过程自动化的过程。典型的机器学习过程包括几个步骤,包括数据的摄取和预处理、特征工程、模型训练和部署。在传统的机器学习中,Pipeline中的每一步都是由人来监控和执行的。自动机器学习工具(automatic machine learning)旨在自动化这些机器学习的一个或多个阶段,使非专家更容易建立机器学习模型,同时消除重复性任务,使经验丰富的机器学习工程师能够更快地建立更好的模型。
量化投资与机器学习微信公众号
2021/09/17
1.3K0
独家 | 在时间关系数据上AutoML:一个新的前沿
现实世界中的机器学习系统需要数据科学家和领域专家来建立和维护,而这样的人才却总是供不应求。自动化机器学习(AutoML)由于在构建和维护机器学习工作流中的关键步骤中所展现出的广泛适用性,使得该领域的研究前景一片光明。它减轻了人类专家的工作负担,使他们能够专注于复杂、非重复和具有创造性的学习问题。
数据派THU
2019/11/26
8920
AutoML:机器学习的下一波浪潮
AI 前线导读: 人工智能和机器学习仍然是一个进入门槛较高的领域,需要专业的知识和资源,很少有公司可以自己承担。—— 李飞飞自动机器学习(AutoML)是将机器学习应用于现实问题的端到端流程自动化的过程。AutoML 使真正意义上的机器学习成为可能,即使对于没有该领域专业知识的人也是如此。本文介绍了一些流行的 AutoML 框架,这些框架的趋势是自动化部分或整个机器学习的管道。更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)
用户7886150
2020/12/27
1.3K0
AutoML研究综述:让AI学习设计AI
选自 arXiv 作者:Marc-André Zöller、Marco F. Huber
机器之心
2019/05/15
6900
AutoML研究综述:让AI学习设计AI
AutoML工具对比与总结
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程   公众号:datayx 自动机器学习(AutoML)是将机器学习应用于现实问题的端到端流程自动化的过程。 传统机器学习模型大致可分为以下四个部分:数据采集、数据预处理、优化、应用; 其中数据预处理与模型优化部分往往需要具备专业知识的数据科学家来完成,他们建立起了数据到计算的桥梁。 然而,即使是数据科学家,也需要花费大量的精力来进行算法与模型的选择。 机器学习在各种应用中的成功,导致对机器学习从业人员的需求不断增长,因此我们希望实现真正意义上的机
机器学习AI算法工程
2022/09/20
2.2K0
AutoML工具对比与总结
了解自动化机器学习 AutoML
自动化机器学习(AutoML)旨在自动化机器学习模型的开发流程,通过简化或去除需要专业知识的复杂步骤,让非专家用户也能轻松创建和部署机器学习模型。AutoML 的核心组件包括:数据预处理、特征工程、模型选择、模型训练与超参数优化以及模型部署与推理。
叶庭云
2024/05/25
4690
比谷歌AutoML快110倍,全流程自动机器学习平台应该是这样的
昨日,机器之心联合 MoBagel(行动贝果) 举行了 AutoML 线下技术分享会,我们很荣幸邀请到两位来自硅谷的技术大咖,MoBagel 钟哲民与郭安哲,他们向我们介绍了全流程 AutoML 技术到底是什么,它能干什么,能做哪些极致优化。
机器之心
2019/12/24
8460
前沿技术|自动机器学习综述
自从计算机时代开始,科学家和工程师们就一直想知道如何像人类一样,给计算机注入学习的能力。艾伦·图灵是第一批提出智能理论的科学家之一,该理论设想有一天计算机能够达到与人类同等的智能水平。从那时起,机器学习领域发生了一系列巨大的飞跃。我们已经看到机器学习在许多情况下击败或至少匹配特定的人类认知能力,例如在ResNet(一种深度残留的网络架构)的情况下超越了人类在图像识别方面的表现,或者微软的语音转录系统几乎达到人类水平的表现。
陆勤_数据人网
2021/08/06
1.2K0
前沿技术|自动机器学习综述
独家 | 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
本文介绍了在零售商工作的数据科学家、项目经理和业务主管利用自动机器学习和Azure机器学习服务来减少产品库存过剩的具体过程。
数据派THU
2020/02/20
3770
独家 | 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
开源 | Salesforce开源TransmogrifAI:用于结构化数据的端到端AutoML库
在过去的十年中,尽管机器学习取得了巨大的进步,但是建立生产就绪的机器学习系统仍然十分困难。三年前,当我们开始将机器学习功能构建到 Salesforce 平台上时,我们发现构建企业级的机器学习系统更是难上加难。为了解决我们遇到的问题,我们构建了 TransmogrifAI,一个用于结构化数据的端到端自动机器学习库。今天,这个库已经在生产中帮助驱动我们的 Einstein AI 平台。在这里,我们很高兴与开源社区共享这个项目,使其他开发人员和数据科学家能够大规模、快速地构建机器学习解决方案。
机器之心
2018/09/20
1.2K0
开源 | Salesforce开源TransmogrifAI:用于结构化数据的端到端AutoML库
数据科学即将迎来“无代码”时代
我们正在进入数据科学实践的新阶段,即“无代码”时代。 像所有重大的变化一样,这个变化还没有在实践中清晰地体现,但这个变化影响深远,发展趋势非常明显。
大数据文摘
2018/11/08
4560
自动机器学习工具全景图:精选22种框架,解放炼丹师
收集原始数据、合并数据源、清洗数据、特征工程、模型构建、超参数调优、模型验证和设备部署。
量子位
2018/09/29
1.2K0
自动机器学习工具全景图:精选22种框架,解放炼丹师
AutoML – 用于构建机器学习模型的无代码解决方案
2018年,谷歌推出了云AutoML,引起了广泛关注,是机器学习和人工智能领域最重要的工具之一。在本文中,你将学习“AutoML”,这是一种借助 Google 云 AutoML 构建机器学习模型的无代码解决方案。
磐创AI
2023/08/29
8780
AutoML – 用于构建机器学习模型的无代码解决方案
19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)
编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?
数据派THU
2018/07/30
8330
19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)
20个必备的Python机器学习库,建议收藏!
来源丨网络 推荐阅读:终于来了,【第二期】 彭涛Python 爬虫特训营!! AutoML是指自动机器学习。它说明了如何在组织和教育水平上自动化机器学习的端到端过程。机器学习模型基本上包括以下步骤: 数据读取和合并,使其可供使用。 数据预处理是指数据清理和数据整理。 优化功能和模型选择过程的位置。 将其应用于应用程序以预测准确的值。 最初,所有这些步骤都是手动完成的。但是现在随着AutoML的出现,这些步骤可以实现自动化。AutoML当前分为三类: 用于自动参数调整的AutoML(相对基本的类型) 用于非深
sergiojune
2022/09/28
9600
20个必备的Python机器学习库,建议收藏!
自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
去年11月,我写了一篇关于使用自动机器学习来进行AI民主化(democratization)的文章(见下面链接)。
AI科技大本营
2020/02/20
6000
自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
Cloudera 机器学习中现已提供新的应用 ML 原型
数据科学家的工作艰巨,这已不是什么秘密。感觉就像很久以前,每个人都在谈论数据科学是21 世纪最性感的工作。哎呀,这么久了,人们还亲自见面呢!今天,性感开始失去光泽。人们认识到,几乎不可能找到 2012 年每个 CEO 眼中的独角兽数据科学家。你知道那个,数学家 / 统计学家 / 计算机科学家 / 数据工程师 / 行业专家。事实证明,很难在一个大脑中找到所有这些令人敬畏的东西。
大数据杂货铺
2021/12/15
6680
Cloudera 机器学习中现已提供新的应用 ML 原型
告别调参,AutoML新书221页免费下载
近期,由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰写的《AUTOML:方法,系统,挑战》“AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)” 221页的草稿版本已经放出,详细讲解了所有AutoML系统背后的基础知识,以及对当前AutoML系统进行了深入描述,Auto-WEKA、Hyperopt-Sklearn、Auto-sklearn等,最后介绍了AutoML的挑战。作者当前正在完成这本新书的编辑工作,它将由NIPS 2018出版发行。
新智元
2018/10/24
6040
告别调参,AutoML新书221页免费下载
在白板上写写画画,集成AutoML的数据分析也能如此简单
在《钢铁侠》系列电影中,托尼·史塔克用全息投影显示三维数据,用手进行拖拽调整,然后解决超级英雄遇到的问题。现在,MIT 和布朗大学的研究者合作开发了一个交互式数据分析系统,该系统可以在触摸屏上运行,所有人(不仅仅限于托尼那样的天才亿万富翁)都可以使用数据分析解决现实世界问题。
机器之心
2019/07/11
6320
在白板上写写画画,集成AutoML的数据分析也能如此简单
用于时间序列预测的AutoML
最近,参加了AutoSeries —时间序列数据的AutoML竞赛,在其中设法获得40个竞争对手(决赛中的15个)的第一名。这篇文章是解决方案的概述。
代码医生工作室
2020/01/17
1.9K0
用于时间序列预测的AutoML
推荐阅读
相关推荐
Quant值得拥有的AutoML框架
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档