Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习虾扯淡之特征工程(一)No.38

机器学习虾扯淡之特征工程(一)No.38

作者头像
大蕉
发布于 2018-02-05 09:52:31
发布于 2018-02-05 09:52:31
6750
举报

0x00瞎扯淡

当当当,我又来啦。

哇咔咔,很多人都说我好久好久没写机器学习的东西啦。是不是忘啦?

没有没有,记着呢。

只是最近在看很多其他的东西,比如敲敲scikit-learn的文档啦,比如看看《Head First 数据分析》啦,比如看看《集体智慧编程》啦,看看gossip算法啦。

Head First 数据分析,这个,能不看就别看了,几乎没啥用。

《集体智慧编程》真心是给我开了一个脑洞,原来还可以用遗传算法自动生成程序,哎呀我天。

哎呀扯回正题,特征工程特征工程。

敲黑板敲黑板。今天讲特征提取的套路,啊。

???

快睁开眼睛。

???

好。

0x01简述

特征工程,顾名思义,就是批量生产特征的工程化,特征工程一般来说分为两部分,特征提取和特征选择。

好的特征是成功的一半嘛,这个步骤的结果直接决定了你最终模型训练的上限。

那么特征提取的套路呢,就分五步走,分别解决两个问题,提什么,以及怎么提。

◇ 拍一拍 ◇ 看一看 ◇ 抽一抽 ◇ 洗一洗 ◇ 改一改 ◇

0x02具体都是些啥

拍一拍

拍啥呢?

拍脑门啊。

管它啥玩意特征提取,先按照业务场景的实际需求先拍一些想去抓取的数据范围出来先。

看一看

那要看什么呢?

看的目的是对数据进行可用性评估。

评估数据获取的难度,数据的规模,数据的准确率,数据的覆盖率。

  1. 数据获取的难度?

比如你想知道整个城市垃圾场的数据,一桶一桶称?

啊,咋获取,你告诉我咋获取。

难度非常大,这些难度非常大的数据,如果我们觉得它们很重要,我们得换别的思路去代替。

  1. 数据的规模

数据的规模是十万,一百万还是几千亿?这个一定要摸清楚啊,跟后面处理的工具有很大关系。

  1. 数据的准确率

社交媒体上的年龄能信?

社交媒体上的性别能信?我看到真人我都无别甄别性别好吗?

  1. 数据的覆盖率

你所想要实现的业务需求的场景,数据能覆盖吗?会不会有些地方,根本就没有这个数据。或者数据只会存在在某些特定的用户,而其他用户根本就不会有这些数据的?

比如某个农村小白比如小蕉的资产信息,哪来哪来?

“EI,我跟你说,不存在的。”

?

“那你很棒棒喔。”

?

抽一抽

啊,这个有技术含量了。

抽完放哪?抽哪些子集?

放哪?

喏,放那里。☝️

离线部分,可以抽完放HDFS上,或者RDBMS上。

在线部分,可能就要分级放在HBase、ElasticSearch,或者KV数据库等能快速索引的地方了。

抽哪些子集?

有时候数据上千亿,难道全部拿出来咩?也处理不了这么多啊。

只能按照数据分布来采集子集啦。

常用方法有随机采样啦,固定比例采样啦,接受-拒绝采样啦,重要性采样啦,Gibbs采样啦。

抽完还要看看数据分布,看看是不是要重采样啦,是不是要降采样啦,这样。

洗一洗

  1. 结合业务场景,进行数据列规则进行过滤

"钞票小于100元的我通通都不要。"

"这种拿小钱的粗活累活就让我来承担吧"

  1. 使用算法进行异常点检测

常用的套路有这些。

K均值聚类啊,层次聚类啊,谱聚类啊,DBSCAN啊,KNN啊。

以及四分位啊,极差啊,标准差,均差,看看数据分布大概是怎样的。

至于偏离太远的,得看看是特殊用户,还是垃圾数据,反正不太应该出现在我们接下里的过程里。

改一改

主要有三个套路要去弄。

标准化,离散化,缺省值。

  1. 什么叫标准化?

嗯,就是把所有的特征呢,都归到同一个值域里面。头长砍头,脚长砍脚。

?"咦,好血腥。。你再这样这个发不出去的小蕉。"

比如颜色像素,有256个值对不对,归到0-1就是全部处于256啦。这个叫归一化。

比如1、3、5、7、9。这种咋办呢?直接每个值都除以(最大值-最小值),这个叫最大最小值归一化。

也可以用Logistic函数,直接映射到0-1上,这个叫函数映射。

也可以直接排序,给他们强行改成新值,这个叫排序归一化。

  1. 什么叫离散化?

就是将连续的数值进行分箱啦。

(1元,5元]的一箱,(5元,10元]的一箱,这样

“都说了少于100元的我都不要了”

“妈蛋又不是给你的”

  1. 什么叫缺省值?

就是肯定有些值不知道什么鬼原因,反正就不见了嘛。咋办?

普遍的做法呢,要么就填个众数,要么就填个平均值,要么就用其他机器学习方法预测一个填进去。

别填过头,会粗事的。。

0xFF结束鸟

凑活着看吧,没了~

如果觉得有帮助呢,就分享给朋友或者点个赞,都是对我很大的支持喔。感谢大家的支持。点下订阅呗,差几个就700了。

赞赏一下,开心一周

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一名叫大蕉的程序员 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​特征工程系列:特征预处理(上)
关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~
木东居士
2019/08/08
1.1K0
​特征工程系列:特征预处理(上)
【机器学习】特征工程
作者:JasonDing1354 引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。 特征工程的重要意义 数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果越好。 影响预测结果好坏的因素:模型的选择、可用的数据、特征的提取。 优质的特征往往描述了数据的固有
陆勤_数据人网
2018/02/27
1.8K0
【机器学习】特征工程
​特征工程系列:特征预处理(上)
关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~
石晓文
2019/08/29
1.4K0
​特征工程系列:特征预处理(上)
特征工程方法综述
根据文章内容撰写摘要总结
DevOps时代
2017/07/12
6.5K2
特征工程方法综述
特征工程最后一个要点 : 特征预处理
地址:https://www.cnblogs.com/pinard/p/9093890.html
机器学习算法工程师
2018/07/26
4330
机器学习 | 特征工程(数据预处理、特征抽取)
所谓特征工程即模型搭建之前进行的数据预处理和特征提取。有时人们常常好高骛远,数据都没处理好就开始折腾各种算法,从第一开始就有问题,那岂不是还没开始就已经结束了。所以说啊,不积跬步无以至千里,生活中的每个细节,都可能创造人生的辉煌。
week
2021/11/29
2.5K0
机器学习 | 特征工程(数据预处理、特征抽取)
《C++解锁机器学习特征工程:构建智能数据基石》
在当今机器学习蓬勃发展的浪潮中,特征工程犹如一座坚实的基石,奠定了模型成功的基础。而 C++以其卓越的性能和强大的底层控制能力,在实现机器学习特征工程方面发挥着独特且关键的作用。
程序员阿伟
2024/12/18
1580
机器学习 | 特征工程综述
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。
week
2021/11/29
4210
机器学习 | 特征工程综述
机器学习实战 | 机器学习特征工程最全解读
教程地址:http://www.showmeai.tech/tutorials/41
ShowMeAI
2022/03/22
2.1K0
机器学习实战 | 机器学习特征工程最全解读
简介机器学习中的特征工程
要解决一个机器学习问题,我们不能仅仅通过将算法应用到提供的数据上。比如.fit() 。我们首先需要构建一个数据集。
deephub
2020/08/11
5890
简介机器学习中的特征工程
面向机器学习的特征工程 一、引言
机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习流水线中特征位于数据和模型之间。特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习流水线关键的一步,因为正确的特征可以减轻建模的难度,并因此使流水线能输出更高质量的结果。从业者们认为构建机器学习流水线的绝大多数时间都花在特征工程和数据清洗上。然后,尽管它很重要,这个话题却很少单独讨论。也许是因为正确的特征只能在模型和数据的背景中定义。由于数据和模型如此多样化,所以很难概括项目中特征工程的实践。
ApacheCN_飞龙
2022/12/01
4530
【转载】机器学习之特征工程(有删改)
本文是一篇关于特征工程的总结类文章,如有不足之处或理解有偏差的地方,还望大家多多指点。
marsggbo
2019/02/23
8520
【转载】机器学习之特征工程(有删改)
机器学习之特征工程(一)
本文介绍了特征工程与特征选择方法,包括基于统计方法的过滤法、基于树模型的特征选择、基于机器学习的方法、以及特征选择方法的评价指标。同时,还介绍了在Python中使用sklearn库进行特征选择的方法,包括递归特征消除法、相关系数法、基于惩罚项的特征选择和基于树模型的特征选择。
企鹅号小编
2018/01/05
1.3K0
特征工程(完)
这也是特征工程系列最后一篇文章,介绍特征提取、特征选择、特征构建三个工作,通常特征工程被认为分为这三方面的内容,只是我将前面的数据&特征预处理部分都加入到这个系列。
kbsc13
2019/08/16
9860
《深度剖析:特征工程—机器学习的隐秘基石》
在机器学习的宏大版图中,特征工程宛如一座隐藏在幕后却又至关重要的基石。它默默发挥着作用,将原始数据雕琢成模型能够有效学习和理解的形态,深刻影响着机器学习模型的性能与表现。
程序员阿伟
2025/02/28
2040
机器学习之(四)特征工程以及特征选择的工程方法
原文链接:http://www.uml.org.cn/ai/201811022.asp
周小董
2019/08/18
1.3K0
Python特征工程面试:从理论到实践
在数据科学与机器学习领域,特征工程作为提升模型性能的关键步骤,备受面试官的关注。本篇博客将深入浅出地探讨Python特征工程面试中常见的问题、易错点及应对策略,辅以代码示例,助您在面试中游刃有余。
Jimaks
2024/04/20
2100
图解机器学习特征工程
上图为大家熟悉的机器学习建模流程图(扩展阅读:一文全览机器学习建模流程(Python代码)),整个建模流程非常重要的一步,是对于数据的预处理和特征工程,它很大程度决定了最后建模效果的好坏。
算法进阶
2023/09/01
1.4K0
图解机器学习特征工程
机器学习特征工程和优化方法
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数 据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
大数据技术与机器学习
2019/11/20
1.7K0
七种常用特征工程
像一个优秀的工程师一样使用机器学习,而不要像一个机器学习专家一样使用机器学习方法。 ---google 当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。 一、什么是特征工程 简单的说,特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢?因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力。但是最有效的数据呈现其实并不涉及任何的数据运算。
智能算法
2018/04/02
1.6K0
七种常用特征工程
相关推荐
​特征工程系列:特征预处理(上)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档