首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏全栈程序员必看

    特征工程

    1.特征工程 特征归一化 问:为什么需要对数值类型的特征做归一化? 分析解答: 为了消除数据特征之间的量纲影响,对特征进行归一化处理,使得不同指标之间具有可比性。 2.类别型特征 类别型特征指在有限选项内取值的特征。 问题:在对数据进行预处理时,应该怎样处理类别型特征? 知识点: 序号编码:用于处理类别间具有大小关系的数据。高3,中2,低1 独热编码:用于处理类别间不具有大小关系的特征3 高维组合特征的处理 问题:什么是组合特征?如何处理高维组合特征? 为了提高复杂关系的拟合能力,在特征工程中疆场会把一阶离散特征两两组合,构成高阶组合特征。 深度学习模型提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征

    59420发布于 2021-05-20
  • 来自专栏小明的博客

    特征工程

    数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 例如将“中国”、“美国”、“英国”分别用1,2,3进行编码,机器学习的估计器将认为这些属性值是有序的。 数据本身的波动特征以及与目标的相关程度的问题 根据特征选择的形式又可以将特征选择方法分为 3 种: Filter 过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征 信息增益度量:特征f的信息增益定义为使用特征f的先验不确定性与期望的后验不确性之间的差异。若特征f1的信息增益大于特征f2的信息增益,则认为特征f1优于特征f2。 典型的嵌入式特征选择方法是决策树算法,如ID3,C4.5以及CART算法等。决策树算法在树增长过程的每个递归步都必须选择一个特征,将样本划分成较小的子集。选择特征的依据是划分后子节点的纯度。

    1.2K20编辑于 2022-09-06
  • 来自专栏用户画像

    特征工程

    特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面 1、把原始数据转换成与目标相关的数据 我们可以使用特征工程对原始数据进行转换,使其更接近目标变量,转换后的特征对目标更有预测性。 更进一步,位置信息转换成收入和人口密度的特征工程,可使我们估计这些位置衍生出的特征哪一个更为重要。 3、使用非结构化的数据源 特征工程可使我们在机器学习模型中使用非结构化的数据源。 引自《机器学习实战》 在机器学习应用领域中,特征工程扮演着非常重要的角色,可以说特征工程是机器学习应用的基础。 在机器学习应用中,特征工程介于“数据”和“模型”之间,特征工程是使用数据的专业领域知识创建能够使机器学习算法工作的特征的过程,而好的数据胜于多的数据。

    86310发布于 2019-08-29
  • 来自专栏mathor

    特征工程

    这次特征工程主要是以天池的一个二手车交易价格预测比赛出发进行学习 特征工程和数据清洗转换是比赛中至关重要的一块,因为数据和特征决定了机器学习的上限,而算法和模型只是逼近这个上限而已,所以特征工程的好坏往往决定着最后的结果 特征工程一般包括特征构造,特征选择,降维等步骤,但是它一般是和数据清洗转换放在一块,也有的把这两块统称为特征工程,因为两者联系实在是密切(你中有我,我中有你的景象) 通过数据清洗和转换,我们能够更好地表示出潜在问题的特征 1.1 时间特征的构造 根据上面的分析,我们可以构造的时间特征如下: 汽车的上线日期与汽车的注册日期之差就是汽车的使用时间,一般来说与价格成反比 对汽车的使用时间进行分箱,使用了3年以下,3-7年,7- 通过上面的步骤,我们已经把特征工程做完了。简单的梳理一下,首先构造的是时间特征,构造了使用时间,是否报废,使用时间分箱,是否淡旺季等特征。 总结 梳理一下上面的知识:特征工程和数据清洗分不开,特征工程部分包括特征构造,特征筛选和降维等技术,特征构造部分,我们需要发散思维,根据背景尽可能的构造特征出来,挖掘数据的潜在信息,当然,构造的时候,不同字段的特征得分开处理

    62620发布于 2020-03-31
  • 来自专栏Michael阿明学习之路

    Feature Engineering 特征工程 3. Feature Generation

    从原始数据创建新特征是改进模型的最佳方法之一 例如,数据有很长连续时间的,我们可以把最近一周的提取出来作为一个新的特征 1. 组合特征 最简单方法之一是组合特征 例如,如果一条记录的国家/地区为"CA",类别为"Music",则可以创建一个新值" CA_Music" 可以从所有分类特征中构建组合特征,也可以使用三个或更多特征进行交互 python一样直接相加 interactions.head(10) 0 Poetry_GB 1 Narrative Film_US 2 Narrative Film_US 3 ) count_7_days.head(10) 0 1487.0 1 2020.0 2 279.0 3 984.0 4 752.0 5 522.0 6 3.

    74640发布于 2020-07-13
  • 来自专栏自然语言处理

    贷款违约预测-Task3 特征工程

    Task3 特征工程 此部分为零基础入门金融风控的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流。 特征特征之间组合 特征特征之间衍生 其他特征衍生的尝试(选做作业) 特征编码 one-hot编码 label-encode编码 特征选择 1 Filter 2 Wrapper (RFE) 3 Embedded 特征选择的方法: 1 Filter 方差选择法 相关系数法(pearson 相关系数) 卡方检验 互信息法 2 Wrapper (RFE) 递归特征消除法 3 Embedded 基于惩罚项的特征选择法 各种算法书中对特征工程部分的讲解往往少得可怜,因为特征工程和具体的数据结合的太紧密,很难系统地覆盖所有场景。 在特征工程中比赛和具体的应用还是有所不同的,在实际的金融风控评分卡制作过程中,由于强调特征的可解释性,特征分箱尤其重要。

    1.5K20发布于 2020-09-22
  • 来自专栏机器学习算法原理与实践

    特征工程特征表达

              在特征工程特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。 对地理特征,比如“广州市天河区XX街道XX号”,这样的特征我们应该如何使用呢?处理成离散值和连续值都是可以的。如果是处理成离散值,则需要转化为多个离散特征,比如城市名特征,区县特征,街道特征等。 但是如果我们需要判断用户分布区域,则一般处理成连续值会比较好,这时可以将地址处理成经度和纬度的连续特征3. 比如对于用户的ID这个特征,如果要使用独热编码,则维度会爆炸,如果使用特征嵌入就维度低很多了。对于每个要嵌入的特征,我们会有一个特征嵌入矩阵,这个矩阵的行很大,对应我们该特征的数目。 小结        本文总结了特征表达的一些具体方法, 但是特征表达的方法便不止于上文中的方法,毕竟这是工程实践。但是上文中的方法是比较普遍的,希望可以给大家一些帮助和启发。

    1K30发布于 2018-08-07
  • 来自专栏机器学习算法原理与实践

    特征工程特征选择

        特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。 这个特征集合有时候也可能很大,在尝试降维之前,我们有必要用特征工程的方法去选择出较重要的特征结合,这些方法不会用到领域知识,而仅仅是统计学的方法。     最简单的方法就是方差筛选。 类似于过滤法,但是它是通过机器学习训练来确定特征的优劣,而不是直接从特征的一些统计学指标来确定特征的优劣。下面我们分别来看看3类方法。 也不是,一般来说,可以得到特征系数coef或者可以得到特征重要度(feature importances)的算法才可以做为嵌入法的基学习器。 3.  个人经验是,聚类的时候高级特征尽量少一点,分类回归的时候高级特征适度的多一点。 4. 特征选择小结     特征选择是特征工程的第一步,它关系到我们机器学习算法的上限。

    1.3K20发布于 2018-08-07
  • 来自专栏算法研习社

    特征工程(中)- 特征表达

    比如,还是身高,但取值为“高”、“中”、“低”3种类型。 模型需求 如果你在公司负责建模调优,那你对负责特征工程的同事,会有什么样的需求呢?换言之,你希望他们给你什么样的特征呢? 3、Embedding编码 One hot和TF-IDF的编码,都把每个单词或标签当成一个独立的个体(在特征空间中是彼此正交的),而没有考虑它们之间的联系。 比如,对类型1、2、3和4,可以分别编码为(1 0 0 0)、(0 1 0 0)、(0 0 1 0)和(0 0 0 1)。 如果分别编码为t1、t2和t3,则t2必需要介于t1和t3之间。 04 特殊特征的处理 有时候,根据模型的需要,需要对一些特征做特殊处理。这里以时间特征和地理特征为例,进行说明。 对文中提到的归一化,我们认为也是特征表达的一个方面,但这个问题不太核心,且限于篇幅,不再详述。下篇文章将是特征工程系列的最后一篇,届时会讨论特征评估的问题。

    89830发布于 2020-07-21
  • 来自专栏光城(guangcity)

    特征工程特征关联

    特征工程特征关联 0.说在前面 1.皮尔逊 2.pointbiserialr系数 3.Spearman's 系数 4.总结 5.作者的话 0.说在前面 昨天学习了seaborn绘制图形 ,以及单变量与多变量之间的绘图,那么今天从统计学角度实战分析在处理特征工程过程中所涉及的三个相关系数(具体的三个系数数学推导,在后续更新)。 针对连续变量,我们在做特征工程时,需要做的便是皮尔逊系数分析! Spearman相关条件: 1.xy不服从双变量正态分布 2.总体分布类型未知 3.数据本身有不确定值 4.等级资料。 3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。 pointbiserialr相关条件: 数据必须是二分类!

    1.7K20发布于 2019-09-20
  • 来自专栏机器学习AI算法工程

    特征工程(四): 类别特征

    每个位都是一个特征。 因此是一个绝对的具有k个可能类别的变量被编码为长度为k的特征向量。 表5-1 对3个城市的类别进行独热编码 ? 单热编码非常易于理解。 但它使用的是比严格必要的更多的一点。 独热编码e1,e2,e3限制条件。 e1+e2+e3+...+ek=1 因此,我们有一个线性的依赖性。 线性相关特征,就像我们一样在tfidf中发现,有点烦人,因为它意味着训练线性模型不会是唯一的。 线性回归模型可以这样写 y=w1x1+w2x2+w3x3+...+wnxn 习惯上我们还添加一个常量来,这样的话当x全部为0,y不会为0. 例5-1.在独热编码上的线性回归 ? 例如,如果原件特征是文档中的单词,那么散列版本将具有固定的词汇大小为m,无论输入中有多少独特词汇。 例5-3 对单词的特征哈希 ? 然而,因为它是一种特征工程技术,而不是一种建模或优化方法,所以没有关于该主题的研究论文。

    3.9K20发布于 2019-10-28
  • 来自专栏算法研习社

    特征工程(下 )- 特征评估

    作者丨stephenDC 编辑丨Zandy 作者会在本文中结合自己在视频推荐方面的工作经验,着重从工程实现方面,讲述如何对特征进行评估的问题。 特征提取和生成的方法不同,其覆盖率也自然不同。对视频的特征生成来说,可以基于内容,也可以基于用户行为。这里讲述并对比3种方法,分别以关键词(简称为“标签”)、“ALS”和“Word2vec”。 作者曾经基于Spark mllib来做特征工程,后来发现mllib有一个致命的缺陷,就是只实现了数据分布式,而没有实现参数分布式。 3 数据源问题 还是以视频推荐为背景,基于标签的特征构建,依赖视频标签数据和用户行为数据。也就是说,如果标签不准,或者用户行为里混入了脏数据,特征工程的质量是可以想见的。 没有这些相关同事的工作,特征工程就是巧妇难为无米之炊了。 小结 本文在“特征选择”和“特征表达”的基础上,聊了一下特征评估的问题。至此,特征工程系列终于结束。

    1.7K20发布于 2020-07-21
  • 来自专栏算法研习社

    特征工程(上)- 特征选择

    机器学习问题,始于构建特征特征质量的好坏,直接影响到最终的模型结果。 构建特征是一个很大的工程,总体来讲包括“特征选择”、“特征表达”和“特征评估”3个部分。 我们也按这3个部分,并结合自己的具体实践,用3篇文章来和大家聊一下特征工程的相关问题。 本篇文章,我们讨论一下特征选择。特征选择指的是,在全部的特征中,挑选出对最终的机器学习任务有用的特征。 在进行特征选择时,可以丢弃那些方差特别小的特征3. 个人成功和家庭背景有关系吗?“当然没有”,前总理的女儿曾说过,“能力之外的资本等于0”! 假设检验 假设检验是一种统计推断方法,简单来说就是先做一个假设,然后再基于某个量来判断该假设是否成立。 如果我们先从N个特征中选出一个最好的特征,然后让其余的N-1个特征分别与第一次选出的特征进行组合,从N-1个二元特征组合中选出最优组合。之后,再次在上次的基础上,添加一个新的特征,考虑3特征的组合。

    1.1K20发布于 2020-07-21
  • 来自专栏AI 算法笔记

    特征工程特征缩放&特征编码

    (上) 特征工程之数据预处理(下) 本篇文章会继续介绍特征工程的内容,这次会介绍特征缩放和特征编码,前者主要是归一化和正则化,用于消除量纲关系的影响,后者包括了序号编码、独热编码等,主要是处理类别型、文本型以及连续型特征 图来自《百面机器学习》 3.常用的两种归一化方法: 线性函数归一化(Min-Max Scaling)。 3.通常如果使用二次型(如点积)或者其他核方法计算两个样本之间的相似性时,该方法会很有用。 优点:模型简单 缺点:特征工程比较困难,但一旦有成功的经验就可以推广,并且可以很多人并行研究。 对于非线性模型(比如深度学习),通常使用“少量连续特征+复杂模型”。 优点:不需要复杂的特征工程 缺点:模型复杂 分桶 1.离散化的常用方法是分桶: 将所有样本在连续的数值属性 j 的取值从小到大排列。 然后从小到大依次选择分桶边界。

    1.6K20发布于 2019-08-16
  • 来自专栏AI 算法笔记

    特征工程(完)

    (上) 特征工程之数据预处理(下) 特征工程特征缩放&特征编码 这也是特征工程系列最后一篇文章,介绍特征提取、特征选择、特征构建三个工作,通常特征工程被认为分为这三方面的内容,只是我将前面的数据&特征预处理部分都加入到这个系列 前者的窗口是 3×3 的正方形窗口,后者将窗口从正方形拓展为任意圆形领域。 深度学习模型的出现正好提供了一种自动进行特征工程的方法,它的每个隐含层都相当于不同抽象层次的特征。 ---- 小结 特征工程这个内容加上本文总共写了四篇文章,从数据预处理,处理缺失值、异常值,类别不平衡和数据扩充问题,到特征缩放、特征编码,以及本文的特征选择、特征提取和特征构造,基本包含了特征工程涉及的内容 实际上是在对于《hands-on-ml-with-sklearn-and-tf》第二章数据准备部分的总结,刚好涉及到特征工程内容,所以打算好好做个总结,没想到这部分内容真的不少,而对于特征工程,我的经验其实不算很丰富

    1.1K20发布于 2019-08-16
  • 来自专栏机器学习算法原理与实践

    特征工程特征预处理

        在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 具体的方法是求出样本特征x的均值mean和标准差std,然后用(x-mean)/std来代替原特征。这样特征就变成了均值为0,方差为1了。 max-min标准化:也称为离差标准化,预处理后使特征值映射到[0,1]之间。具体的方法是求出样本特征x的最大值max和最小值min,然后用(x-min)/(max-min)来代替原特征。 当然,某些筛选出来的异常样本是否真的是不需要的异常特征样本,最好找懂业务的再确认一下,防止我们将正常的样本过滤掉了。 3.  结语     特征工程系列终于写完了,这个系列的知识比较零散,更偏向工程方法,所以不像算法那么紧凑,写的也不是很好,希望大家批评指正。如果有其他好的特征工程方法需要补充的,欢迎留言评论。

    2K40发布于 2018-08-07
  • 来自专栏1996

    特征工程之类别特征

    表5-1 对3个城市的类别进行独热编码 City e1 e2 e3 San Francisco 1 0 0 New York 0 1 0 Seattle 0 0 1 独热编码非常易于理解。 独热编码e1,e2,e3限制条件。 因此,我们有一个线性的依赖性。线性相关特征,就像我们一样在tfidf中发现,有点烦人,因为它意味着训练线性模型不会是唯一的。 (见表5-3) 表5-3 三个不同城市的公寓价格数据集 id city Rent 0 SF 3999 1 SF 4000 2 SF 4001 3 NYC 3499 4 NYC 3500 5 NYC 3501 图5-2 哈希编码 当有很多特征时,存储特征向量可能占用很多空间。特征散列将原始特征向量压缩为m维通过对特征ID应用散列函数来创建矢量。 例5-3 对单词的特征哈希 def hash_features(word_list, m): output = [0] * m for word in word_list:

    1.1K10编辑于 2022-09-23
  • 来自专栏机器学习AI算法工程

    特征工程(一):

    这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面,而且符合模型的假设。因此,转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数字特征时,它们可以被应用。 接下来,考虑特征的规模。最大值和最小值是什么?它们跨越几个数量级吗?输入特性平滑的模型对输入的尺度敏感。例如,3x+ 1是输入X的简单线性函数,其输出的规模直接取决于输入的比例。 (严格地说,这将是目标工程,而不是特征工程。)对数变换,这是一种功率变换,将变量的分布接近高斯。另一个解决方案是第5章讨论的bin计数方法。 第3章讨论了文本特征的过滤技术的例子。过滤比下面的包装(wrapper)技术便宜得多,但是他们没有考虑到正在使用的模型。因此他们可能无法为模型选择正确的特征。 因此,所有道路最终都会指向某种数字特征工程技术。

    1.4K30发布于 2019-10-28
  • 来自专栏vincent随笔

    特征工程笔记

    虽然说特征工程很大程度上是经验工程,跟具体业务相关,但是我们可以根据一些思路来进行,以下是我在实践过程中总结出来的一些思路,希望能给大家带来一点启发。 散点图 scatter 分布图(seaborn.distplot) 热力图+协方差矩阵 heatmap 对比图 PairGrid 使用完热力图后将与目标属性最相关的几个属性做一个对比图,两两对比 1.特征构建 根据相关领域的经验和概览得到的信息,决定怎么对属性进行组合比较合适 原始属性 四则运算 求和 求增幅 求众数,方差,极差 特征交叉组合 特征随机组合,然后使用PCA降维 对结构化属性进行组合(四则运算 加权融合 对不同的特征采用不同的权重 数值归一化 数值重新赋值 将连续数值分段,进行离散化(one hot编码 TF-IDF编码) 3.特征选择 主成分分析(PCA) 因子分析 机器学习获取特征重要性分数 根据方差选择,选择方差大于一定阈值的特征(方差太小说明该特征的区别不明显)

    30310发布于 2021-08-18
  • 来自专栏Soul Joy Hub

    pyspark 特征工程

    曾经在15、16年那会儿使用Spark做机器学习,那时候pyspark并不成熟,做特征工程主要还是写scala。 后来进入阿里工作,特征处理基本上使用PAI 可视化特征工程组件+ODPS SQL,复杂的话才会自己写python处理。最近重新学习了下pyspark,笔记下如何使用pyspark做特征工程。 我们使用movielens的数据进行,oneHotEncoder、multiHotEncoder和Numerical features的特征处理。 .| 2|(1001,[2],[1.0])| | 3|Grumpier Old Men ...| Comedy|Romance| 3|(1001 , 0, 3]| 19|(19,[0,3,4],[1.0,...| | 691| [1, 2]| 19|(19,[1,2],[1.0,1.0])| | 829

    2.3K10发布于 2021-03-20
领券