在数据预处理之前,先来了解下特征工程,特征工程指的是在原始数据之中提取,构造,选择数据特征的过程。有句话是:“数据和特征工程决定了你能到达的上限,机器学习模型决定了你能多么逼近这个上限”。特征工程是数据分析过程中最重要的一步,当然也很能简单的理解,毕竟特征工程是建模步骤的基础和准备。content1特征选择 1.1 Filter 1.1.1 方差选择法 1.1.2 相关系数法 1.1.3 卡方检验 1.1.4 互信息法 1.2 Wrapper 1.2.1 递归特征消除法 1.3 Embedded 1.3.1 基于惩罚项的特征选择法 1.3.2 基于树模型的特征选择法1 特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。
根据特征选择的形式又可以将特征选择方法分为3种:
Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。
我们使用sklearn中的feature_selection库来进行特征选择。1.1 Filter1.1.1 方差选择法使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下:
fromsklearn.feature_selectionimportVarianceThreshold
#方差选择法,返回值为特征选择后的数据
#参数threshold为方差的阈值
VarianceThreshold(threshold=3).fit_transform(iris.data)
单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要,剔除那些不重要的指标。对于分类问题(y离散),可采用:卡方检验,f_classif, *mutual_info_classif,互信息对于回归问题(y连续),可采用:皮尔森相关系数,f_regression, *mutual_info_regression,最大信息系数
1.1.2 相关系数法使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值。Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系,Pearson相关性也可能会接近0。用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下:
fromsklearn.feature_selectionimportSelectKBest
fromscipy.statsimportpearsonr
#选择K个最好的特征,返回选择特征后的数据
#第一个参数为计算评估特征是否好的函数,该函数输入特征矩阵和目标向量,输出二元组(评分,P值)的数组,数组第i项为第i个特征的评分和P值。在此定义为计算相关系数
#参数k为选择的特征个数
SelectKBest(lambdaX,Y:array(map(lambdax:pearsonr(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)
1.1.3 卡方检验卡方检验的样本量要求:卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。经典的卡方检验是检验定性自变量对定性因变量的相关性。用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下:
fromsklearn.feature_selectionimportSelectKBest
fromsklearn.feature_selectionimportchi2
#选择K个最好的特征,返回选择特征后的数据
SelectKBest(chi2,k=2).fit_transform(iris.data,iris.target)
1.1.4 互信息法互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。为了处理定量数据,最大信息系数法被提出,使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下:
fromsklearn.feature_selectionimportSelectKBest
fromminepyimportMINE
#由于MINE的设计不是函数式的,定义mic方法将其为函数式的,返回一个二元组,二元组的第2项设置成固定的P值0.5
defmic(x,y):
m=MINE()
m.compute_score(x,y)
return(m.mic(),0.5)
#选择K个最好的特征,返回特征选择后的数据
SelectKBest(lambdaX,Y:array(map(lambdax:mic(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)
互信息直接用于特征选择其实不是太方便:1、它不属于度量方式,也没有办法归一化,在不同数据及上的结果无法做比较;2、对于连续变量的计算不是很方便(X和Y都是集合,x,y都是离散的取值),通常变量需要先离散化,而互信息的结果对离散化的方式很敏感。最大信息系数克服了这两个问题。它首先寻找一种最优的离散化方式,然后把互信息取值转换成一种度量方式,取值区间在[0,1]。minepy提供了MIC功能。1.2 WrapperWrapper方法寻找所有特征子集中能使后续学习算法达到较高性能的子集,在特征选择阶段,wrapper可以看做:搜索方法+学习算法。通俗理解就是Wrapper方法将特征集的选择视为一个搜索问题,会先准备若干种特征的组合方案,然后评估,相互比较。评估所使用的标准通常是模型的准确率。1.2.1 递归特征消除法递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练。sklearn官方解释:对特征含有权重的预测模型(例如,线性模型对应参数coefficients),RFE通过递归减少考察的特征集规模来选择特征。首先,预测模型在原始特征上训练,每个特征指定一个权重。之后,那些拥有最小绝对值权重的特征被踢出特征集。如此往复递归,直至剩余的特征数量达到所需的特征数量。RFECV 通过交叉验证的方式执行RFE,以此来选择最佳数量的特征:对于一个数量为d的feature的集合,他的所有的子集的个数是2的d次方减1(包含空集)。指定一个外部的学习算法,比如SVM之类的。通过该算法计算所有子集的validation error。选择error最小的那个子集作为所挑选的特征。
fromsklearn.feature_selectionimportRFE
fromsklearn.linear_modelimportLogisticRegression
#递归特征消除法,返回特征选择后的数据
#参数estimator为基模型
#参数n_features_to_select为选择的特征个数
RFE(estimator=LogisticRegression(),n_features_to_select=2).fit_transform(iris.data,iris.target)
使用LogisticRegression作为基模型主要是能直接得到特征的权重。1.3 Embedded1.3.1 基于惩罚项的特征选择法使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型,来选择特征的代码如下:
fromsklearn.feature_selectionimportSelectFromModel
fromsklearn.linear_modelimportLogisticRegression
#带L1惩罚项的逻辑回归作为基模型的特征选择
SelectFromModel(LogisticRegression(penalty="l1",C=0.1)).fit_transform(iris.data,iris.target)
通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;具体方法参照:http://www.cnblogs.com/jasonfreak/p/5448385.html关于正则化的的解释可参考:https://www.zhihu.com/question/209240391.3.2 基于树模型的特征选择法树模型中GBDT也可用来作为基模型进行特征选择,使用feature_selection库的SelectFromModel类结合GBDT模型,来选择特征的代码如下:
fromsklearn.feature_selectionimportSelectFromModel
fromsklearn.ensembleimportGradientBoostingClassifier
#GBDT作为基模型的特征选择
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)
领取专属 10元无门槛券
私享最新 技术干货