原理实现:在不同的特征子集上运行训练模型,不断地重复,最终汇总特征选择的结果。比如可以统计某个特征被认为是重要特征的频率
(被选为重要特征的次数除以它所在的子集被测试的次数)。...这个过程中特征被消除的次序就是特征的排序,实际上这是一种寻找最优特征子集的贪心算法。
优缺点
RFE的稳定性很大程度上取决于在迭代选择的时候,选择哪一种模型。...有些机器学习方法本身就具有对特征进行打分的机制,或者很容易将其运用到特征选择任务中,
例如回归模型,SVM,树模型(决策树、随机森林)等等
5.4.1.线性模型
工作原理
越是重要的特征在模型中对应的系数就会越大...AGE'), (0.0117, 'B'), (0.0051, 'INDUS'), (0.0036, 'RAD'), (0.001, 'ZN'), (0.0008, 'CHAS')]
# 通过sklearn中的随机森林返回特征的重要性...算法原理如下:
(1)在占比少的类别 B 中随机抽取一个样本 a,从 a 的最近邻 k 个数据中又随机选择一个样本 b。