商务智能系列文章目录
【商务智能】数据预处理
----
文章目录
商务智能系列文章目录
前言
一、数据预处理主要任务
二、数据规范方法
1、z-score 规范化
2、最小-最大规范化
三、数据离散方法...1、分箱离散化
2、基于熵的离散化
总结
----
前言
在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;
一、数据预处理主要任务
数据预处理主要任务..., 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;
③ 数据清洗 : 识别 和 处理 数据缺失 , 噪音数据...( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;
----
总结
本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化..., 数据清洗 , 特征提取与特征选择 ;
数据规范化涉及 最小-最大规范化 和 z-score 规范化 ;
数据离散化涉及 分箱离散化 和 基于熵的离散化 , 分箱离散化分为 等距离分箱 和 等频率分箱