商务智能系列文章目录
【商务智能】数据预处理
----
文章目录
商务智能系列文章目录
前言
一、数据预处理主要任务
二、数据规范方法
1、z-score 规范化
2、最小-最大规范化
三、数据离散方法...1、分箱离散化
2、基于熵的离散化
总结
----
前言
在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;
一、数据预处理主要任务
数据预处理主要任务..., 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;
③ 数据清洗 : 识别 和 处理 数据缺失 , 噪音数据...: 又称为 等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;
如 : 学生考试分数 ,
0
~
100
分 , 以
10
分为一档 , 分为
10
档 ,
15
分处于
11...( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;
----
总结
本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化