数学挖掘系列(二) :数据探索是做些什么?
需要探索的内容
数据的质量和数量是否满足建模要求?
2. 数据是否有明显的规律和趋势特征?
3. 各个属性直接有什么样的关联性?
探索的方法:检验数据质量、绘制图标、计算某些特征量,对样本结构和规律进行分析
01
质量分析
主要是对数据的有效性和准确性的分析,分析的主要内容是:
缺失值 (重点):无法获取、被遗漏、本身属性值不存在
异常值 (重点):不和常理的值、离群点
不一致的值
重复数据以及含有特殊符号的数据
判断缺失值和异常值:做简单描述统计,在Python中一般使用df.describe()语句可查看数据的每个属性的样本确实情况,以及最大值最小值均值等等基本的统计量。对于异常值的判断,如果样本数据服从正态分布,一般以3δ原则判断异常值。也可以利用箱型图画图来展示离群点。
02
特征分析
主要是对数据的分布,属性之间的关联性,数据的离散度等特征分析。
分布分析
定量数据(是否对称,绘制频率分布直方图),绘制直方图需要根据业务逻辑挑选合适的组距和组数;
定性数据(饼图和条形图来描述分布)根据变量的分类类型分组。
对比分析
适合指标间的横纵向比较、时间序列的比较分析。(绝对数比较、相对数比较)
相对数比较的方式有很多:结构相对数、比例相对数、强度相对数、计划完成程度相对数、动态相对数;根据不同的比较对象选择合适的比较方法
统计量分析:集中趋势和离中趋势两个方面分析
集中趋势:均值、中位数、众数
离中趋势:极差、标准差、变异系数 (CV)、四分位数间距
cv=s/mean(x)
周期性分析: 年度周期性、季节性周期性、月度周期性趋势、周度周期性趋势(一般针对具有时间序列的数据)
贡献度分析:帕累托分析(2/8定律),将每个产品的盈利贡献度直观的表示出来,可以提供基本的改善策略方向。
Python 中计算累计贡献度:P=1.0*data.cumsum()/data.sum()
相关性分析: 分析连续变量之间线性相关程度的强弱。
1. 散点图(单变量)散点图矩阵(多变量);
2. 计算相关系数:
Pearson相关系数(数据服从正态分布)
Spearman秩相关系数(适合分类或等级变量数据)
判定系数(R平方)
3
Python函数列表
python 中常用的做数据探索的函数(Pandas,Matplotlib)
基本统计特征函数:
基本统计作图函数:
作图之前一般需要导入一下代码,以保证图形输出格式的正确性和规范性
import matplotlib.pyplot as plt
plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
plt.rcParams[‘ axes.unicode_minus’]=False
plt.figure(figsize=(7,5))
领取专属 10元无门槛券
私享最新 技术干货