缺失值处理在数据分析中是关键的一步,而且是开始的关键一步,我们对于数据的缺失处理直接影响模型的准确性.
1.产生的原因:
调查者忘记回答了,拒绝回答,不完整的问卷,设备出故障,网络连接失效,数据误记,有意而为之等等...我们做这么多探索,缺失值的数目,以及分布模式主要为了,分析缺失数据的潜在机制,评价缺失数据对分析 目标的影响.也即需要搞清楚: 缺失数据比例多大;缺失数据分布情况,缺失是随机的吗...,还包括贝叶斯线性回归,判别分析,两水平正太插补,以及随机抽样,下面是mice包的实现与原理
一起看看它到底怎么插补的:其中1.是每个变量的缺失情况 2,各变量的插补方法 3,为预测平均 下面的矩阵说明每个变量的插补参考了哪些变量...具体插补的值是多少我们也可以看看. 分别是5次模拟数据集中,dream的缺失插补值....完整的模拟数据集中的第2个就是:
其他方法:
3,缺失值分类
完全随机缺失(MCAR):某个变量的观测值缺失与自身其他观测,以及其他数据集中的变量无关. eg:工作人员忘记填了
随机缺失(MAR):