在数据挖掘中,数据记录包含着多个变量,每个变量/因子的变化有的依赖于其他变量(内生变量),有的依赖于外生变量。分析数据中哪一个变量对数据记录有较大对影响,常应用在预测模型中。同时,对因子进行分析能提供影响结果模型因素的一个综合描述。
单因子分析
条件绘图是依赖于某个特定因子的图形表示。因子是一个取值为有限集合的名义变量(因子部分多内容可参看“暑期系列第10篇”)。
在数据挖掘中,常常需要研究一个变量的变化是如何依赖于其他变量,即内生变量于外生变量的关系。本篇公众号将介绍几种方法进行处理。
分析数据中a1的分布是如何依赖于其他变量,使用bwplot()函数绘制因子关系箱型图
使用bwplot()函数绘制变量A1的箱型图
对变量size的每个值绘制a1。
在规模较小的河流中,a1的频率较高
分位箱型图
箱型图的另外一个类型是分位箱型图,它可以给出所绘制变量的更多信息。
绘制变量a1的条件分位箱型图
图中的点代表不同大小的河流中海藻频数的均值,而图中的竖线分别代表变量的第一个分位数、中位数和第三个分位数。图中的小竖线代表数据的真实取值,这些值的分布信息则由分位数图来体现。
分位箱图提供的信息要多于传统的箱图信息。从上图的观测结论:小型河流有更高频率的海藻,同时也可观测到小型河流的海藻频率的分布比其他类型河流的海藻频率的分布分散。
多因子分析
箱型图的绘制不局限于名义变量,也不局限于单个因子。
对于多因子对变量的影响,使用如下命令。
考虑变量a3在给定变量season和变量mnO2下的条件绘图,(其中,变量mnO2是一个连续变量):
equal.count( )对连续变量mnO2离散化,同时将变量转换为因子类型。
命令:
> stripplot(season~a3|mnO2,
data = algae[!is.na(algae$mnO2),])
绘制多因子依赖关系分布图
领取专属 10元无门槛券
私享最新 技术干货