在一个大的高维二进制数据集中(考虑200,000+行和150+字段)中,有哪些方法可以很容易地在R中实现,以找到高度相关变量的分组?我想找到变量的分组,这有助于解释,所以我不认为PCA将是最好的方法。
发布于 2014-01-29 04:59:48
library(Hmisc)
mtc <- mtcars[,2:8]
mtcn <- data.matrix(mtc)
clust <- varclus(mtcn)
clust
plot(clust)
?varclus :
对变量进行了层次聚类分析,利用Hoeffding D统计量、平方Pearson或Spearman相关或两个变量的比例作为相似性度量。变量聚类用于评估共线性度、冗余度,并将变量划分为可以作为单个变量得分的聚类,从而减少数据。
对于二进制Vraible:
library(cluster)
data(animals)
ma <- mona(animals)
ma
plot(ma)
?mona :
返回一个列表,该列表表示仅带有二进制变量的数据集的分层次聚类。
https://stackoverflow.com/questions/21431678
复制