文章期号:20190604
第二章统计进阶,多元统计:主成分分析
通过加载复制开篇名义,本文主要通过案例,借助R来实现因子分析和对应分析的具体实战。小白需要自己补充相关理论知识。
1,因子分析案例
1,通过加载复制版中的52个学生的6门成绩数据:
Mac上:read.table(pipe("pbpaste"),sep='\t',header=T)->dataWindows上:content <- read.table(file="clipboard",header=TRUE)2,计算相关系数矩阵:
> cor(data)
x1 x2 x3 x4 x5 x6
x1 1.0000000 0.6495536 0.6845391 -0.5553997 -0.4501417 -0.4302980
x2 0.6495536 1.0000000 0.5726694 -0.5025568 -0.3508995 -0.4579216
x3 0.6845391 0.5726694 1.0000000 -0.3795145 -0.2736858 -0.2437064
x4 -0.5553997 -0.5025568 -0.3795145 1.0000000 0.8133433 0.8347407
x5 -0.4501417 -0.3508995 -0.2736858 0.8133433 1.0000000 0.8187991
x6 -0.4302980 -0.4579216 -0.2437064 0.8347407 0.8187991 1.00000003,提取因子(极大似然法和主成分法):
> factanal(data, factors=2, rotation="none")
Call:
factanal(x = data, factors = 2, rotation = "none")
Uniquenesses:
x1 x2 x3 x4 x5 x6
0.235 0.449 0.352 0.148 0.210 0.150
Loadings:
Factor1 Factor2
x1 -0.664 0.569
x2 -0.598 0.440
x3 -0.479 0.647
x4 0.918
x5 0.858 0.234
x6 0.885 0.259
Factor1 Factor2
SS loadings 3.388 1.068
Proportion Var 0.565 0.178
Cumulative Var 0.565 0.743
Test of the hypothesis that 2 factors are sufficient.
The chi square statistic is 3.78 on 4 degrees of freedom.
The p-value is 0.437
#主成分 需要载入包 mvstats
fac<-factpc(data,2)4,解释因子(52学生常见有明显的文理科倾向性)
#明显化:文科因子和理科因子
fac1<-factpc(data,2,rotation='varimax')
fac1
#计算因子得分
fac2<-factpc(data,2,rotation='varimax', scores='regression')
fac2$scores
#绘制因子载荷图
plot(fac2$loadings, xlab='Factor1', ylab='Factor2') #输出影子载荷图
#每个学生的因子得分图
biplot(fac2$scores, fac2$loadings)文理科双因子
52学生常见有明显的文理科倾向性
2,对应分析实战
对应分析是R型因子分析和Q型因子分析的结合,利用降维的思想来达到简化数据结果的对,同时对数据表中的行和列进行处理,寻求以低维图表来表示数据表中行与列之间的关系。
步骤:
1,由数据矩阵X 计算规格化的概率矩阵
2, 计算过渡矩阵
3,进行因子分析
例如:分析如下数据:
> X<-read.table(pipe("pbpaste"),header=T)
> Z<-X[,-1]
> chisq.test(Z)
Pearson's Chi-squared test
data: Z
X-squared = 1030.1, df = 36, p-value < 2.2e-16计算行和列的得分:
> library(MASS)
> ca2<-corresp(Z, nf=2)
> rownames(ca2$rscore)=X[,1]
> ca2
First canonical correlation(s): 0.17933228 0.01896212
Row scores:
[,1] [,2]
最低收入户 -1.96830644 -1.3285223
较低收入户 -1.44856190 -0.9070070
中等偏下户 -0.97068022 -0.4603836
中等收入户 -0.54845375 0.5670742
中等偏上户 -0.03232808 1.3639620
较高收入户 0.43507458 0.9414503
最高收入户 1.25763257 -1.0453509
Column scores:
[,1] [,2]
肉禽及其制品 -1.36707828 -0.4637594
蛋类 -1.59707661 -1.1112356
水产品 0.02725855 2.6175325
奶及奶制品 -0.46697640 1.5261695
服装 0.48491880 -0.2497690
耐用消费品 1.33266208 -0.8879205
文化娱乐用品 1.13861727 -0.1015123
>收入与消费的对应分析图
解释说明(经济基础决定消费方式和生活质量)
第一类中:最低收入户,较低收入户,中等偏下户,收入绝大部分购买蛋类,肉禽这些食品,以维持正常的生活需要。
第二类中:中等收入户,中等偏上收入户,较高收入户 为了追加更高质量的生活,收入用于购买奶及奶制品,水产品,服装。
第三类中:最高收入户,不仅满足物质生活,也追加精神需要,购买耐用的消费品和文化娱乐用品。