首页
学习
活动
专区
圈层
工具
发布

因子&对应分析干货实践

文章期号:20190604

第二章统计进阶,多元统计:主成分分析

通过加载复制开篇名义,本文主要通过案例,借助R来实现因子分析和对应分析的具体实战。小白需要自己补充相关理论知识。

1,因子分析案例

1,通过加载复制版中的52个学生的6门成绩数据:

代码语言:javascript
代码运行次数:0
复制
Mac上:read.table(pipe("pbpaste"),sep='\t',header=T)->dataWindows上:content <- read.table(file="clipboard",header=TRUE)

2,计算相关系数矩阵:

代码语言:javascript
代码运行次数:0
复制
> cor(data)
x1         x2         x3         x4         x5         x6
x1  1.0000000  0.6495536  0.6845391 -0.5553997 -0.4501417 -0.4302980
x2  0.6495536  1.0000000  0.5726694 -0.5025568 -0.3508995 -0.4579216
x3  0.6845391  0.5726694  1.0000000 -0.3795145 -0.2736858 -0.2437064
x4 -0.5553997 -0.5025568 -0.3795145  1.0000000  0.8133433  0.8347407
x5 -0.4501417 -0.3508995 -0.2736858  0.8133433  1.0000000  0.8187991
x6 -0.4302980 -0.4579216 -0.2437064  0.8347407  0.8187991  1.0000000

3,提取因子(极大似然法和主成分法):

代码语言:javascript
代码运行次数:0
复制
> factanal(data, factors=2, rotation="none")

Call:
factanal(x = data, factors = 2, rotation = "none")

Uniquenesses:
x1    x2    x3    x4    x5    x6 
0.235 0.449 0.352 0.148 0.210 0.150 

Loadings:
Factor1 Factor2
x1 -0.664   0.569 
x2 -0.598   0.440 
x3 -0.479   0.647 
x4  0.918         
x5  0.858   0.234 
x6  0.885   0.259 

Factor1 Factor2
SS loadings      3.388   1.068
Proportion Var   0.565   0.178
Cumulative Var   0.565   0.743

Test of the hypothesis that 2 factors are sufficient.
The chi square statistic is 3.78 on 4 degrees of freedom.
The p-value is 0.437 

#主成分 需要载入包 mvstats
fac<-factpc(data,2)

4,解释因子(52学生常见有明显的文理科倾向性)

代码语言:javascript
代码运行次数:0
复制
#明显化:文科因子和理科因子
fac1<-factpc(data,2,rotation='varimax')
fac1

#计算因子得分
fac2<-factpc(data,2,rotation='varimax', scores='regression')
fac2$scores

#绘制因子载荷图
plot(fac2$loadings, xlab='Factor1', ylab='Factor2') #输出影子载荷图

#每个学生的因子得分图
biplot(fac2$scores, fac2$loadings)

文理科双因子

52学生常见有明显的文理科倾向性


2,对应分析实战

对应分析是R型因子分析和Q型因子分析的结合,利用降维的思想来达到简化数据结果的对,同时对数据表中的行和列进行处理,寻求以低维图表来表示数据表中行与列之间的关系。

步骤:

1,由数据矩阵X 计算规格化的概率矩阵

2, 计算过渡矩阵

3,进行因子分析

例如:分析如下数据:

代码语言:javascript
代码运行次数:0
复制
> X<-read.table(pipe("pbpaste"),header=T)
> Z<-X[,-1]
> chisq.test(Z)
  Pearson's Chi-squared test
data:  Z
X-squared = 1030.1, df = 36, p-value < 2.2e-16

计算行和列的得分:

代码语言:javascript
代码运行次数:0
复制
> library(MASS)
> ca2<-corresp(Z, nf=2)
> rownames(ca2$rscore)=X[,1]
> ca2
First canonical correlation(s): 0.17933228 0.01896212 

 Row scores:
                  [,1]       [,2]
最低收入户 -1.96830644 -1.3285223
较低收入户 -1.44856190 -0.9070070
中等偏下户 -0.97068022 -0.4603836
中等收入户 -0.54845375  0.5670742
中等偏上户 -0.03232808  1.3639620
较高收入户  0.43507458  0.9414503
最高收入户  1.25763257 -1.0453509

 Column scores:
                    [,1]       [,2]
肉禽及其制品 -1.36707828 -0.4637594
蛋类         -1.59707661 -1.1112356
水产品        0.02725855  2.6175325
奶及奶制品   -0.46697640  1.5261695
服装          0.48491880 -0.2497690
耐用消费品    1.33266208 -0.8879205
文化娱乐用品  1.13861727 -0.1015123
>

收入与消费的对应分析图

解释说明(经济基础决定消费方式和生活质量

第一类中:最低收入户,较低收入户,中等偏下户,收入绝大部分购买蛋类,肉禽这些食品,以维持正常的生活需要。

第二类中:中等收入户,中等偏上收入户,较高收入户 为了追加更高质量的生活,收入用于购买奶及奶制品,水产品,服装。

第三类中:最高收入户,不仅满足物质生活,也追加精神需要,购买耐用的消费品和文化娱乐用品。

下一篇
举报
领券