如何根据变量类型选择分析方法?
面对大量数据,你将如何开展数据分析?您会选择什么样的数据分析方法呢?您是否看着数据感到迷茫,无所适从。认真读完这篇文章,或许你将有所收获。
1.常用数据分析方法
1.1聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
1.2因子分析
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。
因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。
1.3相关分析
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
1.4对应分析
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
1.5回归分析
研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
1.6方差分析
又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
2.如何根据变量选择数据分析方法
2.1把握两个关键
(1)抓住业务问题不放松。您费大力气收集数据的动机是什么?你想解决什么问题?这是核心,是方向,这是业务把握层面。
(2)全面理解数据。哪些变量,什么类型?适合或者可以用什么统计方法,这是数据分析技术层面。须把握三大关键:变量、数据分析方法、变量和方法的关联。
2.2认识变量
2.3认识数据分析方法
选择合适的数据分析方法是非常重要的。选择数据分析(统计分析)方法时,必须考虑许多因素,主要有:
(1)数据分析的目的,
(2)所用变量的特征,
(3)对变量所作的假定,
(4)数据的收集方法。选择统计分析方法时一般考虑前两个因素就足够了。
2.4将变量与分析方法关联、对应起来
(1)其一:
(2)其二:
寄语:
领取专属 10元无门槛券
私享最新 技术干货