知其然而不知其所以然本不属于三行的风格,探索模型背后的数理支撑往往比单纯实现模型来得更有魅力. 这一节,将阐释因子分析模型背后的数理基础.
预备知识
特征值和特征向量
设C是一个p*p的方阵,矩阵C的特征值就是C的特征方程的根,即
而关于特征值的特征向量就是
的非0解向量,其中E是p*p的单位矩阵.
设有n 个样本,每个样本有p个指标(变量),那么原始数据应该是一个n*p的矩阵
令原始数据经过0均值规范化后依然用X表示,因子分析的目的是将p个变量表示成m(m
其中称为公共因子,为特殊因子, 一般要求服从高斯分布. 写成矩阵形式为
其中
现在问题是把系数矩阵A构造出来,当作初始因子载荷矩阵,这里采用主成分方法,即计算原始数据的相关矩阵的特征值和特征向量.
设相关系数矩阵为p*p的C,由预备知识可求得p个特征值为且(因为相关系数矩阵C是严格主对角线占优矩阵),对应的特征向量为, 那么可令初始因子载荷矩阵
仅摘取前m(m
领取专属 10元无门槛券
私享最新 技术干货