当前位置:首页 > 大学生学习成绩影响因素的实证分析 - 图文
其中A为因子载荷矩阵,R?1为原始指标相关矩阵的逆矩阵.
3.3 主成分分析
3.3.1 主成分分析的含义
主成分分析是将多指标化为少数几个综合指标的一种统计方法.主成分分析是从原始变量中导出少数几个主分量,使他们尽可能多地保留原始变量的信息,且彼此互不相关.主成分分析的应用目的是数据的压缩、数据的解释[17].它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释.从而更加深刻地揭示事物的内在规律
[18]
.
3.3.2 主成分分析的数学模型
通常数学上的处理是将原来的p个指标做线性组合,作为新的综合指标.如果将选取的第一个线性组合即第一个综合指标记为F1,一般自然希望F1中尽可能多地反映原来指标的信息,这里的信息最经典的方法就是用F1的方差来表达,即Var?F1?越大,则表示F1包含的信息越多.因此在所有的线性组合中所选取的第l主成分应该是方差最大的.如果笫1主成分不足以完全代表p个指标的信息,再考虑选第2个线性组合F2,即第2个主成分,依次类推可以造出第3,第4,??,第p个主成分.这些主成分问互不相关,且方差递减.
设有n个样本,每个样本由p个指标x1,x2,???,xp描述,可得原始数据矩阵:
?x11?x21?X?????x?n1?x12?x1p??x22?x2p? ??X1,X2,?,Xp? (3.12)
????xn2?xnp??其中Xj??x1j,x2j?,xnj?,j?1,2,?,p
用数据矩阵X的P个向量X1,X2,?,Xp作线性组合可得
Fi?a1iX1?a2iX2???apiXp,i?1,2,?,p (3.13)
其中组合系数满足
a1i?a2i???api?1,i?1,2,?,p. (3.14)
222(3.13)中的系数由下列原则确定:
11
cov(Fi,Fj)?0(i?j,i,j?1,2,?,p)即Fi与Fj不相关.
F1是X1,X2,?,Xp的以上组合中方差最大的,其次为F2,F3,?,Fp, 即
var(F1)?var(F2)???var(Fp) (3.15)
新的综合指标的总方差保持不变, 即
?var(Xi)??Fi (3.16)
i?1i?1pp如上决定的综合指标F1,F2,?,Fp分别称为原指标的第一主成分,第二主成分,??,第由(3.15)和(3.16)可以看出,用前面的一部分主成分F1,F2,?,Fk(k?p)就可以反映p主成分.
原指标所包含的较大部分的信息量,而且主成分之间是互不相关的.这样就可以用少数的几个互不相关的主成分代替原始指标来分析解决问题.
那么如何求出原指标的主成分昵?由(3.13)知核心是求出组合的系数.设
X?(X1,X2,?,Xp)的协方差矩阵为S,其中p个特征根从大到小依次为?1??2???p?0,
则原指标的第i个主成分Fi的组合系数a1i,a2i,?,api正是S的第i个特征根?i对应的标准化正交特征向量,且有:
??,i?jcov(Fi,Fj)??i?0,i?j (3.17)
因而前k个主成分的方差贡献率为
a(k)??var(F)??ikki?var(F)??ii?1i?1i?1p?i?1p (3.18)
i这样,要求得原指标的p个主成分,只需求出原指标的协方差阵S的特征根及相应的标准正交特征向量[19,20]. 3.3.3 主成分分析的计算步骤
(1)对矩阵X中的原始数据进行标准化处理
由于主成分是由协方差阵S求得的,而协方差矩阵要受到指标量纲和数量级的影响,为
12
了克服这一缺陷,就必须将原始指标数据标准化:其中
zij?xij?xjSj (3.19)
1n xj??xij (3.20)
ni?11n Sj? (xij?xj) (3.21)?n?1i?1标准化指标协方差矩阵不受指标量纲和数量级的影响.
(2)建立标准化后的P个指标相关系数矩阵R R?(rij),rij?其中
1n Sij? (xii?xi)(xjj?xj) (3.23)?n?1i?12SijSiiSjj (3.22)
(3)求解相关矩阵R的特征根和特征向量
特征根可以被看成是主成分影响力度的指标,代表引入该主成分后可以解释平均多少原始变量的信息.如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大.一般可以用特征根大于l作为纳入标准. 特征根?1??2????p?0
特征向量相应的标准化正交特征向量为:
Ai??a1i,a2i,?,api?,i?1,2,?,p.
?(4)计算各主成分的方差贡献率和累积方差贡献率??k? ?k??k??i?1p (3.24)
i ?(k)?????i?1i?1pki (3.25)
i 13
方差贡献率表明主成分Fi的方差在全部方差中的比重.这个值越大,表明主成分Fi综合X1,X2,?,Xp信息的能力越强.
累积方差贡献率表示前面k个主成分累积提取了X1,X2,?,Xp多少信息.
一般来说,如果前k个主成分的贡献率达到85%,表明前个主k成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数,又便于对实际问题的分析和研究[21].
(5)确定主成分个数
确定主成分个数的原则是用较少的主成分获取足够多的原始信息,实际上就是在k和
?(k)之间进行权衡:一方面要使k尽可能的小,另一方面使?(k)尽可能的大.根据实际问题的需要,使前k个主成分的累积方差率达到一定的要求,即?(k);或者先计算p个特征根的平均值
1p????i
pi?1选择所有满足?i??的?i即可,对于标准化指标数据有
??i?1pi?p,??1
因此选择所有大于1的特征根即可.
(6)写出主成分并求出各样本的主成分值 主成分用原始指标x1,x2,?,xp可表示为
fi?a1ix1?a2ixi???apixp,i?1,2,?,k. (3.26) 将原始数据(3.12)代入(3.26)即可得到主成分值矩阵
?f11?f21 F??????fn1f12?f22???fn2?f1k?f2k?? (3.27) ???fnk?3.3.4 用主成分分析进行综合评价
各评价对象的表现由主成分反映,可用主成分计算各样本的综合评价值,进而对各样本进行排序和比较.由于主成分之间互不相关,一般采用加权算术平均来综合,并且以各主成分
14
共分享92篇相关文档