云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 实验报告 kan

实验报告 kan

  • 62 次阅读
  • 3 次下载
  • 2025/12/9 17:31:12

《应用多元统计分析》

课 程 实 验 报 告

实验名称: 主成分分析十个城市的八项经济指标对综合经济的影响

从经济发展、教育与人力资源、交通及通讯、卫生与环保四个方面,共选取了20个指标,综合反映了山东省内各市的经济状况。①经济发展子系统:X1地区生产总值;X2第三产业总产值;X3工业总产值;X4地方财政一般预算收入;X5进出口总额。②教育与人力资源子系统:Y1年末总人口数;Y2人口自然增长率;Y3专任教师总数;Y4中等职业学校学生人数;Y5公共图书馆图书藏量。③交通及通讯子系统:Z1公路客运量;Z2公路货运量;Z3邮电业务总量;Z4邮政业务总量;Z5电信业务总量。④卫生及环保子系统:T1卫生机构数;T2卫生技术人员;T3工业废水排放达标量;T4固体废物综合利用量;T5废气治理设施运行费用。

一、 实验内容

现阶段我国经济发展具有较大的地区差异性。为了更好的研究城市经济发展的影响因素,本实验选取了经济发展程度较高的10个城市的8项经济衡量指标,利用主成分分析法对其进行研究。主成分分析法是将多指标转化为少数几个综合指标的一种统计分析法,这种方法不仅保证了原始数据信息损失最小而且能够有效降低变量维数,简化了实际操作。通过主成分分析法,我们更充分地了解这十个地区社会经济系统的发展水平及其差距。

二、实验目的

通过提取主成分来分析城市经济发展的综合指标,了解各指标对城市经济发展的贡献率及造成各地区经济发展差异化的原因。

通过对真实数据的分析,掌握主成分分析法的应用与实际操作,并学会对实验结果进行

1

有效分析与解释。

三、实验方法背景与求解

在日常的生活和工作中数据是最常见的信息载体,我们经常需要对数据进行分析,因此很多数据分析方法应运而生。在数据分析中,自变量的个数会有很大的影响,大量的变量不仅会使样本规律变得比较复杂,难以确定,而且还会大大增加问题分析的复杂性,使计算量增大,步骤难以操作。人们还发现很多变量间存在一定的相关性,也就是说,他们在对因变量的解释上有一定程度的重叠,因此人们希望可以降低变量的维数。但如果直接删除变量,就会造成数据信息的大量损失,使研究结果不准确,失去可信度。因此,人们希望可以找到一种方法,既可以降低变量维数,又可以保留绝大部分的信息,不会造成研究结果的不准确。因此主成分分析法应运而生。

主成分分析法是最为常用的特征提取方法,它被广泛应用到各领域,如图像处理,综合评价,语音识别,故障诊断等。主成分概念首先由Karl parson在1901年引进,不过当时只是对非随机变量进行讨论,1933年Hotelling将这个概念推广到随机向量。一项十分著名有关主成分分析的例子是美国的统计学家斯通(stone) 在1947年关于国民经济的研究。他曾利用美国1929—1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴,消费资料和生产资料, 纯公共支出,净增库存,股息,利息外贸平衡等等。他利用主成分分析,竟以97.4%的精度,用三个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1,总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。这样,通过主成分分析对原始数据加工处理,就简化了处理问题的难度并提高了数据信息的利用率,改善了抗干扰能力。但是数据的搜集和处理仍然需要很大的工作量,如今随着网络和媒体的发展为我们带来更大量的信息,主成分分析法因其卓越的优点被更广泛应用。 主成分分析是一种数学变换的方法,它的主要原理是把一组相关变量通过线性变化,变化成另一组不相关的变量。其最经典的方法是用主成分的方差来表达,方差越大,表示该主成分包含的信息越多,将求得的方差按递减的顺序排列,方差最大的为第一主成分,第二大的为第二主成分,依次类推,直到主成分的累计贡献率达到要求(通常为85%)。

下面介绍一下主成分分析的原理及一般计算步骤: (一)分析原理 主成分分析数学模型

F1=a11ZX1+a12ZX2+??+ap1ZXp F2=a12ZX1+a22ZX2+??+ap2ZXp

?? ?? ??

Fp=a1mZX1+a2mZX2+??+apmZXp

其中a1i,a2i, ??, api(i=1,??,m)为X的协方差阵Σ的特征值所对应的特征向量。通常在实际应用中, 往往存在指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化,即用ZX1,ZX2,??,ZXp表示标准化处理后的值, 本文所采用的数据就存在量纲影响。[注: 本文指的数据标准化是指Z标准化]

2

?i其中A=?aij?p?m 且Rai =?iai,R 为相关系数矩阵,?i、ai是相应的特征值和单位特

征向量,?1??2?????p?0 。

Fi为原来p个变量X1,X2,…….Xp表的标准化后的一个线性组合,如果我们想用它来替换

原来的变量,那么我们需要它尽量全面的反应原来变量所包含的信息。我们知道,方差越大,线性变化后的变量包含的原变量的信息越多。对于线性变化后的变量,我们总是希望越靠前的变量包含的信息越大,这样就可以提取尽量少的变量来达到要求。因此我们希望第一主成分含有最大的信息量,所以,在所有原变量的线性组合中,选取的F1应该具有最大的方差。如果第一主成分不足以代表原来p个指标的信息,即不能达到我们对原变量信息贡献率的要求,我们就考虑第二主成分F2,如果F1,F2的信息累计贡献率不能达到我们的要求,就考虑第三主成分,依此类推,直到达到要求的信息累计贡献率。为有效的反应原有变量的信息量,F1已有的信息就不再需要出现在F2中,F2,F3……同理,也就是说,F1,F2,F3……即主成份之间保持独立,互不相关,数学说法就是∑=0.对于方差和载荷系数ai 的求解,由数学知识可知,原变量的协方差矩阵的特征根就是主成份的方差,所以前m个较大的方差就是依次是前m个较大主成份的方差值。原变量协方差矩阵的前m个较大的特征值所对应的特征向量就是相应的原来变量在主成分上的系数,在确定系数的过程中,要保证主成分方差依次最大。在此过程中,必须对a1 有某种限制,否则,Var(F1)??,常用的限制一般是 a1a1=1,主成分分析保留了原数据大量的信息,因为它并不是原有变量的简单取舍,而是将原有变量重组后的组合。消除变量之间的相关性,通过线性变化来达到降维的目的。它在尽量多的保留信息的情况下达到降维的目的。 (二)计算步骤

1.根据所选数据计算自变量的协方差阵∑

2.求出协方差阵地特征值?i以及相应的正交化单位特征向量ai(i=1,2,??,p)

3.根据公式?k /

???求出贡献率,根据贡献率求其累计贡献率并由此选取主成分的个数

ii?1m(k=1,2,??,m)

4.写出主成分的线性表达式,根据所提取的主成分对原始数据进行主成分分析。 (注:实际应用时,指标变量的量纲往往不同,要先进行标准化,消除量纲影响。 实际操作中往往借助SPSS或SAS等统计软件)

四、实验数据与实验结果

为了探究影响城市经济发展的主要影响因素,在此选取了03年全国经济发展较快的十个城市的主要经济指标,利用主成分分析法对其进行分析。以下为原始数据:

3

城市 北京 天津 大连 上海 杭州 厦门 青岛 深圳 成都 西安 年底总人口(万人) 1149 926 560.2 1342 642.8 141.8 720.7 150.9 1044 716.6 客运地方生产量 总值 (万(万元) 人) 货运量 (万吨) 地方财政预算内收入(万元) 固定资产投资总额(万元) 19999107 9338629 4065425 22735547 7169624 2375028 5475526 8753965 7880037 4457381 城乡居民年底储蓄余额 (万元) 64413910 18253200 13101986 60546000 14664200 3971559 9084693 21994500 14944197 12105607 在岗平均工资(元) 25309.5 18648.4 17566.6 27305.5 24673.4 19016.6 15327.9 31046.7 15278.2 13508.3 36631000 30520 30671 5925388 24476600 3507 34679 2045295 16325900 11001 21081 1105405 62508100 7212 63861 8892850 20997744 21349 16815 1503888 7596934 4441 3055 701456 17804200 14666 30553 1201398 28954070 10989 6793 2908370 18708046 72793 28798 895752 9416000 11413 9392 648037 由于所选取的各指标的量纲不同,利用SPSS对数据标准化后进行主成分分析得以下各表:

表一 相关系数矩阵 Correlation Matrix Correlation Zscore (X1) Zscore (X2) Zscore (X3) Zscore (X4) Zscore (X5) Zscore

Zscore(X1) Zscore (X2) Zscore (X3) .355 -.071 1.000 .071 -.126 .066 Zscore (X4) .863 .817 .071 1.000 .749 .769 Zscore (X5) .612 .968 -.126 .749 1.000 .964 Zscore(X6) .739 .937 .066 .769 .964 1.000 Zscore (X7) .680 .875 .041 .667 .943 .976 Zscore(X8) -.039 .672 -.210 .163 .659 .595 4

1.000 .633 .633 .355 .863 .612 .739 1.000 -.071 .817 .968 .937

搜索更多关于: 实验报告 kan 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

《应用多元统计分析》 课 程 实 验 报 告 实验名称: 主成分分析十个城市的八项经济指标对综合经济的影响 从经济发展、教育与人力资源、交通及通讯、卫生与环保四个方面,共选取了20个指标,综合反映了山东省内各市的经济状况。①经济发展子系统:X1地区生产总值;X2第三产业总产值;X3工业总产值;X4地方财政一般预算收入;X5进出口总额。②教育与人力资源子系统:Y1年末总人口数;Y2人口自然增长率;Y3专任教师总数;Y4中等职业学校学生人数;Y5公共图书馆图书藏量。③交通及通讯子系统:Z1公路客运量;Z2公路货运量;Z3邮电业务总量;Z4邮政业务总量;Z5电

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com