当前位置:首页 > 多元统计分析
计算样品之间的相似系数,使用最长距离法、重心法,将上机计算结果按样品号画出聚类图如下:
0 5 10 15 20 25
根据聚类图把30个样品分为四类能更好地反映我国实际情况。
第一类:北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大多是东部经济、文化较发达的地区。
第二类:安徽、宁夏、青海、甘肃、云南、贵州。其中大多是西部经济、文化发展较慢的地区。
第三类:西藏。经济、文化较落后的地区。
第四类:其它省、直辖市、自治区。经济、文化在全国处于中等水平。
例2 根据信息基础设施的发展状况,对世界20个国家和地区进行分类。 country call movecall fee computer mips net 1 美 国 631.60 161.90 0.36 403.00 26073.00 35.34 2 日 本 498.40 143.20 3.57 176.00 10223.00 6.26 3 德 国 557.60 70.60 2.18 199.00 11571.00 9.48 4 瑞 典 684.10 281.80 1.40 286.00 16660.00 29.39 5 瑞 士 644.00 93.50 1.98 234.00 13621.00 22.68 6 丹 麦 620.30 248.60 2.56 296.00 17210.00 21.84 7 新加坡 498.40 147.50 2.50 284.00 13578.00 13.49 中国台8 469.40 56.10 3.68 119.00 6911.00 1.72 湾 9 韩 国 434.50 73.00 3.36 99.00 5795.00 1.68 10 巴 西 81.90 16.30 3.02 19.00 876.00 0.52 11 智 利 138.60 8.20 1.40 31.00 1411.00 1.28 12 墨西哥 92.20 9.80 2.61 31.00 1751.00 0.35 13 俄罗斯 174.90 5.00 5.12 24.00 1101.00 0.48 14 波 兰 169.00 6.50 3.68 40.00 1796.00 1.45 15 匈牙利 262.20 49.40 2.66 68.00 3067.00 3.09 马来西16 195.50 88.40 4.19 53.00 2734.00 1.25 亚 17 泰 国 78.60 27.80 4.95 22.00 1662.00 0.11 18 印 度 13.60 0.30 6.28 2.00 101.00 0.01 19 法 国 559.10 42.90 1.27 201.00 11702.00 4.76 20 英 国 521.10 122.50 0.98 248.00 14461.00 11.91 这里选取了发达国家、新兴工业化国家、拉美国家、亚洲发展中国家、转型国家等不同类型的20个国家作Q型聚类分析。描述信息基础设施的变量主要有六个:(1)Call—每千人拥有电话线数,(2)movecall—每千房居民移动电话数,(3)fee—高峰时期每三分钟国际电话的成本,(4)Computer—每千人拥有的计算机数,(5)mips—每千人中计算机功率《每秒百万指令》,(6)net—每千人互联网络户主数。数据摘自《世界竞争力报告—1997》。
由于数据存在量纲和数量级的差别,在聚类之前先进行标准化处理,计算样品之间的距离采用欧氏距离。下面分别用最长距离法、重心法进行计算,其结果如下表:
最长距离法
Brazil Mexico Porland Hungary
Malasia Chile Russian Tailand
Indian Taiwan Korea Japan
German France Singapo
British Switzer
Sweden Denmar USA
重心法
Brazil Mexico
Porland Hungary Chile Malasia Russian Tailand Indian German France Singapo British Switzer British Switzer Taiwan Korea Japan Sweden Denmark
10
从聚类图看,本例用两种方法聚类结果基本一致,而最长距离法和重心法所得结果比较一致,结合实际情况分析采用离差平方和法把20个国家分为两类:
第Ⅰ类:巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚。 第Ⅱ类:瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、新加坡、英国、瑞士。
其中第Ⅰ类中的国家为转型国家和亚洲、拉美发展中国家,这些国家经济较不发达,基础设施薄弱,属于信息基础设施比较落后的国家;第Ⅱ类中的国家是美、日、欧洲发达国家与新兴工业化国家中国台湾、新加坡、韩国。新兴工业化国家这几十年来发展迅速,努力赶超发达国家,在信息基础设施的发展上已非常接近发达国家,而发达国家中美国、瑞典、丹麦的信息基础设施发展最为良好。
三、因子分析
因素分析是要把刻画事物性质、状态的一组变量缩成能反映这一组变量之间的内在联系和能起主导作用的少数几个共同变量,以达到简化现象,发现规律的目的。
在教育测量和评估中,可以用因素分析的方法进行项目分析,鉴定测验的质量。也可以根据培养人才的目的要求,初拟“双基”教学内容,并编制若干份测验,根据这些测验变量的观测数据,用因素分析法提取几个共同性变量,经过“因素分析——调整教学内容”的过程,制订科学地培养人才的教学大纲。
1、原理
主成分分析作p个原始变量的m个线性组合,这些线性组合在原始变量的所有m个线性组合中可以最好地预报原始变量。因子分析对主成分分析进行了推广,它用潜在的m个“因子”来概括原始变量的信息,这些因子不一定是原始变量的线性组合。
设x为p?1随机向量,其均值为?,协方差阵为??(?ij),我们称x有k个因子的模型,若x能表为
x????f?u
其中?:p?k是未知常数阵,f:k?p和u:p?1为随机向量。f称为公共因子,u叫做特殊因子,叫因子负荷矩阵。这个模型象是回归分析模型,但是这里x是多元随机变量而不是一个随机变量的样本,f也是随机变量而不是一般的回归系数。求因子分解要用到原始变量协方差阵?与?、特殊因子的协方差阵?的如下关系式:
???????
公因子模型分解是不唯一的,因为如果?是一个正交阵,则有
x???(??)(??f)?u
这时??f是新的因子,??是新的因子负荷阵。我们可以利用这一特点对得到的因子模型进行旋转以产生容易解释的因子。旋转时一般试图使因子载荷系数靠近正负1和0,这样容易解释因子的组成。 2、例子 数据集SOCECON为洛杉基12个地区统计的五个社会经济指标:人口总数(POP),教育程度(SCHOOL),就业数(EMPLOY),服务业人数(SERVICES),中等的房价(HOUSE)。用FACTOR过程可以进行主成分分析。下例中的SIMPLE选项要求计算变量的简单统计量,CORR要求输出相关阵。
DATA SOCECON;
TITLE '五个经济指标的分析';
INPUT POP SCHOOL EMPLOY SERVICES HOUSE; CARDS;
5700 12.8 2500 270 25000 1000 10.9 600 10 10000 3400 8.8 1000 10 9000 3800 13.6 1700 140 25000 4000 12.8 1600 140 25000 8200 8.3 2600 60 12000 1200 11.4 400 10 16000
共分享92篇相关文档