当前位置:首页 > 多元统计分析课程实验--聚类分析
多元统计分析课程实验--聚类分析
我国各地区城镇居民消费性支出的聚类分析
一、问题的背景
下表列出了1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是
x1:食品
x5:交通和通讯 x6:娱乐教育文化服务
x2:衣着
x3:家庭设备用品及服务 x7:居住 x4:医疗保健
地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东
x8:杂项商品和服务
单位:元
消费性支出数据
x1 2959.19 2459.77 1495.63 1406.33 1303.97 1730.84 1561.86 1410.11 3712.31 2207.58 2629.16 1844.78 2709.46 1563.78 1675.75 1427.65 1783.43 1942.23 3055.17 x2 730.79 495.47 515.90 477.77 524.29 553.90 492.42 510.71 550.74 449.37 557.32 430.29 428.11 303.65 613.32 431.79 511.88 512.27 353.23 x3 749.41 697.33 362.37 290.15 254.83 246.91 200.49 211.88 893.37 572.40 689.73 271.28 334.12 233.81 550.71 288.55 282.84 401.39 564.56 x4 513.34 302.87 285.32 208.57 192.17 279.81 218.36 277.11 346.93 211.92 435.69 126.33 160.77 107.90 219.79 208.14 201.01 206.06 356.27 x5 467.87 284.19 272.95 201.50 249.81 239.18 220.69 224.65 527.00 302.09 514.66 250.56 405.14 209.70 272.59 217.00 237.60 321.29 811.88 x6 1141.82 735.97 540.58 414.72 463.09 445.20 459.62 376.82 1034.98 585.23 795.87 513.18 461.67 393.99 599.43 337.76 617.74 697.22 873.06 x7 478.42 570.84 364.91 281.84 287.87 330.24 360.48 317.61 720.33 429.77 575.76 314.00 535.13 509.39 371.62 421.31 523.52 492.60 1082.82 x8 457.64 305.08 188.63 212.10 192.96 163.86 147.76 152.85 462.03 252.54 323.36 151.39 232.29 160.12 211.84 165.32 182.52 226.45 420.81 1
广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 2033.87 2057.86 2303.29 1974.28 1673.82 2194.25 2646.61 1472.95 1525.57 1654.69 1375.46 1608.82 300.82 186.44 589.99 507.76 437.75 537.01 839.70 390.89 472.98 437.77 480.89 536.05 338.65 202.72 516.21 344.79 461.61 369.07 204.44 447.95 328.90 258.78 273.84 432.46 157.78 171.79 236.55 203.21 153.32 249.54 209.11 259.51 219.86 303.00 317.32 235.82 329.06 329.65 403.92 240.24 254.66 290.84 379.30 230.61 206.65 244.93 251.08 250.28 621.74 477.17 730.05 575.10 445.59 561.91 371.04 490.90 449.69 479.53 424.75 541.30 587.02 312.93 438.41 430.36 346.11 407.70 269.59 469.10 249.66 288.56 228.73 344.85 218.27 279.19 225.80 223.46 191.48 330.95 389.33 191.34 228.19 236.51 195.93 214.40 资料来源:2000年《中国统计年鉴》
我们希望根据上述八个指标对各地区进行聚类。
聚类分析的方法有很多,其中有系统聚类法和动态聚类法等等,本次试验将用R软件进行系统聚类法和动态聚类法。
一、系统聚类法
系统聚类法(hierarchical clustering method)是聚类分析诸方法中用的最多的一种,其基本思想是:开始将n个样本各自作为一类,并确定样本之间的距离和类与类之间的距离,然后将聚类最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类。
系统聚类法距离的确定方法有很多,如:最短距离法(single)、最长距离法(complete)、中间距离法(median)、mcquitty相似法(mcquitty)、类平均法(average)、重心法(centroid)、离差平方和法(Ward方法)(ward),括号后面是R软件中的表示代码。R软件可以用hclust()函数进行系统聚类。
2
(1)最短距离法(single)
Height0广东西藏上海北京浙江1234海南福建广西天津江西云南江苏陕西安徽贵州重庆河南湖南湖北四川青海宁夏内蒙古山西dhclust (*, \甘肃吉林辽宁黑龙江山东河北新疆
按照最短距离法得到的5类分别为: 第1类:广东 第2类:西藏 第3类:上海 第4类:北京
第5类:浙江、海南、福建、广西、天津、江西、云南、江苏、陕西、安徽、贵州、重庆、河南、湖南、湖北、四川、青海、宁夏、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、山东、河北、新疆
(2)最长距离法(complete)
Height0西藏江西安徽贵州海南2468福建广西河南陕西青海宁夏内蒙古山西甘肃吉林辽宁黑龙江重庆江苏云南湖南湖北四川山东dhclust (*, \河北新疆广东天津浙江北京上海
按照最长距离法得到的5类分别为:
3
第1类:西藏
第2类:江西、安徽、贵州、海南、福建、广西、河南、陕西、青海、宁夏、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、重庆、江苏、云南、湖南、湖北、四川、山东、河北、新疆 第3类:广东 第4类:天津、浙江 第5类:北京、上海
(3)中间距离法(median)
Height0广东北京上海天津浙江1234西藏海南江西广西福建青海宁夏陕西河南安徽贵州云南重庆江苏山东湖南内蒙古山西甘肃dhclust (*, \吉林辽宁黑龙江河北新疆湖北四川
第1类:广东 第2类:北京
第3类:上海、天津、浙江 第4类:西藏
第5类:海南、江西、广西、福建、青海、宁夏、陕西、河南、安徽、贵州、云南、重庆、江苏、山东、湖南、内蒙古、山西、甘肃、吉林、辽宁、黑龙江、河北、新疆、湖北、四川
(4)mcquitty相似法(mcquitty)
4
共分享92篇相关文档