当前位置:首页 > 聚类案例
(5)Members of each cluster & distances
分别给出每一类包含的变量名和每一变量与最终凝聚点间的的欧氏距离,第二类包含的案例名和欧氏距离如表1.3.5。
表1.3.5 Members of cluster 2 & distances表
由此可以看出本例分成3类的结果,如表1.3.6所示。
表1.3.6 分类结果表 类别 车名 Mitsub. Nissan 1 Acura Buick Chrysler Dodge Honda 2 Audi BMW Corvette Ford 3 Eagle Isuzu Olds Pontiac Saab Toyota VW Volvo Mazda Mercedes Porsche
(6)Save classifications and distances
可以用来保存分类结果和类间距离。如果聚类对象是variables,点击这个按钮后显示的是各个变量的名称、分类结果、距离;如聚类对象是cases,点击按钮后,出现选择变量的对话框,本例选择所有变量,点击OK后出现如表1.3.7的内容,显示案例名、变量值、案例的编号、分类结果、欧氏距离。这个表可以储存,用于后续分析。
表1.3.7 Save classifications and distances表
第四节 二维聚类法
前面两节讲述的聚类方法都是基于一组个体的,或是案例、或是变量,但有时案例、变量对于我们想研究的问题都是有用的,比如:我们现有一些心脏病人(cases)在各个检测指标(variables)上的数据,我们想了解这些病人依据病情的分类情况(聚类对象cases),同时还想知道众多检测指标是否可以综合成几大类(聚类对象variables),即案例、变量能否同时参与聚类呢?STATISTICA6.0中的Two-Way Joining就是用来解决这个问题的。与系统聚类法、层次聚类法相比,这种方法还不是很成熟,应用很少,本节以cars数据为例,对它的使用作一简要介绍。
一.分析步骤
1.变量选择
选中图1.2.6中的Two-Way Joining方法点击OK后,出现如图1.4.1的对话框。点击variables选择参与聚类的变量。本例选择所有的变量参与聚类。
图1.4.1 Two-Way Joining—advanced对话框
2.选择初始值(Threshold Value)
Two-Way Joining方法是同时考虑案例和变量,当数据矩阵中出现相同值时,初始值(Threshold Value)可以用来决定在如何将它们合理的分类。Threshold Value的确定有两种方法:
(1)用户自定义
点中Threshold Value 下的User define,输入自定义的Threshold Value。 (2)根据数据自动计算
此时Threshold Value=总体标准差/2。此项是STATISTICA6.0的默认项,一般不做改动,本例也选择此种方法。
二.聚类结果解释
按上述分析步骤选定后,出现如图1.4.2的对话框。
图1.4.2 Two-Way Joining results对话框
1.Summary:Two-Way joining graph
点击后出现如图1.4.3的结果。 该图横轴为变量,纵轴为案例,把数据值绘成离散数据的等高图(discrete contour plot),以各种颜色明显的标注出案例、变量的取值情况。
Two-Way Joining ResultsHondaNissanOldsFordChryslerEaglePorscheAudiMercedesMazdaSaabPRICEBRAKINGHANDLINGMILEAGEACCELERATION 3 2 1 0 -1 -2 -3 -4 图1.4.3 Two-Way Joining results graph
2.Descriptive statistics for cases
给出各个案例的均值、标准差。 3.Descriptive statistics for variables
给出各个变量的均值、标准差。 4.Reordered data matrix
给出重新排序后的数据矩阵,使得有相似性的案例、变量连在一起。
共分享92篇相关文档