当前位置:首页 > 聚类案例
第一章 聚类分析
在实际问题中经常需要对原始数据进行分类,以便发现规律做进一步的分析,如:古生物研究中,通过挖掘出的一些骨骼形状和大小将生物分类;地质勘探中,通过对矿石标本的物探、化探等指标将样本分类;市场营销学中,通过对消费者的行为的研究对市场进行细分,确定目标市场;医学中对各种病症的分析等等,聚类分析(Cluster Analysis)就是这样一种根据研究对象特征对研究问题进行分类的多元分析方法。它基本的思想就是:将性质相近的个体归为一类,使得同一类中的个体差异较小,而不同类之间的差异较大。
聚类分析也有不同的分类:按聚类变量可分为案例聚类(Case Cluster Analysis又称Q聚类),和变量聚类(Variable Cluster Analysis,又称R聚类);按聚类方法可分为系统聚类(Joining Cluster Procedures) ,动态聚类(Iterative Partitioning Procedures)。在STATISTICA6.0软件的聚类分析中给出了系统聚类、快速聚类、二维聚类三种方法,下文将逐一详细介绍。
第一节 相似性的测度
上文已经说明聚类分析是将性质相近的个体聚为一类,那“性质相近”如何测度呢?这就是本节要解决的问题。统计学中将变量分为数值变量、非数值变量三类,不同类型的变量,相似性的测度也不尽相同,下文将介绍一些常用的度量方法。
为说明方便,设x、y是两个要测度相似性的聚类变量,它们均含有m个值。
一.数值变量的相似性测度
一般数值变量的相似性用距离来衡量,常用的距离有如下几种定义方法: 1. 绝对值距离(City-block distance or Manhattan distances):
distance(x,y)??|xk?yk|
k?1m2. 欧氏距离(Euclidean distances):
distance(x,y)??k?1mm(xk?yk)2 3. 平方欧氏距离(Squared Euclidean distances):
distance(x,y)??(xk?yk)2
k?14. 切比雪夫距离(Chebychev distance):
distance(x,y)?max|xk?yk|
1?k?m5. 明考斯基效力距离(power distance):
distance(x,y)?r?k?1m|xk?yk|q 在五种距离的定义中。欧氏距离和平方欧氏距离是实际应用中最广泛的。而明考斯基效力距离是五种距离中最综合的,其他距离只是它的p,r取某些特殊值时的特例而已,如表1.1.1所示。
表1.1.1 各距离间关系 ? p 1 2 2 r 距离 1 绝对值距离 2 欧氏距离 1 平方欧氏距离 ? 切比雪夫距离 二.非数值变量的相似性测度
1.夹角余弦(cosine)
r??xk?1mkyk?xk?1m2k?yk?1m
2k
2.皮尔逊相关系数(pearson correlation)
rxy??(xk?1mk?1mk?x)(yk?y)2(y?y)?kk?1m 2(x?x)?k有时把1?rxy定义为距离,两变量间相关系数越大,距离越小,说明两变量性质越接近。实际上,皮尔逊相关系数就是标准化之后的夹角余弦值,由于剔除了量纲的影响,能更准确
的测量变量间的关系,因此皮尔逊相关系数在实际中应用更为广泛。
3.关联测度
关联测度常用于测度名义变量的相似性,一般都是基于列联表。不失一般性的,设x,y均是取值为0,1的变量,两变量间的列联表如表1.2.1,其中,a表示x、y均取0时的配对个数;b表示x取0、y取1时的配对个数;x共有a+c个值取0y共有a+b个值取0;每个变量共有a+b+c+d个值。
表1.1.2 列联表
y 0 1 求和 x 0 a c a+c 1 b d b+d 求和 a+b c+d a+b+c+d
常用的并且STATISTICA6.0软件提供的关联测度方法是:不匹配系数(Percent disagreement),即x,y取值不相同的个数与取值总数之比:
r?b?c
a?b??c?d 还要说明的是,适用于非数值变量的测度也一定适用于数值变量,但适用于数值变量的测度基本不能用于非数值变量。不同距离的选择对于聚类的结果是有重要影响的,因此在选择相似性测度时,一定要结合变量性质。
前面讲的大部分度量方法受变量的测量单位影响较大,数量级较大的数据变异性也较大,相当于对这个变量赋予了更大权重,从而导致聚类结果产生很大偏差。一般为了克服测量单位的影响,在计算相似测度前,要对变量进行标准化处理,将原始变量变成均值为0,方差为1的标准化变量。
第二节 系统聚类法
一.基本思想
系统聚类法有两种:聚集法(Agglomerative Method)和分解法(Divisive Method)。聚集法就是首先将每个个体各自看成一类,将最相似的两类合并,重新计算类间距离,再将最相似的两类合并,每步减少一类,直至所有个体聚为一类为止。分解法正相反,它首先将所有个体看成一类,将最不相似的个体分成两类,每步增加一类,直至所有个体各自成为一类为止。
二.类间距离的定义
每一类之中包含有若干个体,如何定义类与类之间的相似性呢?常用的有7种方法,下面分别介绍。
1.最短距离法(Single linkage or nearest neighbor)
最短距离法将两变量间的距离定义为一个类中所有个体与另一类中的所有个体间距离的最小者。设xi为类Gp中的任一个体,yj为为类Gq中的任一个体,dij表示个体xi与yj间的距离,Dpq表示类Gp与Gq间的距离,则最短距离法把类间距离Dpq定义为:
Dpq?xi?Gp,y?jGqmindij。图1.2.1给出了最短距离法的示意图,Dpq?d24。
1 2.. .3 .4 图1.2.1 最短距离法示意图
最短距离法简单易用,能直观的说明聚类的含义,但是它有连接聚合的趋势,易将大部分个体聚在一类,易有延伸的链状的结构,所以最短距离法的聚类效果并不好,实际中一般不采用。
2.最长距离法(Complete linkage or furthest neighbor)
.5 最长距离法将两变量间的距离定义为一个类中所有个体与另一类中的所有个体间距离的最大者,即:Dpq?
1 2xi?Gp,yj?Gqmaxdij。图1.2.2给出了最长距离法的示意图,Dpq?d15。
..3 . .4 .图1.2.2 最长距离法示意图
最长距离法克服了最短距离法连接聚合的缺陷,但是当数据有较大的离散程度时,易常产生较多类。与最短距离法一样,受异常值影响较大。
3.未加权的类间平均法(Unweighted pair-group average)
未加权的类间平均法将变量间的距离定义为一个类中所有个体与另一类中的所有个体
间距离的平均值,即:Dpq?xi?Gp,yj?Gq?dij。图1.2.3给出了类间平均法的示意图,
npnqDpq? 1 2d13?d14?d15?d23?d24?d25 6.. 4 .3 . .
图1.2.3 类间平均法示意图
类间平均法充分利用已知信息,考虑了所有的个体,克服了最短(长)距离法受异常值影响较大的缺陷,是一种聚类效果较好、应用较广的聚类方法。
4. 加权的类间平均法(weighted pair-group centroid) 加权的类间平均法将各自类中的规模作为权数,其余与未加权的类间平均法相同。当类间的数据变异性较大时,加权的类间平均法比未加权的平均法更优。
5.未加权的类间重心法(Unweighted pair-group centroid)
从物理观点看,一个类用它的重心(该类个体的均值)来代表是比较合理的。未加权的类间重心法就是将变量间的距离定义为两类重心间的距离。设Gp和Gq的重心分别是xp和
xq,则两类间距离为Dpq?distance(xp,xq)。图1.2.4给出了类间重心法的示意图。
共分享92篇相关文档