云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 聚类分析学习总结

聚类分析学习总结

  • 62 次阅读
  • 3 次下载
  • 2025/6/25 14:09:38

聚类分析学习体会

聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。

聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。

1.聚类统计量

在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:

1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。

2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:

⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化程度分为文盲、小学、中学、大学等。

⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例如职业分为工人、教师、干部、农民等。

下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。 1.1.距离

1. 数据矩阵

设xij为第i个样品的第j个指标,数据矩阵如下表 表1 数据矩阵 变量 样品 1 2 ? x1 x2 … xp x11 x12 … x1p x21 x22 … x2p ? ? ? n xn1 xn2 … xnp 在上表中,每个样品有p个变量,故每个样品都可以看成是Rp中的一个点,

n个样品就是Rp中的n个点。在Rp中需定义某种距离,第i个样品与第j个样品之间的距离记为dij,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。所定义的距离dij一般应满足如下四个条件:

⑴dij?0,对一切i,j;且d(xi,xj)?0当且仅当xi?xj ⑵dij?dji,对一切i,j; ⑶dij?dik?dkj,对一切i,j,k 2.定量变量的常用的距离

对于定量变量,常用的距离有以下几种: ⑴闵科夫斯基(Minkowski)距离

dij(q)?[?xik?xjk]

k?1pq1q这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式:

1)当q?1时,dij(1)??xik?xjk称为绝对值距离,常被形象地称为“城市

k?1p街区”距离;

2)当q?2时,dij(2)?[?xik?xjk],称为欧氏距离,这是聚类分析中最

k?1p212常用的距离;

3)当q??时,dij(?)?maxxik?xjk,称为切比雪夫距离。

1?k?p但是有一些缺点,一方面距离的大小与各指标的dij(q)在实际中用得很多,

观测单位有关,另一方面它没有考虑指标间的相关性。

当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:

令 x??ijxij?xjsj

1n1n(xij?xj)2为第j个其中xj??xij为第j个变量的样本均值,sj??ni?1n?1i?1变量的样本方差。

⑵兰氏(Lance和Williams)距离

当xij?0(i?1,2,?,n; j?1,2,?,p)时,第i个样品与第j个样品间的兰氏距离为

dij(L)??k?1pxik?xjkxik?xjk

这个距离与各变量的单位无关,但没有考虑指标间的相关性。 ⑶马氏距离(Mahalanobis)距离 第i个样品与第j个样品间的马氏距离为

dij(M)?(xi?xj)'S?1(xi?xj)

其中xi?(xi1,xi2,?,xip)',xj?(xj1,xj2,?xjp),S为样品协方差矩阵。

使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S难确定。由于聚类是一个动态过程,故S随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。

⑷斜交空间距离

第i个样品与第j个样品间的斜交空间距离定义为

1d?[2p?ij??(xk?1l?1ppik?xjk)(xil?xjl)rkl]

12?其中rkl是变量xk与变量xl间的相关系数。当p个变量互不相关时,dij?dij(2)p,

即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。

以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有相应的定义距离的方法。

3.定性变量的距离

下例只是对名义尺度变量的一种距离定义。

例1 某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(x1)取值为男和女;外语语种(x2)取值为英、日和俄;专业(x3)取值为统计、会计和金融;职业(x4)取值为教师和非教师;居住处(x5)取值为校内和校外;学历(x6)取值为本科和本科以下。

现有两名学员:

x1?(男,英,统计,非教师,校外,本科)ˊ x2?(女,英,金融,教师,校外,本科以下)ˊ

这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1,不配合的变量数为m2,则它们之间的距离可定义为

d12?2按此定义本例中x1与x2之间的距离为。

3m2

m1?m21.2.匹配系数

当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。

搜索更多关于: 聚类分析学习总结 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

聚类分析学习体会 聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。 聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。 聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。 1.聚类统计量 在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通常有三种相似性度

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com