当前位置:首页 > 三种典型聚类算法在职员评定中的应用(已发表)
三种典型聚类算法在职员评定中的应用
摘要:通过利用三种典型算法:Q-型模糊聚类算法、K-Means算法及K-medians算法,对公司职员的年终评定进行应用分析,得到了不同的聚类结果,通过对结果的分析比较、探讨,得出针对不同问题,应结合实际,有针对性地用不同算法更适合。并在此基础上,对聚类算法的聚类过程、本文后续工作进行了探讨总结。
关键词:数据挖掘,聚类分析,Q-型模糊聚类,K-means算法,K-medians算法 中图分类号:O235 文献标识码:A
1前言
随着信息化进程的发展,如何借助计算机的强大处理功能,从海量的繁杂数据中发现对我们有意义的信息并指导我们对研究工作做出更为准确、有效的预测和决策,这正是数据挖掘技术需要解决的问题。其中,聚类分析就是依据数据对象之间的关系及特点,使得同一组内的对象具有较大的相似性,不同组中的对象具有较高的相异性『1』,解决大量数据间的某种分类关系问题的一种重要方法。
2三种典型聚类算法
聚类算法有多种,本文选取三种主要的分类算法,从中探讨它们的异同,得出相关主要结论。
2.1 Q-型模糊聚类算法
聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量指标进行分类处理,Q型是对样品进行分类处理,以下简单对Q型聚类进行阐述。
2.1.1 建立模糊关系
X中的元素xi与xj的接近程度,称为相似系数rij(其中rij?[0,1])。相似系数rij构成的
模糊矩阵(rij)n?n是X上的模糊关系。其中确定相似系数rij的方法很多。
在实际的聚类问题中,先通过数据标准化后,通过建立X上的模糊关系或模糊相似关系,以模糊相似矩阵为基础来讨论分类问题,然后用最大树法进行分类,根据阀值即可得出聚类结果。
2.1.2 结果评价准则
为了评价聚类结果的好坏,需要定义准则函数,聚类问题转化为使准则函数取极值 的优化问题。一般的聚类分析要解决两个问题,一个是如何确定类的个数,即把n个样本聚成多少类才合适,另一个是在给定类的个数c的情况下,如何把n个样本聚成c个类。
针对第一种问题,在模糊聚类分析中,对于不同的???0,1?,可以得到不同的分类,从
1
而形成动态模糊聚类图。但许多实际问题中如何根据?的值来确定样本的具体分类。常用的两种方法有[2]:
(1) 按照实际需要,由专家结合专业知识来确定值?,得出在水平上的等价分类。 (2) 用F-统计量确定最佳值?。
设论域U??x1,x2,...,xn?为样本空间(样本总数为n),而每个样本xi由m个特征(即由试验或观察得到的m个数据):xi??xi1,xi2,...,xim?(i?1,2,...n)。得到原始数据矩阵,其中xk?1n?xi?1nik(k?1,2,...,m).x称为总体样本的中心向量。
设对应于?值的分类数为r,第j类的样本数为nj,第j类的样本记为:x1(j),x2(j),...,xnj(j),(j)(j)第j类的聚类中心为向量x(j)?(x1(j),x2,....,xm...),其中xk(j)为第k个特征的平均值:
xk(j)?n1j?x(j)ik(k?1,2....,m)
i?1nj作F-统计量
?njj?1rx(j)?x2 F=
(r?1)2??xi(j)?x(j)j?1i?1rnj , (1)
(n?r)其中x(j)?x?(j)2(j)(x?x)为类与类之间的距离,x?x?kkik?1m(j)为类内样本间的距离。(1)
式遵从自由度为(r-1,n-r)的F-分布。因此,F值越大,说明类与类之间的距离越大,表明类与类之间的差异越大,分类就越好。
如果F>F?(r?1,n?r)???0.05?,则根据数理统计分析理论知道类与类之间差异是显著的,说明分类比较合理,如果满足不等式F>F?(r?1,n?r)???0.05?的F值不止一个,则可以进一步考查差(F-Fa)的大小,从较大者中找一个满意的F 值就行了,即就圆满的解决了存在的第一个问题。
2.2 k-means聚类算法
K-means即K均值聚类算法。该算法根据聚类中心的均值进行分类划分,其处理过程如下:首先,随机选择k个对象,初始代表一个类的中心值。其次,对剩余的每个对象,根据其与类中心的距离,将它赋予最近的类,然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:
E???k2p?mi
i?1P?Ci 2
mi=
p?Ci?pCi
其中,E 表示所有聚类对象的平方误差的和,p是聚类对象,mi是类Ci的各聚类对象的平均值,Ci表示类Ci的聚类对象的数目。
由于该方法对初值敏感,不同的初值、种子点、聚类个数K、初始划分等都可能会导致不同的聚类结果,此外,均值体现的是数据集的整体特征,而掩盖了数据本身的特性,由于目标函数局部极小值点的存在,该算法可能会陷入局部最优,无法达到全局最优,因此应用范围有一定的局限性。
2.3 K-medians聚类算法
K-medians方法的基本策略是通过避免孤立点,而选择类中最中心的对象作为参照点,然后计算其它点与这些参照点的距离,再按照距离重新聚类,分配给最近的一个簇,直到数据点不再改变所属的类为止,以此改进聚类的质量。聚类结果的质量用一个代价函数来估算,该函数可以度量对象与其参照对象之间的平均相似度。与K均值方法比较,这种划分方法,不采用簇中对象的平均值来作为参照点,而是找出簇中位置最中心的对象,即中心点来代表簇,然后通过分组排序。该方法也是基于最小化(最大化)所有对象与其参照点之间的相似度之和的原则来执行的,适用于类数固定,偏好球形的聚类
[3]
。
3 三种聚类分析方法在公司职员评定中的分析比较
应该三种方法对对公司年终员工进行考核(限于篇幅仅以9名员工,4个指标为例),把客户评价指标量化,根据考核要求用4级评分制,优对应5分,良对应4分,一般对应3分,差对应2分。考核内容及规范化数据后见表1。
表1 员工考核表及规范化
员工 A B C D E F G
客户数 300 360 280 220 300 320 200
0.625 1 0 0.125 0.625 0.75 0
产品数 30 90 60 80 50 70 170
0 0.43 0.21
其它工作数 30 0 0
0.3 0 0 1 0 0.1 0.2
客户评价 良 优 良 良 一般 优 优
0.67 1 0.67 0.67 0.33 1 0
0.36 100 0.14 0.29 1
0 10 20
3
H I
300 260
0.625
40
0.07 0.64
0 10
0.3 0.1
差 良
0.33 0.67
0.375 120
3.1 三种聚类算法的运算结果 3.1.1 Q型模糊聚类结果:
由表一规范化后的数据,本文按绝对值减数法根据(2)式计算相似系数,取c=0.3。
?4?rij?1?0.3??xik?xjk? ,
?i,j?1,2,...9? (2) ?k?1?将表中数据代入公式,可以得到模糊相似矩阵,然后用最大树法聚类,做出最大树如
图1:
C 0.85 0.77 0.8 I E 0.89 H 0.84 A 0.57 F 0.85 D B 0.84 G 图1 最大树法聚类
根据模糊统计量的计算以及经验判断结果见下表, 表2 Q型模糊聚类结果
?
0.8 0.85
I类 Ⅱ类 Ⅲ类 IV Ⅴ类 Ⅵ类
A,C,E,H,I D A,C
D
G G
B,F B,F
E,H
I
在?=0.8时,用F-统计量检验,测得F=5.531>F?(3,5)???0.05?,且根据实际情况分为四类正好符合需要的评测分类数,无需再进行?=0.85时的F-统计量检验。
3.1.2 k-means 和 k-medians 聚类结果
依题取k=4,则聚类结果如下(由于篇幅计算过程省略):
表3 k-means 和 k-medians 聚类过程
迭代次数
K-means 聚类算法
K-medians聚类算法
4
共分享92篇相关文档