当前位置:首页 > 分类算法综述
能够适应各种复杂的数据关系;(3)神经网路具备很强的学习能力,使它能比很多分类算法更好地适应数据空间的变化;(4)神经网络借鉴人脑的物理结构和机理,能够模拟人脑的某些功能,具备“智能”的特点。
用于分类常见的神经网络模型包括:BP(Back Propagation)神经网络、RBF网络、Hopfield网络、自组织特征映射神经网络、学习矢量化神经网络。目前神经网络分类算法研究较多集中在以BP为代表的神经网络上。当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。
1)
BP神经网络分类算法
BP神经网络是一种多层前馈神经网络,该网络的主要特点是信号前向传递,误差反向传播。它是目前应用最广泛的一种前向神经网络模型。在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层。每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP神经网络预测输出不断逼近期望输出。
BP神经网络存在一些缺陷,它值适用于平稳环境,学习算法计算的费用较高,不具备自学能力,不能进行快速学习、记忆以及学习能力之间存在冲突等问题,虽然有多种改进算法,但仍不能从根本上解决这些问题。另外,此类神经网络借鉴了人脑的物理结构,存储在神经网络中的知识往往以权值的形式表现出来,这种形式本身很难理解。
2)RBF神经网络
径向基函数(RBF,Radical Basis Function)是多维空间插值的传统技术,有Powell于1985年提出。1988年,Broomhead和Lowe根据生物神经元具有局部响应这一特点,将RBF引入神经网络设计中,产生了RBF神经网络。1989年,Jackson论证了RBF神经网路对非线性连续函数的一致逼近性能。
RBF神经网络属于前向神经网络类型,网络的结构与多层前向神经网络类似,是一种三层的前向网络,第一层为输入层,有信号源结点组成;一二层为隐含层,隐含层节点数视所描述问题的需要而定,隐藏层中神经元的变换函数及径向基函数是对中心点径向对称且衰减的非负非线性函数,该函数是局部响应函数;第三层为输出层,它对输入模式作出响应。
RBF网络的基本思想:用RBF作为隐单元的“基”构成隐含层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空间内,使得在低维空间内的线性不可分的问题在高维空间内线性可分。
3)SOFM神经网络
受生物系统视网膜皮层生物特性和大脑皮层区域“有序特征映射”的影响,Kohonen提出了自组织特征映射神经网络(SOFM),这种网络在网络输出层具备按照几何中心或者特征进行聚合的独特特质。它由输入层和竞争层构成,竞争层有一维或者二维阵列的神经元组成,输入层和竞争层之间实现全连接。通过在竞争学习过程中动态改变活性泡大小,该结构具备拓扑结构保持、概率分布保持、克石化等诸多优点。SOFM神经网络竞争层神经元个数要求事先指定,这种限制极大地影响了其在实际中的使用。针对此不足人们又提出了动态自
组织特征映射神经网络,最具有代表性的是D.Alahakoon等提出的GSOFM(growing self-organizing maps)模型。
4)学习矢量化(LVQ)神经网络
该网络是对Kohonen神经网络的监督学习的扩展形式,允许对输入分类进行指定。学习矢量化神经网络有输入层、竞争层、线性层构成。线性层神经元代表不同类别,竞争层的每一个神经元代表每个类别中的一个子类;线性层和竞争层之间用矩阵实现子类和类之间的映射关系。竞争层和输入层之间是类似于SOFM神经网络的结构。LVQ神经网络已LVQ为基本模型,一次为基础提出改进模型LVQ2和LVQ3。这三者之间的不同点在于,早LVQ中只有获胜神经元才会得到训练,而在LVQ2和LVQ3中,当适当条件符合时,学习矢量化可以通过训练获胜神经元和次获胜神经元来对SOFM网络的训练规则进行扩展。
人工神经网络作为另一种处理非线性、不确定性的有力工具,目前还存在许多局限性。首先,网络本身的黑箱式内部知识表达,使其不能利用初始经验进行学习,易于陷入局部极小值。其次,就本质而言,人工神经网络就是用静态网络处理连续时间动态系统的控制问题。这就不可避免地带来了差分模型定阶及网络规模随阶次迅速增加的复杂性问题。再次,人工神经网络的泛化能力在相当程度上决定了控制系统的鲁棒性。全局逼近的泛化能力受大量局部极值与缓慢学习速度制约,局部逼近则受存储容量与实时性的而严重限制。
3 其他分类算法
3.1 LB算法
LB(Large Bayes)算法是一种基于概率统计和关联规则的分类算法。在算法的训练阶段,利用挖掘关联规则的Apriori算法找出训练集中所有的频繁且有意义的项目集,存放在集合F中。对于一个未知类别的样本A,可以从F中找出包含在A中的最长的项目集来计算A属于各个类别的概率,并且选择其中概率最大的类别为其分类。LB算法的分类准确度比现有的其他分类算法的准确度好。但该算法仍有与贝叶斯算法和CBA算法相同的缺点。
3.2 CAEP算法
CAEP(classification by aggregating emerging patterns)算法使用项目集支持度挖掘显露模式(emerging pattern,EP),再用EP构造分类器。一个EP是一个项目集,其支持度由一个类别到另一个类别显著增加,两个支持度的比称作EP的增长率。例如,假定有顾客数据集,包含两个类C1和C2,分别代表buy-computer=yes和buy-computer=no。若项目集age?30,student=no是一个EP,其支持度由在C1中的0.2%增加到C2中的57.6%,则增长率为57.6%/0.2%=288.如果一个新样本X包含在该EP中,则可以说X属于C2的几率为99.65%。
许多数据集CAPE比C4.5和基于关联的分类更精确。
4 集成学习(Ensemble Learning)
实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此,学者们对多种分类方法的融合即集成学习进行了广泛的研究。集成学习已成为国际机器学习界的研究热点,并被称为当前
共分享92篇相关文档