当前位置:首页 > 基于模糊核匹配追寻的特征模式识别
图1. 时间参数图M?1,b?0.5(x轴为样本序列;当a?0时,
f(ti)f(ti)均为0.5,随着a的增大,函数左半部分下降,右
半部分上升,至a?10000时,相当于阶跃函数)
图2. 时间参数图M数量下降)
?1,a?5(x轴为样本序列;当b?1时,大部分先前的样本被遗忘,随着b的减小,被遗忘的样本
4、 仿真试验
4.1 指定样本高精度识别 产生两类交错的同心圆样本??x???cos??y???sin? ??U[0,2?],其中第一类样本的半径是均匀分布U[0,6],
第二类样本的半径是均匀分布U[3,10],两类样本各50个作为训练样本,采用RBF核
9
K(x,y)?exp(?x?y22p), p?62,核匹配追寻3参数maxN=30,fitN=4对样本进行实验了实验,采“+”和“◇”表示两类样本,要求对样本“◇”(即中心区域样本)
用折中因子选取D?0.3。分别用
的识别精度尽可能高。图3、图4分别给出了用标准核匹配追寻和模糊核匹配追寻识别的结果,从图中清晰地看出,模糊核匹配追寻能够很好地满足我们的要求,对“◇”样本达到100%的识别,而标准核匹配追寻则不能。
图3:标准核匹配追寻对同心圆样本的识别
图4:模糊核匹配追寻对同心圆样本的识别(要求对“◇”样本的识别精度)
4.2 时间序列样本识别
产生两类交错分布的同心圆样本各26个;用数字记录该样本的位置及到达时刻,用阴影数字两类样本;分别用标准核匹配追寻和本文提出的模糊匹配追寻对两类样本进行了识别,要求能够对新颖样 3
本文中,KMP均采用了早停策略(即预设贪婪算法的最大迭代次数,用maxN表示);fitN表示每经过fitN步进行一
次后拟合,参见文献[1]。
10
本的识别率尽可能高。实验采用时间学习因子选取a?8,b?1,RBF核参数p?6,核匹配追寻参数
maxN=30,fitN=4。图5是标准核匹配追寻给出的结果,图6是模糊核匹配追寻给出的分类结果。由图可知:模糊核匹配追寻对最后采得的20个样本作出了精确的分类而传统的核匹配追寻则不然。
图5:标准核匹配追寻对时间序列样本的识别
图6:模糊核匹配追寻对时间序列样本的识别
4.3 FKMP有效性测试
选取UCI4数据库中的Heart Disease数据,Heart Disease数据由13个含噪特征属性和一个类别属性构成,是一个2类问题,共270个样本,选取170个样本进行训练(74个正类样本),其余100个样本中的44个正类样本作测试。实验中模糊核匹配追寻选取阶越参数,图7给出了不同折中因子D取 4
http://www.ics.uci.edu/~mlearn/MLRepository.html
11
值下对正类样本和负类样本的测试误差。其中,核匹配追寻参数选取:maxN=80,fitN=8,RBF核参数p?1.0,模糊因子在[0.01,0.5]上等间采样50次。由图可知:随着D的增大,目标样本的识别误差随之
下降。
图7:阶越学习因子D对目标样本识别影响
4.4 对实际数据的测试
选取UCI数据库中的Breast Cancer、Diabetis、Heart Disease及Thyroid数据对本文提出的模糊核匹配追寻算法进行测试。其中,Breast Cancer数据由9个含噪特征属性和一个类别属性构成,是一个2类问题,共277个样本,选取200个作为检验样本,其余77个样本中的23个正类样本作测试;Pima Indians Diabetes数据由8个含噪特征属性和一个类别属性构成,是一个2类问题,共768个样本,选取256个样本进行训练,其余512个样本中的174个正类样本作测试; Thyroid数据由5个含噪特征属性和一个类别属性构成,是一个2类问题,共215个样本,选取140个样本进行训练,其余75个样本中的26个正类样本作测试。
在本实验中,我们更为关注对于正类样本的分类性能,这是因为正类样本均刻画了检测呈阳性的病理状态,学习机的任务就是要对这一类样本尽可能的精确识别。实验参数:采用RBF核
K(x,y)?exp(?x?y22p)2,对于Breast Cancer数据maxN=60,fitN=5,p?0.8,模糊因子D?0.8?0.6;
对于Pima Indians数据maxN=100,fitN=8,p?6.0,模糊因子DfitN=3,p?0.14,模糊因子D?0.1,分别用标准
,对于Thyroid数据maxN=50,
KMP和FKMP对病理类别特征样本进行识别测试。
我们是在matlab环境下,P43.2GHz、2G内存的微机上独立进行30次实验取平均的结果,表1给出了
12
共分享92篇相关文档