当前位置:首页 > 数据挖掘导论Iris KDD分析
`
题 目 iris数据集的KDD实验
学院名称 信息科学与技术学院
专业名称 计算机科学与技术
学生姓名 何东升 学生学号 201413030119 指导教师 实习地点 成都理工大学 实习成绩
二〇 一六年 9月
iris数据集的KDD实验
第1章、实验目的及内容
1.1 实习目的
知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、
新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。该术语于1989年出现,Fayyad定义为\是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。
KDD的目的是利用所发现的模式解决实际问题,“可被人理解”的模式帮助人们理解模
式中包含的信息,从而更好的评估和利用。
1.2 算法的核心思想
作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤.
Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文
1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中.
2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在
的错误以及缺失信息.
3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.
4: data mining: 应用数据挖掘工具.
5:interpretation/ evaluation: 了解以及评估数据挖掘结果.
1.3
实验软件:Weka3-9.
数据集来源:http://archive.ics.uci.edu/ml/datasets/Iris
第2章、实验过程
2.1数据准备
1.从uci的数据集官网下载iris的数据源
2.抽取数据,清洗数据,变换数据 3.iris的数据集如图
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
2.2 实验过程
2.2.1.建模
(1)C4.5数据挖掘算法
使用weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将test options 设置为 Percentage split ,使用默认百分比66%。 选择class作为输出属性。如图所示:
2.设置完成后点击start开始执行 (2)Simple KMeans算法
1加载数据到Weka,切换到Cluster选项卡,选择Simple KMeans算法、
共分享92篇相关文档