云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 数据挖掘导论Iris KDD分析

数据挖掘导论Iris KDD分析

  • 62 次阅读
  • 3 次下载
  • 2025/5/29 14:58:07

`

题 目 iris数据集的KDD实验

学院名称 信息科学与技术学院

专业名称 计算机科学与技术

学生姓名 何东升 学生学号 201413030119 指导教师 实习地点 成都理工大学 实习成绩

二〇 一六年 9月

iris数据集的KDD实验

第1章、实验目的及内容

1.1 实习目的

知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、

新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。该术语于1989年出现,Fayyad定义为\是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。

KDD的目的是利用所发现的模式解决实际问题,“可被人理解”的模式帮助人们理解模

式中包含的信息,从而更好的评估和利用。

1.2 算法的核心思想

作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤.

Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文中总结出了KDD包含的5个最基本步骤(如图).

1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中.

2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在

的错误以及缺失信息.

3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.

4: data mining: 应用数据挖掘工具.

5:interpretation/ evaluation: 了解以及评估数据挖掘结果.

1.3

实验软件:Weka3-9.

数据集来源:http://archive.ics.uci.edu/ml/datasets/Iris

第2章、实验过程

2.1数据准备

1.从uci的数据集官网下载iris的数据源

2.抽取数据,清洗数据,变换数据 3.iris的数据集如图

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

2.2 实验过程

2.2.1.建模

(1)C4.5数据挖掘算法

使用weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将test options 设置为 Percentage split ,使用默认百分比66%。 选择class作为输出属性。如图所示:

2.设置完成后点击start开始执行 (2)Simple KMeans算法

1加载数据到Weka,切换到Cluster选项卡,选择Simple KMeans算法、

搜索更多关于: 数据挖掘导论Iris KDD分析 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

` 题 目 iris数据集的KDD实验 学院名称 信息科学与技术学院 专业名称 计算机科学与技术 学生姓名 何东升 学生学号 201413030119 指导教师 实习地点 成都理工大学 实习成绩

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com