云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 数据挖掘实验二报告

数据挖掘实验二报告

  • 62 次阅读
  • 3 次下载
  • 2025/6/16 13:36:56

实验二:利用Weka进行常见的数据处理

实验内容:

1.学习Weka的标准数据格式arff

2. 掌握分析数据:箱式图、正态分析、图形显示

3.掌握归一化、特征提取、缺失值、噪声值处理等数据处理方法

实验步骤

在给定的2个数据集上(iris和wine)进行操作。

1. 掌握Weka的标准数据格式arff(attribute-relation file format),并将指定数据集数据转换成arff格式。

由于weka软件可以打开CSV文件,故将数据集在EXCEL中保存为CSV文件,再用weka打开后,再保存为arff格式。

arff格式文件主要由两个部分构成,头部定义(关系名称(relation name)、一些属性(attributes)和对应的类型)和数据区。

2. 利用Weka对数据集数据进行图形分析(提示:根据Weka已有的图形选项,无特定功能则可省略过程,了解其含义即可)

3. 归一化处理。根据学过的归一化知识对数值属性进行归一化处理(可不用Weka)。

若使用weka进行归一化处理,可在Filters中选择unsupervised -> attribute下面的Normalize,使用默认参数,点击ok,回到主窗口。选好将要归一化的特征,可以是一个或多个,然后点击apply。

线性函数转换:y=(x-MinValue)/(MaxValue-MinValue)

注:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。

4. 特征提取。理解特征提取概念,利用Weka在指定数据集上进行特征提取。要求:采用不同的Attribute Evaluator,并比较实验结果。 特征提取是通过映射的方法,将高维的属性空间压缩为低维的属性空间,得到最小的属性集,使得数据类的概念分布尽可能地接近使用所有属性的原分布。 对于iris数据集:采用ranker;

5. 缺失值,噪声值处理。了解数据的不完整性。针对给定的数据集,利用不同的方法,添加缺失值或噪声值。要求:重点掌握Filter过滤器的快速处理。 处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。

噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归

搜索更多关于: 数据挖掘实验二报告 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

实验二:利用Weka进行常见的数据处理 实验内容: 1.学习Weka的标准数据格式arff 2. 掌握分析数据:箱式图、正态分析、图形显示 3.掌握归一化、特征提取、缺失值、噪声值处理等数据处理方法 实验步骤 在给定的2个数据集上(iris和wine)进行操作。 1. 掌握Weka的标准数据格式arff(attribute-relation file format),并将指定数据集数据转换成arff格式。 由于weka软件可以打开CSV文件,故将数据集在EXCEL中保存为CSV文件,再用weka打开后,再保存为arff格式。 arff格式文件主要由两个部分构成,头部定义(关系名称(relation name)

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com