当前位置:首页 > 数据挖掘作业
作业一:
1. 给出一个例子,其中数据挖掘对于商务的成功是至关重要的。该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
答:1)Yahoo!通过对用户使用行为的意外模式分析,发现在每次会话中,人们
阅读邮件和阅读新闻的行为之间存在很强的相关关系。Yahoo!电子邮箱产品小组验证了这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目显示。用户的流失率显著下降,实际上,在这次试验中,最弱的一组流失率下降了40%!于是Yahoo!立刻开发并完善了新闻模块,并嵌入Yahoo!电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。可见,数据挖掘对商务的成功是至关重要的。 2)该商务应用了关联规则数据挖掘功能。
3)用于数据或信息检索的数据查询处理不具有发现关联规则能力。同样,简单的统计分析不能处理大量的数据。
2. 使用你熟悉的生活中的数据库,给出关联规则挖掘、序列模式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。
答:关联规则挖掘的例子:如果顾客买了尿片与牛奶,他很可能买啤酒。把啤酒放在尿片的附近。
序列模式分析的例子:买了喷墨打印机的的顾客中,80%的人三个月后又买了墨盒。
分类数据挖掘功能的例子:信用卡发放 聚类数据挖掘功能的分析:人脸识别
孤立点分析的例子:信用卡公司需要检测大量的支付行为。可以利用支付行为中的地点、支付类型以及支付频率等信息检测出孤立点。 3. 与挖掘少量数据相比,挖掘海量数据的挑战有哪些? 答:1)规模大 高效算法, 并行处理 2)高维特性
导致搜索空间指数级的增长,维度约减
3)过拟合
因过分强调对训练样本的效果导致过度拟合,使得对未知预测样本效果就会变差 4)动态、缺失、噪音数据 5)领域知识的运用 6)模式的可理解性
2.4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:
(a) 计算age和út的均值、中位数和标准差。 (b) 绘制age和út的盒图。
(c) 绘制基于这两个变量的散点图和q-q图。
答:
(a)mean(age)?median(age)?s2?23?23?27?......?58?60?61?46 1850?52?51 21[(23?46)2?(23?46)2?(27?46)2?(27?46)2?(39?46)2?(41?46)2)218?1?(47?46)2?(49?46)2?(50?46)2?(52?46)2?(54?46)2)2?(54?46)2?(56?46)2?(57?46)2?(58?46)2?(58?46)2?(60?46)2?(61?46)2]?174.94
s?s2?174.94?13.23 mean(út)?9.5?26.5?7.8?......?32.9?41.2?35.7?28.8 18median?30.2?31.2?30.7 2s2?1[(9.5?28.8)2?(26.5?28.8)2?(7.8?28.8)2?(17.8?28.8)2?(31.4?28.8)2?(25.9?28.8)218?1?(27.4?28.8)2?(27.2?28.8)2?(31.2?28.8)2?(34.6?28.8)2?(42.5?28.8)2?(28.8?28.8)2?(33.4?28.8)2?(30.2?28.8)2?(34.1?28.8)2?(32.9?28.8)2?(41.2?28.8)2?(35.7?28.8)2]?85.6s?s2?85.6?9.25 (b)
age: Q1=39 ,Q3=57, IQR=57-39=18 1.5IQR=27, (39-27, 57+27)=(11, 84)
út: Q1=26.5, Q3=34.1, IQR=34.1-26.5=7.6 1.5IQR=11.4, (26.5-11.4, 34.1+11.4)=(15.1, 45.5)
(c) 散点图:
q-q图:
共分享92篇相关文档