云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 数据挖掘概念与技术习题答案 - 图文-

数据挖掘概念与技术习题答案 - 图文-

  • 62 次阅读
  • 3 次下载
  • 2025/6/5 2:49:14

设s’是s的非空子集,则

由(b)可知:support_count(s') support count(s),

此外,confidence(s’) 所以,规则

(l-s’)) confidence(s) (l- s)) 。

的置信度不可能大于

6.6设数据库有5个事务。设min_sup =60%, min_conf=80%

(a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。

效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选。

(b)列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X是代表顾客的变量,itemi是表示项的变量(如:“A”、“B”等):

答: k,o e [0.6,1]

e,o k [0.6,1]

6.8.数据库有4个事务,设min_sup =60%, min_conf=80%

(a)在item_category粒度(例如,itemi 可以是“Milk”),对于下面的规则模板

对最大的k,列出频繁k项集包含最大的k的频繁k项集的所有强关联规则(包括它们的支持度S和置信度c). (b)在 粒度(例如:itemi 可以是“Sunset-Milk”)对于下面的规则模板

对最大的k,列出频繁k项集(但不输出任何规则)。

6.14 下面的相依表汇总了超级市场的事务数据。其中,hot dogs表示包含热狗的事务,hot dogs表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,hamburgers表示不包含汉堡包的事务,

(a)假定挖掘出了关联规则该关联规则是强规则吗?

答:根据规则, support = 2000/5000 = 40%, confidence = 2000/3000 = 66.7%. 该关联规则是强规则.

。给定最小支持度阀值25%,最小置信度阀值50%,

(b)根据给定的数据,买 hot dogs独立于买humburgers吗?如果不是,二者之间存在何种相关联系。 答:corr{hotdog;hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=0.4/(0.5 × 0.6)

=1.33 > 1. 所以,买 hot dogs不是独立于买humburgers。两者存在正相关关系 8.1 简述决策树分类的主要步骤。

8.5 给定一个具有50个属性(每个属性包含100个不同值)的5GB的数据集,而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地计算机主存的使用说明你的答案是正确的。

这个问题我们将使用雨林算法。假设有C类标签。最需要的内存将是avc-set为根的树。计算avc-set的根节点,我们扫描一次数据库,构建avc-list每50个属性。每一个avc-list的尺寸是100×C,avc-set的总大小是100×C×50,对于合理的C将很容易适应512 MB内存,计算其他avc-sets也是使用类似的方法,但他们将较小,因为很少属性可用。在并行计算时,我们可以通过计算avc-set节点来减少同一水平上的扫描次数,使用这种每节点小avc-sets的方法,我们或许可以适应内存的水平。

8.7下表由雇员数据库的训练数据组成。数据已泛化。例如:age “31...35”表示年龄在31-35之间。对于给定的行,count表示department,status,age和salary在该行具有给定值的元组数。设status 是类标号属性。

(a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count? (b)使用修改的算法,构造给定数据的决策树。

(c)给定一个数据元组,它在属性department,age和salary的值分别为“systems”,“26..30”,和“46K.. 50K”。该元组status的朴素贝叶斯分类是什么?

9.2支持向量机(SVM)是一种具有高准确率的分类方法。然而,在使用大型数据元组集进行训练时,SVM的处理速度很慢。讨论如何克服这一困难,并为大型数据集有效的SVM算法。

  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

设s’是s的非空子集,则 由(b)可知:support_count(s') support count(s), 此外,confidence(s’) 所以,规则(l-s’)) confidence(s) (l- s)) 。 的置信度不可能大于6.6设数据库有5个事务。设min_sup =60%, min_conf=80% (a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。 效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选。 (b)列举

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com