云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 商务智能复习题

商务智能复习题

  • 62 次阅读
  • 3 次下载
  • 2025/5/4 18:52:24

11. 数据挖掘中的数据需要采用哪些格式? 数据挖掘中的数据需要采用以下格式: ① 所有数据应该在一个表格/数据库视图中 ② 每一行对应于与业务问题相关的一个案例 ③ 忽略具有单一值/几乎单一值的列 ④ 忽略所有行的值都不同的列 ⑤ 删除所有同义列

⑥ 对于预测模型,目标列必须是可识别的 12.简述K-近邻分类法的基本思想。

答:基本思想:K-近邻分类是基于类比学习的,每个样本代表d维空间的一个点。(3分) 当给定一个未知样本时,K-近邻分类法将搜索样本空间,找出最接近未知样本的K个训练样本,这K个训练样本是未知样本的K个“近邻”。 (3分) 13.关联规则挖掘能发现什么知识?简述其挖掘的基本步骤。

答:关联规则挖掘有助于发现交易数据库中不同商品之间的联系,找出顾客购买行为模式。(2分)

关联规则挖掘可以分解为两个步骤:首先找出交易项目中满足最小支持度(minSupp)的项集(称其为频繁项集);(2分)

然后由频繁项集生成关联规则,对于频繁项集A,若B?A,且置信度confidence(B?A-B)不小于最小置信度minConf,则B?A-B构成关联规则。(2分) 14.遗传算法与传统寻优算法相比有什么特点? 遗传算法为群体搜索,有利于寻找到全局最优解; 遗传算法采用高效有方向的随机搜索,搜索效率高;

遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;

遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好; 遗传算法具有隐含并行性,具有更高的运行效率。 15.什么是决策树?如何用决策树进行分类? 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。

决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。 16.简述K-平均算法的输入、输出及聚类过程(流程)。 输入:簇的数目k和包含n个对象的数据集。 输出:k个簇,使平方误差准则最小。 步骤:

任意选择k个对象作为初始的簇中心;

计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇; 计算各簇中对象的平均值,然后重新选择簇中心(离平均值“最近”的对象值); 重复第2第3步直到簇中心不再变化为止。 17.简述构造智能CRM系统的完整步骤。

答:构建一个完整的智能CRM系统的几个步骤:

1.整合客户信息资源:对于那些以前没有应用过任何CRM系统的企业来说,首先需要把

孤立的业务系统整合到一个统一的平台之下,解决“信息孤岛”。 而对于己有CRM系统的企业,则需要建立一个企业信息门户,使客户和企业能在一个统一的界面下进行数据和信息交换,从而保证客户数据的一致性。(2分)

2. 建立客户数据仓库:规划数据仓库,以企业的业务模型为基础,确定需要建立能够描述主要业务主题的数据模型;设计数据仓库,根据逻辑模型和性能要求进行物理模型的设计,制定数据存储策略以及各种商业规则等;(2分)

3.构造数据分析模型:根据企业需要分析的对象和目标,构造有针对性的分析模型。(1分) 4.建立客户知识管理系统:建立一个动态的客户知识库以及制定客户知识的分发规则和保存机制。(1分)

18.何谓数据仓库?为什么要建立数据仓库?

数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。(3分) 建立数据仓库的目的有3个:

一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。

二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。

三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。(3分)

20.简述数据仓库设计的三级模型及其基本内容。 概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。(2分)

逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。(2分)

物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。

提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。(2分)

21.何谓聚类?它与分类有什么异同?

聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。(3分)

聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。(3分)

22.何谓文本挖掘?它与信息检索有什么关系(异同)。

文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它与信息检索之间有以下几方面的区别:(1分)

1方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。

2着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。

3目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请

求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。 4评价方法不同:信息检索用查准率和查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。

5使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。(5分)

23.遗传算法与传统寻优算法相比有什么特点? 遗传算法为群体搜索,有利于寻找到全局最优解; 遗传算法采用高效有方向的随机搜索,搜索效率高;

遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;

遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好; 遗传算法具有隐含并行性,具有更高的运行效率。(6分) 24. 商务智能应用趋势

①更成熟的数据分析和展现技术;②从战略型的BI到操作型或者实时型的BI;③关注绩效、关注价值、关注数据质量。 25. 商务智能发展的特点

①实时;②标准化;③嵌入式商务智能;④移动商务智能;⑤大众化趋势;⑥供应商的动向;⑦易用性。

26.商务智能与知识管理的区别:

①内涵不同;②知识的管理过程和技术不同;③关注的只是类型不同;④面向的用户不同。 27. Web日志挖掘的应用

①获取用户访问模式信息,理解用户的意图和行为 ②分析用户的存取模式,为用户提供个性化的服务 ③确定网站的潜在客户群,合理制订网络广告策略等

④改进Web站点的结构,使网站点随时间、用户需求的变化而不断调整

⑤对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等

⑥利用关联规则确定相关Web查询(查询修正)

五、计算题(本题共2道小题,每小题10分,共20分)

?1?20???A???250??0T02?X?(X,X,X)??的特征值和特征向量分别为:1231. 的协方差矩阵

T?1?5.83,e1?(0.383,?0.924,0),

?2?2.00,eT2?(0,0,1),

T?3?0.17,e3?(0.924,0.383,0),求X的主成分,计算其贡献率。

解:(1)X的主成分是:

TY1?e1X?0.383X1?0.924X2,

Y2?eT2X?X2,

TY3?e3X?0.924X1?0.383X2(6分)

?(2)第1主成分的贡献率为

5.83?73%5.83?2.00?0.17

?第1,2主成分的贡献率为

5.83?2.00?98%5.83?2.00?0.17 (4分)

2.对于贷款申请的决策树,

(1)请从下图的决策树中提取分类规则。

工作时间>5年 是 低风险

否 高风险

否 低风险

收入> 40000 是 高负债

是 高风险

(2)根据决策树判断如下数据的风险分类。

序号 1 2 3 工作时间 3 10 6 收入 50000 30000 100000 高负债 否 否 是 风险分类 ? ? ? 解:(1)请从下图的决策树中提取分类规则。

1)当收入小于等于40000元,如果工作时间大于5年的为低风险; 2)当收入小于等于40000元,工作时间小于等于5年的为高风险; 3)当收入大于40000元,没有高负债的为低风险;

4)当收入大于40000元,具有高负债的为高风险; (6分) (2)根据决策树判断如下数据的风险分类。 (4分) 序号 1 2 3 工作时间 3 10 6 收入 50000 30000 100000 高负债 否 否 是 风险分类 低风险 低风险 高风险 3、给定如下要进行聚类的元组:{2,4,10,12,3,20,30,11,25},假设分为2类,即K1=2,初始时用前两个数值作为类的均值:m=2 和 m=4。

(1)应用K-均值聚类法写出聚类的详细过程(利用欧几里德距离进行计算)。

(2)应用K-近邻分类法计算元组x=16属于哪一类?设距离最近的元组为3个,即K2=3。 解:(1) m1 2

m2 4 K1 {2,3} K2 {4,10,12,20,30,11,25}

搜索更多关于: 商务智能复习题 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

11. 数据挖掘中的数据需要采用哪些格式? 数据挖掘中的数据需要采用以下格式: ① 所有数据应该在一个表格/数据库视图中 ② 每一行对应于与业务问题相关的一个案例 ③ 忽略具有单一值/几乎单一值的列 ④ 忽略所有行的值都不同的列 ⑤ 删除所有同义列 ⑥ 对于预测模型,目标列必须是可识别的 12.简述K-近邻分类法的基本思想。 答:基本思想:K-近邻分类是基于类比学习的,每个样本代表d维空间的一个点。(3分) 当给定一个未知样本时,K-近邻分类法将搜索样本空间,找出最接近未知样本的K个训练样本,这K个训练样本是未知样本的K个“近邻”。 (3分) 13.关联规则挖掘能发现什么知识?简述其挖掘的基本步骤。 答:关联规则挖掘有助于发现交易数据库中不同商品之间的联系,找出顾客购买行为模式。(2分) 关联规则挖掘可以分解为两

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com