当前位置:首页 > 数据挖掘技术及其在营销中的应用 - 冯萍
数据挖掘技术及其在营销中的应用
冯 萍, 宣慧玉
(西安交通大学管理学院,陕西 西安 710049)
聚类 用于描述和发现数据库中以前未知的数据类别.其中样本数据中不包含类别变量, 数据挖掘将具有共同趋势和模式的数据元组聚集为一类,使类内各元组相似程度最高,类间 差异最大.常用于市场细分,可根据已有顾客的数据,利用聚类技术将市场按顾客的消费模 式的相似性分为若干细分市场,以进行有针对性的市场营销.
关联 用于发现给定事件或纪录中经常一起发生的项目,由此推断事件间潜在的关联,识 别有可能重复发生的模式.关联分析的典型例子是市场篮子分析,描述顾客的购买行为.如 尿布与啤酒的故事就属于关联分析,可帮助零售商决定商品的摆放和捆绑销售策略. 序列模式 与关联分析类似,只是扩展为一段时间的项目集间的关系,常把序列模式看 作由时间变量连接起来的关联.序列分析可分析长时期的相关纪录,发现经常发生的模式. 2 数据挖掘过程
数据挖掘系统主要有四个模块:用户界面、数据准备(也称为数据预处理)、挖掘及模式 的解释和评价(后处理).如图1所示. 图1 数据挖掘系统模块
具体进行数据挖掘时大致可分为下面3个步骤: 2.1 数据准备
数据准备对于数据挖掘的成功应用至关重要, IBM等咨询公司已经证实了数据准备需消 耗整个数据挖掘过程中50%~80%的资源[3],事实上如果没有数据的预处理阶段,单纯进行 数据挖掘将成为一个盲目搜索的过程,可能会得出毫无意义或错误的结果.目前对数据挖掘 的研究仍主要集中在数据挖掘技术上,数据准备一直未得到应有的重视, Dorlan Pyle在其新 著《Data Preparation forDataM ining》中,对数据挖掘中的数据准备作了详细的论述.数据 准备大致分为3步:数据集成,数据选择,数据转化[3].
1)数据集成.从多个异质操作性数据库、文件或遗留系统提取并集成数据,解决语义二 义性,统一不同格式的数据,消除冗余、重复存放数据的现象.同时还要清洗数据,包括对 53 第19卷第1期冯 萍等:数据挖掘技术及其在营销中的应用 数据、缺失数据及异常数据等的处理.
2)数据选择.在相关领域和专家知识的指导下,辨别出需要进行分析的数据集合,缩小 挖掘范围,避免盲目搜索,提高数据挖掘的效率和质量.
3)数据缩减和转化.选定的数据在经过挖掘前,必须要加以精炼处理,如通过缩减高维 复杂数据的维数,减少有效变量的个数等.
另外在数据准备阶段中,通过用户交互引入领域专家知识也很重要,可帮助定义具体问 题和用户需求,使模型更直观;限制搜索空间,以便高效率的发现更精确的知识;对发现的 结果进行后处理,从中过滤出有意义、有价值的知识和信息. 2.2 挖掘知识和信息
作为数据挖掘技术的核心,知识与信息的挖掘主要有下面几部分构成:
1)确定挖掘的任务类型.确定系统要实现的功能及任务,是属于分类或关联等中哪种类 型.
2)选择合适的挖掘技术.在确定挖掘任务的基础上,选择适当的数据挖掘技术.如分类 模型常由有指导的神经元网络或归纳技术(如决策树)来实现;聚类常用聚类分析技术;关 联分析使用关联发现和序列发现技术等[4].
3)选择算法.根据选定的技术选择一具体的算法,如采用ID3算法为定性的变量建立分
类模型; BP算法用于解决连续的定量变量的情况等.选择数据挖掘算法要确定搜索数据中隐 藏模式的方法,如确定适当的模型和参数集合,还应将这一具体的技术与数据挖掘的全局目 标匹配[4].
4)挖掘数据.用选定的算法或算法组合在模式空间中进行反复迭代的搜索,从数据集合 中抽取出隐藏的、新颖的模式. 2.3 模式的解释和评价
对数据挖掘发现的模式进行解释和评价,过滤出有用的知识.具体包括消除无关的、多
余的模式,过滤出要呈现给用户的信息;利用可视化技术将有意义的模式以图形或逻辑可视 化的形式表示,转化为用户可理解的语言.一个成功的数据挖掘的应用应能将原始数据转换 为更简洁、更易理解、可明确定义关系的形式.此外还包括解决发现的结果与以前知识的潜 在冲突,及利用统计方法对模式进行评价,决定是否需要重复以前的操作,以得到最优、最 适合的模式[4].
数据挖掘抽取的信息经过事后处理可用于解释当前或历史现象,预测未来可能发生的情 况,使决策者参照从过去发生的事实中抽取的信息进行决策制定. 3 常用技术及算法
数据挖掘的核心是采用机器学习、统计等方法进行知识学习的阶段.数据挖掘算法的好 坏将直接影响到所发现知识的好坏,因此选取适当的算法或算法组合至关重要,目前对数据 挖掘的研究也主要集中在算法及其应用方面. 54北京轻工业学院学报2001年3月
事实上并不存在评判算法优劣的确定标准,因为不同的目标和情况需要的算法也不同;另 外每种技术都有其内在局限性,不加判断的应用数据挖掘技术是毫无意义的.事实上某种算 法在解决一特定问题时可能比其他算法性能更好,因此选择采用的算法具有某种艺术性,要 由具体应用的目标和情况决定,而不能仅仅由算法的性能判断.
数据挖掘方法通常分为两类:统计模型和机器学习技术,其中机器学习与数据挖掘关系
最密切.统计模型应用于数据挖掘主要是进行评估,常用的统计技术有概率分布、相关分析、 回归、聚类分析和判别分析等;机器学习是人工智能的一个分支,也称为归纳推理,通过学 习训练数据集,发现模型的参数,并找出隐含的规则[5].常用的机器学习方法如人工神经元网 络、决策树和遗传算法在数据挖掘中的应用都很广泛. 3种数据挖掘技术的比较见表1. 人工神经元网络(ANN)是在数据挖掘中应用最广泛的技术,模仿人脑的机能,通过反
复学习训练数据集,发现用于预测和分类的模式.神经元网络尤其擅长于解决极复杂的问题, 但神经元网络最大的缺点是其不透明型,无法解释结果是如何产生的及其在推理过程中所用 的规则.
决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示
所属的不同类别.根据训练数据集中数据的不同取值建立树的分支,形成一决策树,对其进 行反复修剪后转化为规则,可用于对新数据分类.与神经元网络最大的不同在于其决策制定 的过程是可见的,可以解释结果是如何产生的.典型的例子是CART (回归决策树)方法. 表1 三种常见的数据挖掘技术的比较 方 法优 点缺 点适用情况 神经元 网络
对于复杂情况仍能得到 精确的预测结果;
可处理类别和连续变量. 无法解释结果;对输入数 据类型有要求;易受过度 训练的影响;计算量大.
尤其适用于模型的结果比可理 解性更重要的分类和预测的复 杂情况.不适合处理高维变量. 可用于聚类、分类和序列模式. 决策树产生直观、易理解的规 则;分类不需太多计算时 间,且计算容易;可处理 类别、连续变量;可清楚 指明对预测和分类最重 要的域.
数据越复杂,决策树分支 越多,很难管理;对缺失 数据的处理不太有效.
适于对纪录分类或结果的预测, 尤其当目标是生成易理解、解 释、可翻译成SQL或自然语言 的规则时.
可用于聚类、分类及序列模式. 遗传 算法
可处理许多数据类型;可 并行处理;常用于优化神 经元网络等技术.
需要参数太多;对许多问 题编码困难;得到满意 解,而非最优解;计算量 大.
可解决其他技术难以解决的问 题(复杂、新的、难于理解的问 题).
常与其他技术集成,用于分类、 聚类、关联及序列模式.
遗传算法(GA)是一种基于生物进化理论的优化技术.其基本观点是“适者生存”,用
于数据挖掘中,则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解. 具体来讲,就是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最 优解.具体来讲,就是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至 55 第19卷第1期冯 萍等:数据挖掘技术及其在营销中的应用
摘 要:对数据挖掘这一新兴数据分析技术进行了综述,阐述了数据挖掘产生的背
景及其定义、任务和过程,论述了几种常用的数据挖掘算法,并给出了数据挖掘技 术在营销中的应用实例.
关键词:数据挖掘;算法;数据库营销
中图分类号: C 931; TP 391 文献标识码: A 收稿日期: 2000 11 14
IT技术的迅速发展,使数据库的规模不断扩大,产生了巨大的数据洪流.为给决策者提
供一个统一的全局视角,在许多领域建立了数据仓库.大量的数据往往使人们无法辨别隐藏 在数据中的、能对决策提供支持的信息,而传统的查询、报表工具无法满足发掘这些信息的 需求,因此需要一种新的数据分析技术处理大量数据,从中抽取有价值的潜在信息,数据挖 掘技术由此应运而生.
数据挖掘(DataM ining)是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平
凡过程[1].这些信息的表现形式为:规则、概念、规律及模式等,可帮助决策者分析历史数据 及当前数据,从中发现隐藏的关系和模式,进而预测未来可能发生的行为.
从技术基础的角度来看:知识发现的技术及算法的发展,使得数据挖掘工具的功能和实
用性得到提高. JohnHopfield在神经元网络方面, Breiman、Friedman、O lshen和Stone等人 在决策树方面以及Holland和Goldberg等人在遗传算法方面所进行的开创性工作大大推进 了数据挖掘技术的实际应用[2].目前在国外已有许多领域成功采用了数据挖掘这一工具辅助 决策,如市场营销、零售业、金融、医疗保险、政府部门及科学研究等,已充分显示了这一 信息技术的优越性,这也促进了应用和研究的进一步发展. 1 数据挖掘的任务
数据挖掘的任务常见的有4种类型:
分类 用于预测事件所属的类别.其中样本数据中包含标识样本事件所属类别的数据项, 类别是已知的,由数据挖掘根据样本数据构建对这些类别的模式的描述,再利用所发现的模 式,参照新的数据的特征变量,将其映射入已知类别中.如在医疗应用中,可根据患者的各 种特征进行疾病诊断等.
进化停止的条件.遗传算法是最成功的机器学习技术之一,常与其他技术结合使用,如 用于优化神经元网络的模型和参数集等. 4 数据挖掘在营销中的应用
数据库营销(DatabaseM arketing)是数据挖掘目前最成功商业应用,作为一种结合了信
息技术和营销理论的新型营销方式,通过搜集消费者和同类企业等的大量信息,并利用OLAP (On-LineAnalyticalProcessing)和数据挖掘等分析技术对其进行分析处理,据此确定相应的 营销策略和特定的目标顾客群[6].
数据挖掘在营销中的主要应用有:关联分析即市场篮子分析,用于了解顾客的购买习惯
和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与市场篮子分析相似, 不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率; 聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针 对性的营销策略;分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应,还 可用于顾客定级、破产预测等.
数据挖掘在营销中的具体应用流程如图2所示. 图2数据挖掘在营销中的应用流程 反 馈 是 应用
共分享92篇相关文档