当前位置:首页 > 关联分析--SPSS例析
关联分析(笔记)
事物之间的关联关系包括:简单关联关系、序列关联关系。
关联关系
简单关联关系
序列关联关系
简单关联规则:属于无指导学习方法,不直接用于分类预测,只揭示事物内部的结构。
Spss modeler 提供了APriori、GRI、Carma等经典算法。APriori和Carma属于同类算法。
Apriori只能处理分类变量数据可以是按事务表存储,亦可事实表存储。算法为提高关联规则的产生效率而设计
不但可以处理分类变量,前项也可是数值变量GRI数据只能按照事实表存储采用深度优先搜索策略实现算法
序列关联:关联具有前后顺序,通常与时间有关。
SPSS Modeler 提供了sequence算法;
数据格式如下:按照事务表存储,同事需要时间变量。
简单关联规则要分析的对象是事务
事务的储存方式有事务表和事实表两种方式。
事务表 顾客ID 1 1 2 2 3 3 事实表
顾客ID 1 2 3 项目A 1 0 1 项目B 0 1 0 项目C 0 0 1 项目D 1 1 0 项集 A D B D A C 两种表均表明,顾客1购买了AD两种物品,顾客2购买了BD两种物品,顾客三购买了AC两种物品。
关联规则有效性的测度指标
1、 支持度support:所有购买记录中,A、B同时被购买的比例。 2、 置信度confidence:在购买A的事务中,购买B的比例。 关联规则实用性的测度指标 1、 提升度lift:(在购买A的事务中,购买B的比例)/(所有事务中,购买B的比例)
2、 置信差
3、 置信率、正态卡方、信息差等等
简单关联关系实例 例1
数据格式:事实表 算法:Apriori
所有购买项目均选入前项antecedent和后项consequent。
输出结果的最低支持度是10%;本例设定的划分频繁项集的标准大于最小支持度10%。 最小置信度是80%; 前项最多项目数:5
本例中,三项以上没有超过10%的支持度,所以不能形成三项以上的频繁项集,最大的频繁项集大小是2。
结论解释:
实例:包含前项beer、cannedveg的样本有167个,在1000个样本中前项支持度为16.7%。 规则支持度:同时购买beer、cannedveg、frozenmeal三项的支持度为14.6%。 规则置信度:购买beer、cannedveg的客户中,87.425%的人有购买frozenmeal。 规则2下,购买frozenmeal的可能性比购买frozenmeal的支持度提高2.895倍。
共分享92篇相关文档