当前位置:首页 > 数据分析实务与案例
? Binary、nominal和ordinal类型的变量,用样本中的高频值替换缺失值。 有些数据存储,采用特殊值代替缺失值,比如所有的缺失值都用999代替,这种情况下,我们可以通过选择Replace before imputation,同时在Constant values二级标签里面进行缺失值替换规则设臵,本例中不涉及到替换规则的改变
(3)
单击Create imputed indicator variables选项左侧的方框,选择此框后,当运行Replacement节点的时候,系统会生成一系列以M为前缀的Binary类型的变量,当某个观测中的某个变量为缺失值的时候,那么系统会将与缺失值变量相关联的以M开头的Binary变量的值赋成?1?,这样,对于回归模型和神经网络模型,就可以用这些替代值来建模了。
(4) 3.4 建模
本例中我们建立的是响应模型,一般来讲,回归模型和决策树模型是建立定位模型的比较适合的工具。
3.4.1 回归模型
EM实现回归建模的工具是Regression节点。回归包括线性回归和逻辑回归,当目标变量为ordinal 或者 binary类型的数据的时候,即目标变量为非连续变量的时候,所以我们应该采用逻辑回归建模。
(1)
将Regression节点拖到工作区中放到Replacement节点的下方,连接Replacement节点到Regression节点。 关闭Replacement窗口,保存修改。
(2)
双击Regression节点出现Regression窗口,默认出现的是Variables标签。由于Regression节点的默认模型是逻辑回归,所以无需再对Model Options标签进行设臵,此处要设臵的是Selection Method标签。
常用的三种逐步回归法:
FORWARD前进法:从模型中没有变量开始,每次将一个最显著的变量引入模型,直
到模型以外的变量不再有显著的下值为止;
BACKWAND后退法:从模型中含所有自变量开始,每次从模型中剔除一个贡献最小的变量,直到模型中只剩下均为显著的变量为止;
STEPWISE逐步法:每次引入模型一个最显著的变量,然后考虑从模型中剔除一个最不显著的变量,直到既没有变量引入也没有变量剔除为止。
(3)
单击Selection Method标签,出现如下窗口,单击Method右侧的下拉键头,选择Stepwise。
当选择Stepwise以后,会发现Effect Hierarchy变为可选状态,当我们不考虑数据集中两个或两个以上的变量会联合作用于目标变量的时候,则无需对Effect Hierarchy进行设臵。
(4)
关闭Regression窗口,在弹出对话框中选择?是?保存设臵,此时会弹出Save Model As窗口,在Model Name域输入StepReg,在Model Description 域输入Stepwise Logistic Regression,单击?OK?。
到此,我们就已经完成了回归的建模,下面我们先完成决策树的建模之后,在一同比较两个模型的运行结果。
3.4.2 决策树模型
采用决策树建模的最大的好处就是其结果易于理解,EM建立决策树模型的工具是Tree 节点。
共分享92篇相关文档