当前位置:首页 > 筛选预测变量
筛选预测变量(特征选择)
特征选择节点有助于识别用于预测特定结果的最重要的字段。特征选择节点可对成百乃至上千个预测变量进行筛选、排序,并选择出可能是最重要的预测变量。最后,会生成一个执行地更快且更加有效的模型—此模型使用较少的预测变量,执行地更快且更易于理解。
本示例中使用的数据由某虚构电话公司的数据仓库提供,且包含有关该公司的 5000 名客户对特定促销活动的响应的信息。该数据包含大量的字段,其中有客户年龄、职业、收入、电话使用情况等统计量。其中有三个“目标”字段,显示客户是否响应这三种促销。该公司想利用这些数据来预测哪些客户最可能在将来对类似报价做出响应。
此示例使用名为 featureselection.str 的流,此流引用名为 customer_dbase.sav 的数据文件。这些文件可在任何 IBM? SPSS? Modeler 安装程序的 Demos 目录中找到。此目录可通过 WindowsIBM? SPSS? Modeler 程序组进行访问。文件 featureselection.str 位于 streams 目录下。
本示例仅关注其中一种促销活动,并将其作为目标。本示例使用 CHAID 树构建节点来开发模型,用以说明最有可能响应促销活动的的客户。其中对以下两种方法作了对比:
? 不使用特征选择。数据集中的所有预测变量字段均可用作 CHAID 树的输入。
? 使用特征选择。使用特征选择节点选择最佳的 10 个预测变量。然后将其输入到 CHAID 树中。
通过比较两个生成的树模型,可以看到特征选择如何产生有效的结果。 ? 在一个空流工作区中,放置一个 Statistics 文件源节点。将此节点指向示例数据文件customer_dbase.sav,该文件位于 IBM? SPSS? Modeler 安装程序的 Demos 目录下。(或者,可打开位于 streams 目录下的示例流文件featureselection.str。)
? 添加类型节点。在“类型”选项卡上,向下滚动到底部并将response_01 的角色更改为目标。将其他响应字段(response_02)和(response_03)以及客户 ID(列表顶部的 custid)的角色更改为无。将所有其他字段的角色设置为输入,并单击读取值按钮,然后单击确定。
? 为流添加“特征选择”建模节点。在此节点上,您可以指定要筛选的规则和标准,或要筛选的字段。
? 运行流以创建特征选择模型块。
? 右键单击流上或“模型”选项板中的模型块并选择编辑或浏览以查看结果。 顶部面板显示了所找到的对预测非常有用的字段。这些字段基于重要性排序。底部面板显示了从分析中筛选出来的字段及筛选的原因。通过检查顶部面板中的字段,可以确定在随后的建模会话中要使用哪些字段。
? 现在,可以选择要在下游使用的字段。虽然最初已将 34 个字段识别为重要字段,但我们希望进一步减少预测变量集合的数目。
? 通过使用第一列上的复选标记仅选中前 10 个预测变量,可取消选择不需
要的预测变量。(单击行 11 中的选中标记,按住 Shift 键并单击行 34 中的选中标记。)关闭模型块。
? 要在未选中特征的情况下比较结果,则必须向流中添加以下两个 CHAID 建模节点:一个模型使用特征选择,另一个模型不使用特征选择。
? 将一个 CHAID 节点连接到类型节点,将另一个连接到特征选择模型块。 ? 打开每个 CHAID 节点,选择“构建选项”选项卡,确保在“目标”窗格中选中了选项构建新模型、构建单个树和启动交互会话。
在“基本”窗格上,确保将最大树深度设置为 5。
? 执行使用数据集中所有预测变量的 CHAID 节点(即连接到“类型”节点的节点)。当节点执行时,注意观察执行节点所用的时间。表会显示在结果窗口中。
? 从菜单中,选择树 > 生长树,可生成并显示展开的树。
? 现在,对另一个 CHAID 节点(此节点仅使用 10 个预测变量)执行相同的操作。打开树构建器后再次生成树。
共分享92篇相关文档