6.5.1 示例1_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生科幻网

书名：统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）
作者名：(美)布鲁斯·拉特纳
本章字数：624字
更新时间：2021-09-26 16:15:41

6.5.1　示例1

我们看看第4章讨论的来自真实例子的两个变量HI_BALANCE（个人信用卡交易最高余额）和RECENCY_MOS（上次购买至今间隔的月数）。SRD数据挖掘流程包括以下两步：

1）将变量HI_BALANCE和RECENCY_MOS的值分别排序，并分别用于定义排序值变量rHI_BALANCE和rRECENCY_MOS。可以由大到小，也可以由小到大。

2）对这两个已经排序的变量进行对称处理。

这一步采用SAS程序RANK，如下。这个程序用来创建排序值变量rHI_BALANCE和rRECENCY_MOS。选项“normal=TUKEY”用于进行对称化处理。输入数据是DTReg，输出数据（如，对称的排序数据）是DTReg_NORMAL。SAS程序如下：

示例1的讨论

1）图6.2和图6.3分别是HI_BALANCE和rHI_BALANCE的茎叶图和箱线图。HI_BALANCE和rHI_BALANCE的偏度值分别是1.0888和0.0098。

2）图6.4和图6.5分别是RECENCY_MOS和rRECENCY_MOS的茎叶图和箱线图。RECENCY_MOS和rRECENCY_MOS的偏度值分别是0.0621和-0.0001。

3）注意：茎叶图变成了直方图，这是因为样本量很大，有2000个。这个图形提供了分布形状的细节特征。

我承认自己有点犹豫，为了推进SRD方法，我只选择了对顺序数据进行处理，把重新编码的数值当成区间数据。

图6.2　HI_BALANCE的茎叶图和箱线图

图6.3　rHI_BALANCE的直方图和箱线图

图6.4　RECENCY_MOS的直方图和箱线图

对数据进行对称化处理确实有助于校直数据。在无散点图的情况下，两对变量（HI_BALANCE和RECENCY_MOS以及用SRD法重新表述的变量rHI_BALANCE和rRECENCY_MOS）的相关系数分别为-0.6412和-0.100 63（见表6.1和表6.2）。所以说，SRD法改善了两个原始变量的预测关系，改善程度达到56.9%（=abs（-0.100 63）-abs（-0.064 12））/abs（-0.064 21）），其中abs=绝对值，即省去负号。总之，变量对（rHI_BALANCE，rRECENCY_MOS）比原来的那对变量具有更高的预测能力，为建模过程提供了更大空间。

图6.5　rRECENCY_MOS的直方图和箱线图

表6.1　HI_BALANCE和RECENCY_MOS的相关系数

表6.2　rHI_BALANCE，rRECENCY_MOS的相关系数