- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 624字
- 2021-09-26 16:15:41
6.5.1 示例1
我们看看第4章讨论的来自真实例子的两个变量HI_BALANCE(个人信用卡交易最高余额)和RECENCY_MOS(上次购买至今间隔的月数)。SRD数据挖掘流程包括以下两步:
1)将变量HI_BALANCE和RECENCY_MOS的值分别排序,并分别用于定义排序值变量rHI_BALANCE和rRECENCY_MOS。可以由大到小,也可以由小到大。
2)对这两个已经排序的变量进行对称处理。
这一步采用SAS程序RANK,如下。这个程序用来创建排序值变量rHI_BALANCE和rRECENCY_MOS。选项“normal=TUKEY”用于进行对称化处理。输入数据是DTReg,输出数据(如,对称的排序数据)是DTReg_NORMAL。SAS程序如下:
示例1的讨论
1)图6.2和图6.3分别是HI_BALANCE和rHI_BALANCE的茎叶图和箱线图。HI_BALANCE和rHI_BALANCE的偏度值分别是1.0888和0.0098。
2)图6.4和图6.5分别是RECENCY_MOS和rRECENCY_MOS的茎叶图和箱线图。RECENCY_MOS和rRECENCY_MOS的偏度值分别是0.0621和-0.0001。
3)注意:茎叶图变成了直方图,这是因为样本量很大,有2000个。这个图形提供了分布形状的细节特征。
我承认自己有点犹豫,为了推进SRD方法,我只选择了对顺序数据进行处理,把重新编码的数值当成区间数据。
图6.2 HI_BALANCE的茎叶图和箱线图
图6.3 rHI_BALANCE的直方图和箱线图
图6.4 RECENCY_MOS的直方图和箱线图
对数据进行对称化处理确实有助于校直数据。在无散点图的情况下,两对变量(HI_BALANCE和RECENCY_MOS以及用SRD法重新表述的变量rHI_BALANCE和rRECENCY_MOS)的相关系数分别为-0.6412和-0.100 63(见表6.1和表6.2)。所以说,SRD法改善了两个原始变量的预测关系,改善程度达到56.9%(=abs(-0.100 63)-abs(-0.064 12))/abs(-0.064 21)),其中abs=绝对值,即省去负号。总之,变量对(rHI_BALANCE,rRECENCY_MOS)比原来的那对变量具有更高的预测能力,为建模过程提供了更大空间。
图6.5 rRECENCY_MOS的直方图和箱线图
表6.1 HI_BALANCE和RECENCY_MOS的相关系数
表6.2 rHI_BALANCE,rRECENCY_MOS的相关系数