- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 983字
- 2021-09-26 16:16:12
11.5 SOW_q模型的定义
我们用4个预测变量对SOW_q进行加权逻辑斯谛回归。Y等于1和0的观察值分别以SOW_q和1-SOW_q为其权重系数。
所用的预测变量定义如下:
1)BAL_TO_LIMIT是截至2016年4月30日的余额,即建模的2016年5月的前一个月。
2)PAY_AMOUNT_1是建模月份之前一个月,商业客户所支付的金额。
3)PAY_AMOUNT_2是建模月份之前两个月,商业客户所支付的金额。
4)PAY_AMOUNT_3是建模月份之前三个月,商业客户所支付的金额。
SOW_q模型的最大似然估计值见表11.6,表中列出了变量的符号和统计显著性水平,p值非常小。
表11.6 SOW_q模型的最大似然估计值
计算SOW_q的logit值用到公式11.1的参数估计方法。这个logit值被代入公式11.2,以得出Prob(SOW_q)。
在讨论SOW_q模型的结果之前,先回到11.3.1节提到的问题:客户18065、客户2060和客户20947具有同样的品类使用状态。我们感兴趣的是,这些客户是否具有相同的SOW_q值,如果不相等,它们的SOW_q值之间相差多少。下面的结果给出了答案:
1)对于客户18065,预计SOW_q=0.267 35。
2)对于客户2060,预计SOW_q=0.442 67。
3)对于客户20947,预计SOW_q=0.259 67。
这个结果并不令人意外,因为类似的交易状况不一定意味着支出的金额和总金额是相似的,而这两者都会影响SOW_q。
SOW_q模型结果
表11.7的十分位分析清楚展示了这个SOW_q模型的性能和结果[1]。在十分位(DECILE)栏,这是一个不需要计算的标记符,对应的其他5栏是数字。根据logit值(或Prob(SOW_q)),将商业客户从高到低分为十个相等大小的组(十分位)。其余五列分别为:
1)样本量是30 000,有9302个客户Y=1。所以CUM SOW_q是31.0,见第5列最下一个十分位组。
2)第4列MEAN SOW_q(%)是该十分位组的SOW_q平均值。通过最上面一组均值(54.4%)和最下面一组均值(24.0%)可以计算出比值2.27。它表明这个模型对商业客户的分辨力是不错的。
3)最后一列CUM LIFT(%)表示这个模型的性能表现。最上面一组的累积提升度(CUM LIFT)是176,意思是这个模型识别的前10%商业客户的平均SOW_q值是商业客户SOW_q均值31.0的1.76倍(即超过了76%)。
4)前20%商业客户的累积提升度(CUM LIFT,%)是153,表明这个模型识别的前20%商业客户的平均SOW_q值是商业客户SOW_q均值31.0的1.53倍(即超过了53%)。
5)对于其他十分位组,累积提升度(CUM LIFT,%)值的解释是类似的。
总之,SOW_q模型具有显著的分辨力,能够识别出具有较大SOW_q值的最佳客户,以进行有效的目标营销活动。
表11.7 SOW_q模型的十分位分析
[1] 第26章全面详细介绍了十分位分析的使用和说明方法。实际上,读者可以快速浏览一遍第26章,然后回到这一节,或者看一遍这里的模型结果,然后在读完第26章之后,再重新看看这一节。