- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1187字
- 2021-09-26 16:16:02
10.14.1 得分组的平滑残差散点图
得分组的平滑残差散点图是用得分组的平均残差和平均预测回应做成的散点图,是由预选变量——通常是模型的预测变量的独特取值确定的。
例如,对于三变量模型来说,一共有18个得分组:FD2_RCP的3个值乘以MOS_OPEN的6个值。MOS_DUM的2个值不特殊,因为它们和MOS_OPEN的部分值相同。
制作得分组的平滑残差散点图的步骤和解读如下:
1)按照10.2.2节的方法,用logit预测值给数据打分。
2)按照10.2.2节的方法,将logit预测值转换成应答率预测值。
3)计算个体的残差(误差):残差=实际回应值-应答率的预测值。
4)根据预选变量给出的独特数值确定得分组。
5)对于每个得分组,计算平均(平滑)残差和平均(平滑)回应预测值,得出平滑数据对(平滑残差,平滑回应预测值)。
6)画出得分组的平滑点散点图。
7)沿着均值残差=0画一条直线。这条零线作为一条参考线,用于判断散点图上是否存在一般趋势。如果这个平滑残差散点图和理想的或零图(即所有点子围绕着零线随机分布,其中一半点子在零线之上,其他点子在零线之下)相像,则可以得出平滑残差中不存在一般趋势,得分组层面的预测值总体上是良好的。由此可以推断在个体层面上,这些预测值一般也是良好的。
8)检查这个平滑残差图是否与随机散布之间存在明显不同。
检查充其量是一项主观的工作,因为模型构建者在寻找所需的东西上本来就是不知情的。为了帮助客观地检验平滑残差图,我们使用第3章讨论的一般关联性检验,确定平滑残差图是否等价于零图。
9)如果这个平滑残差图是零图,就找出其局部模式。通常能够找到由一些平滑点形成的局部的波浪形态,但是不会在零图上出现涟漪效应。局部模式表明模型存在弱点,由此得出的得分组的预测是有偏的。
得分组的平滑残差散点图案例
我们做出得分组的平滑残差散点图,用于判断3变量(FD2_RCP、MOS_OPEN、MOS_DUM)模型的预测质量。图10.11与第3章讨论的基于一般关联性检验的零图是等价的。所以说,整体预测质量是不错的。换言之,TXN_ADD的预测值与TXN_ADD的实际值大致相等。
图10.11 3变量(FD2_RCP、MOS_OPEN、MOS_DUM)模型得分组的平滑残差散点图
容易看到但不容易理解的是(目前的分析)图形右下方的由4个得分组定义的局部形态(以1~4标识)。
该局部形态清楚地表明这些平滑残差值是负的。这个局部形态显示了模型中的一个弱点,因为它对四个得分组中的个体的预测有一个正偏差;也就是说,他们预测的TXN_ADD往往大于实际的TXN_ADD。
如果这个模型在使用时可以将有弱点的个体当作“例外”,则模型的表现会得到改善。例如,回应模型通常因为对新客户的有限信息和不活跃客户的过时信息而带有预测偏差。所以,如果模型在应用于招标数据库时可以包含例外规则(比如新客户总是被制订到最高的十分位),而将不活跃客户放在中间的十分位上,则预测的整体质量会被提高。
为了便于后面的讨论,这个3变量模型按得分组所做的平滑残差散点图的描述统计量是:(1)对于平滑残差来说,最小值和最大值以及极差分别为-0.26、0.16和0.42;(2)标准差是0.124。