- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1046字
- 2021-09-26 16:16:03
10.14.2 基于十分位组的平滑预测与实际值散点图
基于十分位组的平滑预测与实际值散点图是十分位组的平均实际回应和平均预测回应的散点图。十分位组是10个同样大的类,每个组包含了LRM的预测回应值。
与大多数数据库模型不同的是,按十分位进行分组不是对数据进行任意分区,而是按照十分位构建和验证。制作十分位上的平滑预测与实际值散点图的步骤如下:
1)按照10.2.2节的方法,通过增加logit预测值,给数据打分。
2)按照10.2.2节的方法,将logit预测值转换成应答率预测值。
3)确定十分位分组。将预测回应值按照由大到小的顺序排列。把排列好的数据分成一样大小的10份。第一组包含最大的平均预测回应值,标上“1”(顶);下一组标上“2”,以此类推。最后一组包含最小的平均预测回应值,标上“10”(底)。
4)对于每个组,计算平均(平滑)实际回应值和平均(平滑)预测回应值,得出10对平滑点子(平滑实际回应值,平滑预测回应值)。
5)画出十分位分组的平滑点子散点图,标上所属的分组号。
6)在图上画出一条45°直线。这条线是参照,用来评估十分位分组上的预测质量。如果这些平滑点子按顺序排列在这条线上,或者紧紧围绕着这条线(由顶到底,或由底到顶),则预测质量通常是不错的。
7)确定这些平滑点子贴近这条直线的程度。用平滑实际值和预测回应值的相关系数客观评估这个平滑散点图。这个相关系数作为相对这条直线离散程度的度量指标。相关系数越大,离散程度越小,从而整体预测质量就越好。
8)正如10.6.3节所述,基于“大”点子的相关系数也会更大,作为个体层面r值的一个粗略估计值。根据平滑实际回应点和平滑预测回应点计算的相关系数是这个模型的个体层面预测质量的一个粗略指标。这个相关系数是选择好模型的最好的一个对比指标。
十分位组平滑预测与实际值散点图示例
我们基于表10.15画出十分位组的平滑预测与实际值散点图,以确定3变量模型的预测质量。图10.12上的10个平滑点相对45°线的离散程度最小,但有两个例外。4和6这两个十分位组看上去离这条线最远(测量垂直距离)。8,9和10这三个十分位组与这条直线的垂直距离逐渐缩小,表明对这三个组的预测质量是一样的。标志是这个模型无法在最小回应个体之间做出区分。但是,由于回应模型在使用过程中通常会排除掉最低的3到4个十分位组,所以点子偏离45°线和排序乱在评估预测质量方面不是一个重要特征,整体预测质量还是不错的。
表10.15 平滑点的十分位组(基于FD2_RCP、MOS_OPEN、MOS_DUM的模型)
这个散点图的描述性统计量是这些平滑点之间的相关系数rsm.actual,sm.predicted:decilegroup等于0.972。
图10.12 3变量(FD2_RCP、MOS_OPEN和MOS_DUM)模型基于十分位组的平滑预测与实际值散点图