- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1056字
- 2021-09-26 16:15:59
10.9 MOS_OPEN的重述
在图10.6上,LGT_TXN和MOS_OPEN在MOS_OPEN取值1~6这个区间不是直线,而在1~5之间却是直的。LGT_TXN对MOS_OPEN的logit值散点图在MOS_OPEN=5出现了一个尖角,LGT_TXN在MOS_OPEN=6跳跃。显然,突起规则无法应用。
图10.6 MOS_OPEN的logit值散点图
相应地,在发现了MOS_OPEN的结构之后,我要找到一个组织变量和函数的方法,给出LGT_TXN和MOS_OPEN的理想的线性关系,可以巧妙消除LGT_TXN在MOS_OPEN=6的跳跃。在确定了正确的MOS_OPEN结构之后,我们可以得到TXN_ADD回应模型。
为了讨论MOS_OPEN的结构,根据TXN_ADD和MOS_OPEN的逻辑斯谛回归分析,我们做出LGT_TXN拟合logit值散点图(图10.7)。LRM给出了预测logit值,如下式:
值得注意的是,MOS_OPEN有6个不同的取值。拟合logit值散点图(图10.6)没有表现出原始LGT_TXN的logit值散点图中的关系,MOS_OPEN=6的拟合点太低了。可以确定的是,MOS_OPEN并不是正确的结构,因为无法在原来的logit值散点图里得出合适的形态。
图10.7 MOS_OPEN的拟合散点图
MOS_OPEN的平滑预测与实际值散点图
我们为做出MOS_OPEN的TXN_ADD平滑预测与实际值散点图(图10.8),可以从图上看到我们所说的结构和参考变量。这些平滑预测值来自前面在公式10.4定义的LRM,为方便起见,我们列在这里。
一共有6个平滑点,每个点都标有相应的MOS_OPEN值。这些点在45°线周围离散分布,意味着MOS_OPEN不是一个好的预测性结构,特别是在MOS_OPEN等于1、5、6和4时,相应的平滑点不在45°线附近。点MOS_OPEN=5是可以理解的,因为它可以被看作是跳板在点MOS_OPEN=6跳跃到LGT_TXN。点MOS_OPEN=1距离这条直线最远,我找不到原因。点MOS_OPEN=4与这条直线的距离还在可接受范围之内。
图10.8 MOS_OPEN的平滑预测与实际值散点图
当MOS_OPEN等于2和3时,预测效果看上去不错,因为相应平滑点很接近那条直线。但是在6个预测值里只有两个不错的预测值,准确率才只有可怜的33%。所以MOS_OPEN不是预测TXN_ADD的一个好的结构。如前所述,在图10.6上,我们可以看到MOS_OPEN不是反映LGT_TXN和MOS_OPEN原有关系的正确结构。我们还需要进一步探讨。
MOS_OPEN的主要问题是那个跳跃点。为了说清楚这个跳跃点,创建一个MOS_OPEN哑变量结构,如下:
如果MOS_OPEN=6,则MOS_DUM=1
如果MOS_OPEN不等于6,则MOS_DUM=0
图10.9是一个二阶LGT_TXN拟合logit值散点图,包含了MOS_OPEN和MOS_DUM的结构,基于这个结构对TXN_ADD进行回归,得到了图上的预测logit值点。这个LRM定义如下:
这幅拟合散点图准确反映了TXN_ADD和MOS_OPEN原始关系的形态。其意义在于MOS_OPEN和MOS_DUM可以构建一个反映MOS_OPEN所含内容的正确结构。公式10.6的右侧就是这个结构的定义。
图10.9 MOS_OPEN和MOS_DUM的拟合logit值散点图
为了完成这项探索性工作,我在图10.10里做了第二个TXN_ADD平滑预测与实际值散点图,其中包含了TXN_ADD对MOS_OPEN均值的平均预测logit值点,这些点来自逻辑斯谛回归公式10.6,其中包含了一对预测变量MOS_OPEN和MOS_DUM。
图10.10 MOS_OPEN和MOS_DUM的平滑预测与实际值散点图
MOS_OPEN是参考变量。这些点紧密围绕着45°直线,再次证实由MOS_OPEN和MOS_DUM定义的MOS_OPEN结构得到了确认,这个结构是TXN_ADD的一个重要预测变量。