- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 679字
- 2021-09-26 16:16:07
10.17.1 基于得分组的平滑残差散点图:4变量EDA模型与3变量EDA模型对比
图10.18是4变量EDA模型的基于得分组的平滑残差散点图,根据一般关联性检验结果,它等同于零散点图。所以,这个模型的总体预测质量是不错的。值得注意的是,在图的中上部有一个标记为FO的异常点。这个平滑残差点对应着一个包含56个样本的得分组(占数据的1.1%),这是薄弱区域。
图10.18 4变量(MOS_OPEN、MOS_DUM、CH_FTY_1、CH_FTY_2)EDA模型基于得分组的平滑残差散点图
这个基于得分组的平滑残差散点图(4变量模型)的描述统计量如下:平滑残差的最小值和最大值、极差分别是-0.198,0.560和0.758;平滑残差的标准差是0.163。这些统计值是根据除FO点之外的平滑点计算出的,由于这些统计值对异常点很敏感,所以值得我们留意,尤其是在它们是经过平滑的点,而且占数据比例较小的时候。对于FO调整后的平滑残差,最小值、最大值和极差分别是-0.198,0.150和0.348,标准差是0.093。
对比3变量EDA和4变量EDA模型的平滑残差,可以发现3变量EDA模型的平滑残差会小一点。3变量EDA模型的平滑残差的区间明显比后者小:44.6%(=(0.758-0.42)/0.758)。3变量EDA模型的平滑残差的标准差明显比4变量EDA模型小23.9%(=(0.163-0.124/0.163)。这说明这些带有FD_TYPE信息的基于CHAID的哑变量对于3变量EDA模型做出更好预测没有起到重要作用。换言之,这个3变量EDA模型不具备更佳的预测质量。
尽管如此,如果应用TXN_ADD模型可以接受FO得分组/薄弱区域的例外规则,那么4变量EDA的调整FO模型的预测质量会比4变量EDA模型更优。这个4变量EDA调整FO模型的平滑残差比4变量EDA模型更小,它的平滑残差的极差要比3变量EDA模型小:17.1%(=(0.42-0.348)/0.42)。这个4变量EDA调整FO模型的平滑残差之标准差明显比3变量EDA模型小25.0%(=(0.124-0.093)/0.124)。