10.15.4 数据挖掘工作小结

从以上比较中,我们得出以下结论:

1)EDA模型的整体预测质量优于非EDA模型,因为EDA模型的平滑残差散点图是零图,而非EDA模型不是。

2)EDA模型的预测误差比非EDA模型的更小,因为前者的平滑残差的分布较集中(更小的极差和标准差)。此外,与非EDA模型相比,EDA模型具有更高的整体预测质量,因为其预测偏差较小(得分组和十分位组的平滑实际值和预测值具有较大的相关系数)。

3)我的结论是包含FD2_RCP、MOS_OPEN和MOS_DUM的3变量EDA模型优于包含FD2_OPEN和MOS_OPEN的2变量非EDA模型。

作为改善EDA模型的最后一个尝试,我们在下一节讨论数据挖掘的最后一个候选预测变量FD_TYPE。