- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 341字
- 2021-09-26 16:16:08
10.17.4 其他数据挖掘工作的总结
以上比较分析的结论如下:
1)3变量EDA和4变量EDA模型的总体质量都是不错的,两种模型都有平滑残差零散点图。值得注意的是,后者有一个非常小的弱点(FO得分组约占这个数据的1.1%)。
2)3变量EDA模型的预测误差要比4变量EDA模型的小,因为前一种模型的平滑残差有较小的极差和标准差。3变量EDA模型的整体预测水平与4变量EDA模型相当或者更好,因为它具有同等甚至更小的预测偏误(对于十分位组/得分组的平滑实际值和预测值之间具有相当或更大的相关系数)。
3)如果这个模型的应用可以兼容这个FO缺陷,则4变量EDA调整FO之后的模型有更小的误差,整体预测质量更高。
4)总之,我更看重包含MOS_OPEN、MOS_DUM、FD2_RCP的3变量EDA模型,因为异常得分组可以得到有效处理和可靠使用,我偏向于使用包含MOS_OPEN、MOS_DUM、CH_FTY_1和CH_FTY_2的4变量EDA模型。