- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1807字
- 2021-09-26 16:15:34
4.5 用更平滑的散点图进行基于CHAID的数据挖掘
我用HI_BALANCE和RECENCY_MOS这两个前面提到的变量画出一幅更平滑的散点图来说明CHAID模型。基于CHAID的更平滑散点图的基本特征是:这个CHAID模型只包含了一个预测变量。我用HI_BALANCE对RECENCY_MOS做回归,建立了一个CHAID回归树模型。采用的停止规则是最少的分割节点为10,树的最大层数为3。图4.3的CHAID回归树模型可以这样看:
1)节点1,HI_BALANCE是33.75,样本量为2000。
2)节点1分出了节点2和3。
a.节点2包括的个体的RECENCY_MOS≤319.048 36,HI_BALANCE是35.46,节点数量为1628。
b.节点3包括的个体的RECENCY_MOS>319.048 36,HI_BALANCE是26.26,节点数量为372。
3)节点3分出了节点10和11。与上面的2a和2b类似。
4)节点11分出了节点14和15,也与上面的2a和2b类似。
5)分割标准对于其他8个节点不满足:4~9,12,13。
图4.3 HI_BALANCE和RECENCY_MOS的CHAID树
对这种示意性CHAID树状图的通常解释与简单CHAID模型(具有一个预测变量)一样,但是这样的解释没有太大意义。基于单一变量RECENCY_MOS的解释和预测HI_BALANCE需要更全面一些,要得到这个变量更准确的预测值,需要更多预测变量。然而,简单CHAID模型对于我们建议的方法来说,在学术上并不很严格。
对这个简单CHAID模型的独特解释是我们建议的基于CHAID的数据挖掘的更平滑散点图——基于CHAID的平滑的核心。这个CHAID模型的终端节点指的是终端节点分片,根据用户的设计,可以有各种分法(数以百计)。这些分片的准确度相当高,因为它们是由一个计算X变量的CHAID模型预测(拟合)的。经过回归,这些分片变成了10个CHAID分片。这个X变量的CHAID分片显然生成了比X轴任意分片(sm_X来自平滑散点图)的X值更准确(更平滑)的值(基于CHAID的sm_X)。由此可见,CHAID分片可以得出比对X轴任意分片(sm_Y来自平滑散点图)更平滑的Y值(基于CHAID的sm_Y)。总而言之,CHAID分片产生的基于CHAID的sm_X要比sm_X更平滑,基于CHAID的sm_Y要比sm_Y更平滑。
要注意的是,图4.3的示意性CHAID树不包含多个终端节点分片。但是在这一节,我请读者假定CHAID树具有多个终端节点,这样我就可以进一步介绍基于CHAID的平滑方法了。真正的基于CHAID的平滑法的图示在下一节能看到,我们将看到终端多达数百个。
我们继续用图4.3的CHAID树理解基于CHAID的平滑法。X轴上的RECENCY_MOS的CHAID分片得出了更平滑的HI_BALANCE值——基于CHAID的SM_HI_BALANCE,比对X轴RECENCY_MOS进行任意分区得出的平滑HI_BALANCE值更平滑。换言之,基于CHAID的SM_HI_BALANCE具有更少的云团,也更平滑。下面列出的几点可以帮助读者理解云团和平滑概念,以及基于CHAID的平滑法的工作机理:
1)数据点/值=可信值+误差,这是统计学理论。
2)数据值=预测/拟合值+残差,这是应用统计学。
a.去掉残差。
b.对于一个构建良好的模型,拟合值是非常重要的。
3)数据值=拟合值+残差,进一步澄清了第2条。
4)数据=平滑值+云团,这是图基的探索性数据分析(EDA)提出的[1]。
a.去掉云团。
b.对于一个构造良好的模型,平滑值会变大/更准确。
5)数据=每个分片的平滑值+每个分片的云团,这是CHAID模型。
a.去掉每个分片的云团。
b.对于一个构建良好的CHAID模型,每个分片的平滑值是相当准确的。
为了更好地讨论这个问题,我把作为预测变量的因变量记作标准变量对(Xi,Yi)。然而,当评估两个变量之间的关系时,并不存在因变量-自变量框架,使用的一对标准变量记为(X1i,X2i)。所以,分析逻辑需要建立第二个CHAID模型:RECENCY_MOS对HI_BALANCE回归,得出具有平滑RECENCY_MOS值(基于CHAID的SM_RECENCY_MOS)的终端节点。基于CHAID的SM_RECENCY_MOS的值比对HI_BALANCE任意分片得到的RECENCY_MOS值更平滑。
更平滑散点图
图4.4是HI_BALANCE和RECENCY_MOS基于CHAID的更平滑的散点图。每个分片的SM_HI_BALANCE和SM_RECENCY_MOS值以数字0到9做标签,见表4.2。可以看到这幅图主要反映了线性关系,只是在中间(3~6)出现了跳跃,0略低于趋势线,更光滑的散点图并没有改善HI_BALANCE或RECENCY_MOS。测试原变量能否纳入模型就是看这两个变量(其中一个或两个)纳入最终模型的形态如何。为了避免大家忘记,数据分析师比较了更平滑散点图和一般平滑散点图的结果。
图4.4 基于CHAID的RECENCY_MOS和HI_BALANCE的更平滑散点图
表4.2 CHAID分片得到HI_BALANCE和RECENCY_MOS更平滑的值
图4.5基于RECENCY_MOS对HI_BALANCE回归模型,很难从上面看到什么。在这幅图上有181个终端节点,它们是由每个最小规模节点再分出10个节点组成的,树的最大层数是10。我们在图的中间可以看到节点1(顶上正中位置),将这部分展开,见图4.6。如果全部展开的话,需要9页纸,所以只截取了其中一部分。基于HI_BALANCE对RECENCY_MOS所做的完整回归见图4.7,上面有121个终端节点,它们是由每个最小规模节点再分出10个节点组成的,树的最大层数是14。
图4.5 CHAID回归树:基于RECENCY_MOS对HI_BALANCE回归
图4.6 CHAID回归树的中间部分:基于RECENCY_MOS对HI_BALANCE回归
图4.7 CHAID回归树:基于HI_BALANCE对RECENCY_MOS回归
从图中间的节点1(顶部正中间位置)展开,见图4.8,如果全部展开的话,可以铺满4页纸。