10.13 案例变量的最佳子集合

我们用5变量子集合MOS_OPEN、MOS_DUM、FD1_RCP、FD2_RCP、INVEST_LOG对TXN_ADD进行逻辑斯谛回归,结果见表10.13。

表10.13 用起始子集合对TXN_ADD进行初步逻辑斯谛回归

FD1_RCP的Wald卡方值4.3686最小,FD2_RCP的卡方值13.8911与FD1_RCP(rFD1_RCPFD2_RCP=0.97)高度相关,这两个变量的卡方值可能不可靠。尽管如此,由于没有其他指标可以参考,我们只能根据这些数值做出判断,删去卡方值较小的变量FD1_RCP。

INVEST_LOG的卡方值11.6557是卡方值第二小的变量。与模型中的MOS_OPEN、MOS_DUM、FD1_RCP、FD2_RCP相比,重要性较小,所以我们从模型中删掉它。因此,初始最佳子集合包含了变量FD2_RCP、MOS_OPEN和MOS_DUM。

我们用3变量子集合(FD2_RCP、MOS_OPEN、MOS_DUM)对TXN_ADD再做一次逻辑斯谛回归,结果见表10.14。MOS_OPEN和FD2_RCP具有较大的Wald卡方值,分别为81.8072和85.7923,显然都远大于4。MOD_DUM的Wald卡方值只有MOS_OPEN的一半,但是将它留在模型里是因为有此需要(回想图10.9和图10.10)。我承认MOS_DUM和MOS_OPEN共享信息可能会影响它们的Wald卡方值的可靠性。实际共享的信息占了42%,表明对其Wald卡方值的可靠性的影响是最小的。

表10.14 用初始最佳子集合对TXN_ADD进行逻辑斯谛回归

我们比较现在这3个变量子集合(FD2_RCP、MOS_OPEN、MOS_DUM)和开始时的5个变量子集合(MOS_OPEN、MOS_DUM、FD1_RCP、FD2_RCP、INVEST_LOG)的重要性。前后两个子集合的G/df值分别是62.02(=186.058/3,表10.14)和40.21(=201.031/5,表10.13)。基于10.10.4节中的决策规则,我们可以认定这3个变量子集合优于5个变量子集合。我们期待由式10.16定义的3变量模型得出TXN_ADD的好的预测结果: