10.11 案例的重要变量_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生武侠网

书名：统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）
作者名：(美)布鲁斯·拉特纳
本章字数：580字
更新时间：2025-03-01 06:00:59

10.11　案例的重要变量

评估变量的第一步是为研究的数据确定LL基准值。TXN_ADD的不带变量的LRM生成表10.11的两个基本信息：

1）这个案例里的基准是-2LL，等于3606.488。

2）LRM的定义见式10.12：

表10.11　TNX_ADD的逻辑斯谛回归程序

上表中的信息很有趣，从中可以看到两个有用的统计特征：

1）对式10.12两边进行求幂运算，得到应答率0.1358。回忆一下，求幂是一种数学运算，就是将被计算的对象当作指数，对logit求幂就得到了概率，等式右边对-1.9965求幂，得到0.1358，见式10.13～式10.15。

2）（TNX_ADD=1）的概率也称作RESPONSE应答率，通过计算上式中odds除以1+odds很容易得出结果，其含义是RESPONSE的最佳估计值——在没有信息或变量情况下——是11.9%，这就是邮件的平均回应水平。

预测变量的重要性

根据LL基准值3606.488，我们评估一下5个变量的重要性：MOS_OPEN、MOS_DUM、FD1_RCP、FD2_RCP和INVEST_LOG。我们从MOS_OPEN和MOS_DUM开始，因为这两个变量必须同时在模型里，我们用MOS_OPEN和MOS_DUM对TXN_ADD进行逻辑斯谛回归。结果见表10.12。

从式10.9可得出G值为107.022（=3606.488-3499.466）。自由度等于变量的数目，df是2。相应地，G/df等于53.511，大于标准G/df值4。所以，MOS_OPEN和MOS_DUM对于TXN_ADD都是重要的预测变量。

表10.12　预测变量的G值和df值

根据式10.8，其他变量的G/df值也都大于4（表10.12）。所以说，TXN_ADD的这5个重要预测变量组成了预测TXN_ADD的一个初始子集合。至于FD_TYPE，则放在10.16节讨论。

我们用这个初始子集合构建一个初始模型对TXN_ADD进行回归，结果见表10.13。根据式10.9，这5变量子集合的G/df值是40.21（=201.031/5），远大于4。所以，这是预测TXN_ADD的重要变量的初始子集合。