- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 580字
- 2021-09-26 16:16:00
10.11 案例的重要变量
评估变量的第一步是为研究的数据确定LL基准值。TXN_ADD的不带变量的LRM生成表10.11的两个基本信息:
1)这个案例里的基准是-2LL,等于3606.488。
2)LRM的定义见式10.12:
表10.11 TNX_ADD的逻辑斯谛回归程序
上表中的信息很有趣,从中可以看到两个有用的统计特征:
1)对式10.12两边进行求幂运算,得到应答率0.1358。回忆一下,求幂是一种数学运算,就是将被计算的对象当作指数,对logit求幂就得到了概率,等式右边对-1.9965求幂,得到0.1358,见式10.13~式10.15。
2)(TNX_ADD=1)的概率也称作RESPONSE应答率,通过计算上式中odds除以1+odds很容易得出结果,其含义是RESPONSE的最佳估计值——在没有信息或变量情况下——是11.9%,这就是邮件的平均回应水平。
预测变量的重要性
根据LL基准值3606.488,我们评估一下5个变量的重要性:MOS_OPEN、MOS_DUM、FD1_RCP、FD2_RCP和INVEST_LOG。我们从MOS_OPEN和MOS_DUM开始,因为这两个变量必须同时在模型里,我们用MOS_OPEN和MOS_DUM对TXN_ADD进行逻辑斯谛回归。结果见表10.12。
从式10.9可得出G值为107.022(=3606.488-3499.466)。自由度等于变量的数目,df是2。相应地,G/df等于53.511,大于标准G/df值4。所以,MOS_OPEN和MOS_DUM对于TXN_ADD都是重要的预测变量。
表10.12 预测变量的G值和df值
根据式10.8,其他变量的G/df值也都大于4(表10.12)。所以说,TXN_ADD的这5个重要预测变量组成了预测TXN_ADD的一个初始子集合。至于FD_TYPE,则放在10.16节讨论。
我们用这个初始子集合构建一个初始模型对TXN_ADD进行回归,结果见表10.13。根据式10.9,这5变量子集合的G/df值是40.21(=201.031/5),远大于4。所以,这是预测TXN_ADD的重要变量的初始子集合。