- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 717字
- 2021-09-26 16:15:56
10.4 logit值和logit散点图
LRM属于线性模型一族,进一步假设在给定预测变量和logit值之间存在线性或者直线关系。建模者应该记得,线性这个形容词指的是一个明确的事实——logit值是加权预测变量之和,权重是回归系数。但是,在实践中,这个词指的是我们上面的假设。检查这个假设是否成立,需要用到logit散点图。logit散点图是二值因变量(即回应变量)与预测变量的散点图。作图步骤为:
1)计算回应变量相对预测变量值的均值。如果预测变量取值有10个以上的不同值,则采用典型值,比如平滑十分位值,定义见第3章。
2)计算回应变量的logit值,将回应变量平均值转换为回应变量的logit值的公式为
logit=ln(mean/(1-mean)),其中ln为自然对数。
3)画出回应变量logit值和预测变量原值或平滑十分位值的散点图。
需要注意的是:这个散点图是总量层面的,它不是个体层面的散点图。这个logit值是基于众多回应值的平均值的一个总量指标。而且,通过采用平滑十分位数值,这个散点图变成基于代表样本10%的每个十分位数值的总量指标。我在第43章提供了生成平滑logit值散点图和平滑概率散点图的SAS子程序。
本章案例的logit值
对于本章的案例,回应变量是TXN_ADD,TXN_ADD的logit值命名为LGT_TXN。为方便起见,我从候选预测变量FD1_OPEN开始(如表10.7)可以取不同的值1,2或3。通过对每个FD1_OPEN做3步处理,得到图10.2,LGT_TXN的logit值散点图。我计算TXN_ADD的平均值,并用均值-logit值转换公式,例如,对FD1_OPEN=1,TXN_ADD的平均值是0.07,LGT_TXN的logit值是-2.4(=ln(0.07/(1-0.07))。最后,用LGT_TXN的logit值和FD1_OPEN值画出散点图。
图10.2 FD1_OPEN散点图
表10.7 FD1_OPEN
散点图10.2不表示LGT_TXN和FD1_OPEN之间存在直线关系。为了正确使用LRM,我需要将其处理成直线关系。校直数据的一个非常有效且简单的方法是重新表述,也就是使用图基的幂阶梯法和突起规则。在详细介绍这个方法之前,应该先讨论一下直线关系或校直数据的重要性。