- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 413字
- 2021-09-26 16:15:58
10.7.2 INVESTMENT的重述
LGT_TXN和INVESTMENT的散点图见图10.5,可以看到这些点的形状类似直线,有负的斜率,在中间的几个点3,4,5略有突起。这种突起属于图10.3的第三象限的类型。所以,我们采用向下幂阶梯法,得出INVESTMENT的平方根,标记为INVEST_SQRT。INVESTMENT取其常用对数,标记为INVEST_LOG。INVESTMENT的负倒数平方根标记为INVEST_RPRT。
图10.5 INVESTMENT的logit值散点图及其重述变量后的散点图
INVESTMENT的倒数标记为INVEST_RCP,INVESTMENT平方的倒数记为INVEST_RSQ。这些重述变量的LGT_TXN的logit值散点图和INVESTMENT原来的散点图见
图10.5。我们可以从图上看到,INVEST_SQRT散点图上是一条直线。从指标上看,INVEST_LOG的相关系数也是最大的,从统计角度证明对一个以金额为单位的变量取对数函数是合适的重述方法。由表10.10可看到,INVEST_LOG和INVEST_SQRT的相关系数分别为-0.978和-0.966。不可否认,相关系数没有反映出显著的差异。
表10.10 LGT_TXN和INVESTMENT重述变量的相关系数
我选择INVESTMENT最好的重述变量是INVEST_LOG,因为我更看重它的统计指标。只有在出现INVEST_LOG和INVEST_SQRT的相关系数有明显差别时,我才会放弃参考这个统计指标。INVEST_LOG在校直数据方面比原变量INVESTMENT(r=-0.946)改善了3.4%(=(0.978-0.946)/0.946,尽管符号为负)。