- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 528字
- 2021-09-26 16:15:45
7.7 一个不常见示例
这个不常见示例的用处是检查思考一个分类预测变量R_CD的流程,它具有64个不同值,由6个二值变量(X1,X2,X3,X4,X5,X6)定义,包含在一个二值RESPONSE预测模型之中。
经典方法是构建(63个)哑变量,并检验模型里包括的这些哑变量,而不考虑这些哑变量并不是显著的。这种做法是有问题的:把这个模型中的所有哑变量加入会增加噪声和模型的不可靠性,因为不显著的变量充满噪声。直观地说,一大组不可分割的哑变量在模型构建中造成了困难,因为它们很快“填充”了模型,没有为其他变量留出空间。
一个替代方法是拆解这个哑变量集合。即使哑变量不被视为一个集合,不管变量选择使用何种方法,模型中仍然存在过多哑变量[1]。对于经典方法来说,这种做法仍然会导致过多哑变量被用于模型之中,导致其他可供选择的预测变量无法被纳入模型。
还有两种方法可以用于检验纳入模型中的类别变量。一种是对类别变量进行平滑处理,我们将在第10章的一个案例中介绍这种方法。(到目前为止,我们还没有给出这种平滑类别变量的背景介绍。)另一种是PCA数据挖掘程序,这种方法有效、可靠而且易于使用。我们在下一节介绍这个程序,其中PCA的使用效果基于6个基本变量X1,X2,X3,X4,X5,X6。
[1] 通常,哑变量基于非常少量的个体能够反映0%到100%的应答率。