- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 302字
- 2021-09-26 16:16:00
10.10.4 不同变量子集合的重要性比较
令子集合A和B分别包含k个和p个变量,每个子集合的变量数量不一定要相等。如果变量同样多,则两个子集合只能有一个变量是一样的。A和B的G变量分别见式10.10和式10.11:
判定两个子集合对于预测回应更重要的决策规则(即更有可能具有预测能力)如下:
1)如果G(k)/k大于G(p)/p,则子集合A是更重要的预测变量子集合;否则,B是更重要的预测变量子集合。
2)如果G(k)/k和G(p)/p相等或比值接近,则两个子集合被看作是同样重要的。建模者应该考虑增加其他指标,以判定哪个子集合更为重要。
有决策规则确定的较重要的子集合显然可以构建更好的模型。当然,这个规则假定G(k)/k和G(p)/p大于G/df标准值4。