7.7.2 R_CD元素（X1，X2，X3，X4，X5，X6）主成分分析结果_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男频历史网

1）R_CD的6个元素生成了6个主成分变量。PCA事实陈述：k个原始变量往往可以产生出k个主成分变量。

2）前两项R₁和R₂贡献了总变化的80.642%，其中R₁贡献了50.634%。

3）R₁是X₃和X₆与X₂、X₄和X₅的对比。数据挖掘得到的对比是PCA的一个成果。

4）R₃是6个正元素的加权平均值。PCA事实陈述：加权平均的因子也被称作一般化因子，R₃是一个一般化因子，也是PCA数据挖掘法的一个结果。一般化因子通常用于替代一个或者全部原始变量。

5）在表7.5里，变量的顺序是按照与RESPONSE（回应变量）的相关系数的绝对值从大到小排列的。

a.PC变量R₁、R₃、R₄和R₆比原始X变量有更大的相关系数。

b.PCA事实陈述：通常PC变量的相关系数要比一些原始变量的相关系数大。

c.实际上，这是我们采用PCA法的一个原因。

d.只有R₁和R₃具有统计显著性，p值小于0.0001。其他变量的p值介于0.015和0.7334之间。

表7.5　相关系数：RESPONSE、原始变量和按照系数绝对值排序的主成分变量

①p<0.0001。

②0.015<p<0.7334。

我构建了一个RESPONSE（回应）模型，用到的预测变量集合包括6个原始变量和6个主成分变量。（模型的详细情况从略。）我只能展示一个两变量模型，包括（毫不意外地）R₁和R₃。关于这个模型的预测能力：

1）模型识别出了前10%回应最强的个体，应答率24%高于随机模型（即这个数据文件的平均应答率）。

2）这个模型识别出了后10%的回应最弱的个体，应答率68%低于随机模型。

3）所以说，这个模型的预测能力指数（前10%/后10%）为1.8（即124/68）。

这个指数值表明该模型具备中等水平的预测能力，而且我只使用了两个主成分变量。如果在这个预测变量集合汇总增加额外的变量，则构建一个具有更强预测能力的模型是有可能的。而且我相信主成分变量R₁和R₃应该会包含在模型里。

也许有人认为我忘记了第5章提到的直度和对称度的重要性，我要说明一下，主成分变量通常是正态分布，而且由于直度和对称度是同时出现的，所以无须检查R₁和R₃的直度。