7.3 关键点

使用多个变量会在两方面增加数据挖掘的成本:

1)处理多个数据需要更多时间和空间。这种情况是每个数据挖掘工程师都知道的。

2)通过多个预测变量对因变量Y进行建模,得到多个系数的拟合结果,如果充分地拟合Y使用的变量较少,则预测的Y具有较大的误差方差。

所以,通过将多个预测变量重新表述为几个新变量,数据挖掘工程师节省了时间和空间,更重要的是,降低了被预测变量Y的误差方差。