- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 185字
- 2021-09-26 16:15:44
7.3 关键点
使用多个变量会在两方面增加数据挖掘的成本:
1)处理多个数据需要更多时间和空间。这种情况是每个数据挖掘工程师都知道的。
2)通过多个预测变量对因变量Y进行建模,得到多个系数的拟合结果,如果充分地拟合Y使用的变量较少,则预测的Y具有较大的误差方差。
所以,通过将多个预测变量重新表述为几个新变量,数据挖掘工程师节省了时间和空间,更重要的是,降低了被预测变量Y的误差方差。