第2章 特征选择

数据的特征维度比数据数量更大的时候就容易发生过拟合,解决此问题的一个思路就是减少数据的特征维度,我们将这里的特征选择定义为变量选择,以区别于特征提取(见第6章),以此来排除无关特征和多余特征的干扰,一方面来达到更好的泛化性能,另一方面可以减少模型的复杂度和计算量。在工业界的实际使用中,有一句话广为流传:特征工程决定了算法的上界。

进行特征选择的对象主要有两个,一个是无关特征,它对数据目标值的预测没有贡献,另一种是多余特征,它所提供的信息已经包含在其他的特征之中,在机器学习中,我们通常使用包裹法、过滤法、嵌入法这3种方法来实现变量的选择,此外,logistic回归和树模型均可以对特征的重要程度进行排序,也可以实现特征选择的目的(见第4章和第10章)。