第4章 构建良好的训练数据集——数据预处理

数据的质量及其所包含的有价值信息是决定机器学习算法优劣的关键。因此,在将数据集提供给机器学习算法之前,确保对数据集的检查和预处理非常关键。本章将讨论必要的数据预处理技术,以帮助建立良好的机器学习模型。

本章将主要涵盖下述几个方面:

  • 去除和填补数据集的缺失值。
  • 将分类数据转换为适合机器学习算法的格式。
  • 为构造模型选择相关的特征。