1.4.1 数据清洗的主要内容

数据清洗的主要内容包括数据读取、合并、写入,数据检索,数据行列处理,处理数据缺失值、重复值和异常值,制作数据透视表,开展描述性分析和交叉表分析等。

在进行数据清洗之前,我们首先要获得数据,并且将之读取到Spyder(在第2章中详细讲解)或其他Python环境中,然后才能进行数据的加工处理,而获取的数据也可能是多方面的,需要进行必要的合并,加工完成后还需要将新数据导出,这些需求就需要用到对数据的读取、合并、写入等操作。在此基础上,不同应用目标导向下的数据清洗重点会有所差别,针对应用目标为数据统计分析或机器学习而言,数据清洗主要体现在数据检索、对数据进行行列处理以及处理数据的缺失值、重复值和异常值。此外,数据清洗过程通常还涵盖制作数据透视表、开展描述性分析和交叉表分析等内容,以获得数据整体信息,观察数据整体情况。

因为本书介绍的是使用Python(Anaconda平台)开展数据清洗,所以在第3章数据清洗中首先介绍Python数据清洗基础,包括Python函数与模块、numpy模块数组、pandas模块序列、pandas模块数据框、Python的流程控制语句等,然后讲解常见类型数据在Python中的读取、合并、写入,再讲解数据检索、数据行列处理在Python中的实现,接着讲解如何使用Python处理数据缺失值、重复值和异常值,最后讲解如何使用Python制作数据透视表、开展描述性分析和交叉表分析。