前言

大数据是现代社会高科技发展的产物,相对于传统的数据分析,大数据是海量数据的集合,它以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心,正广泛地应用在经济、军事、金融、环境保护、通信等各个行业。在信息时代,数据即是资源。数据可靠无误才能准确地反映现实状况,有效地支持组织决策。但是,现实世界中的“脏”数据无处不在,数据不正确或者不一致会严重影响数据分析的结果,从而产生消极作用,因此系统地学习大数据清洗的知识十分有必要。

本书以理论和实践操作相结合的方式深入地讲解了数据清洗技术的基本知识和实现,在内容设计上既有适合课堂教学的理论讲解部分,包括详细的理论与典型的案例;又有大量的实训环节,双管齐下,极大地激发了学生在课堂上的学习积极性与主动创造性,让学生在课堂上跟上老师的思维,从而学到更多有用的知识和技能。

本书共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。

本书特色如下:

(1)采用“理实一体化”教学方式,既有理论讲解又有让学生独立思考和上机操作的内容。

(2)配有丰富的教学资源,包括重难点微课视频、教学课件、源代码和数据集、习题答案等。

(3)紧跟时代潮流,注重技术更新,涉及当前最新的大数据清洗知识及开源库与开源工具的使用。

(4)作者都具有多年的教学经验,能够把握数据清洗教学中的重难点,激发学生的学习热情。

本书可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。

本书建议学时为60学时,具体分配如表所示:

本书由黄源和涂旭东担任主编,陈继和吴文灵参与编写。其中,黄源编写了第3章、第4章、第6章;涂旭东编写了第5章、第7章、第8章;陈继和黄源共同编写了第1章;吴文灵和黄源共同编写了第2章。全书由黄源负责统稿工作。

本书是校企合作共同编写的结果,在编写过程中得到了重庆翰海睿智大数据科技股份有限公司的大力支持,在此表示感谢。

在编写过程中,我们参阅了大量的相关资料,在此一并表示感谢。

由于编者水平有限,书中难免出现疏漏,衷心希望广大读者批评指正,来信可发送到作者电子邮箱:2103069667@qq.com。

编者