封面
版权页
内容概述
前言
第1章 数据清洗基础
1.1 数据清洗概述
1.2 数据标准化
1.3 数据清洗的常用工具
1.4 实训1 安装和运行Kettle
1.5 实训2 安装和运行OpenRefine
1.6 实训3 安装和运行Python 3
1.7 小结
习题1
第2章 数据清洗方法
2.1 数据质量
2.2 数据预处理
2.3 数据清洗方法
2.4 数据清洗中的统计学基础
2.5 实训1 找出离群点
2.6 实训2 找出统计对象
2.7 实训3 找出数据清洗的步骤
2.8 实训4 找出异常数据
2.9 小结
习题2
第3章 文件类型
3.1 文件格式
3.2 数据类型与字符编码
3.3 数据转换的实现
3.4 实训1 将XML文件转换为JSON文件
3.5 实训2 将JSON文件转换为CSV文件
3.6 小结
习题3
第4章 数据采集与抽取
4.1 数据采集概述
4.2 网页数据采集与实现
4.3 数据抽取
4.4 实训1 使用Kettle抽取本地XML文件
4.5 实训2 使用Kettle抽取CSV数据并输出为文本文件
4.6 小结
习题4
第5章 Excel数据清洗与转换
5.1 Excel数据清洗概述
5.2 Excel数据清洗与转换的实现
5.3 实训1 清洗简单数据
5.4 实训2 清洗复杂数据
5.5 小结
习题5
第6章 ETL数据清洗与转换
6.1 数据仓库与ETL
6.2 Kettle数据清洗与转换基础
6.3 Kettle数据仓库高级应用
6.4 实训1 在Kettle中识别流的最后一行并写入日志
6.5 实训2 在Kettle中用正则表达式清洗数据
6.6 实训3 使用Kettle过滤数据表
6.7 实训4 使用Kettle生成随机数并相加
6.8 小结
习题6
第7章 Python数据清洗
7.1 Python数据清洗基础
7.2 数据读写、选择、整理和描述
7.3 数据分组、分割、合并和变形
7.4 缺失值、异常值和重复值处理
7.5 时间序列处理
7.6 字符串处理
7.7 实训1 清洗企业员工信息
7.8 实训2 清洗在校生饮酒消费数据
7.9 小结
习题7
第8章 R语言数据清洗
8.1 R语言简介
8.2 R语言基础
8.3 R语言data.table数据包
8.4 R语言dplyr数据包
8.5 R语言tidyr数据包
8.6 R语言lubridate数据包
8.7 R语言stringr数据包
8.8 实训1 应用data.table数据包进行数据清洗
8.9 实训2 应用dplyr数据包进行数据清洗
8.10 小结
习题8
参考文献
封底
更新时间:2021-10-27 14:29:45