1.7 小结
1)数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值,在大数据项目的实际开发工作中,数据清洗通常占开发过程总时间的50%~70%。
2)目前,数据清洗主要应用于三个领域:数据仓库、数据挖掘和数据质量管理。
3)数据清洗的对象可以按照数据清洗对象的来源领域与产生领域进行分类。前者属于宏观层面的划分,后者属于微观层面的划分。
4)数据清洗的原理为:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为手工清洗和自动清洗。
5)在数据分析前,为了统一比较的标准,保证结果的可靠性,需要对原始指标数据进行标准化处理。数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入一个小的特定区间内。
6)目前的大数据清洗工具主要有OpenRefine、DataCleaner和Kettle等。