- Python数据科学应用从入门到精通
- 张甜 杨维忠编著
- 1046字
- 2024-12-24 10:09:02
1.2.1 数据清洗、特征工程的重要性
数据是分析的基础。无论是进行数据统计分析、机器学习项目的数据挖掘与建模,还是实现数据可视化,都离不开数据。特征是所有机器学习项目中必不可少的组成部分,是机器学习项目的基础。当给定数据和特征时,数据统计分析的效能或机器学习项目所能达到的泛化能力的上限就确定了,所能解决的问题范围也就确定了。业界流传的一种观点是,用于分析的数据和特征决定了数据统计分析或机器学习效能的上限,各种统计分析方法、各种模型和算法的优化改进只是逼近这个上限而已。因此,提升数据、特征的质量至关重要。
数据清洗和特征工程就是提升数据和特征质量的过程。在实务中,数据清洗与特征工程是开展数据统计分析或机器学习建模的重要环节,也是进行各种数据统计分析或构建各种算法模型的前序环节。在真实的商业运营实践环境中,我们在进行数据统计分析或开展机器学习项目时,通常需要先收集相关的数据,只有收集到足够的数据,才能将之用于分析过程。对于企事业单位来说,数据的来源是多方面的,既有从外部获取的数据,比如政府机构公布的数据、行业协会公布的数据、第三方机构搜集整理的数据等,也有从内部获取的数据,比如积累的客户资料信息、客户交易流水信息、客户行为信息等。在很多情况下,这些直接从内、外部获取的信息、自然收集或生产系统自然生成的数据,在未进行必要的加工整理之前存在着较多的瑕疵,并不能够满足直接分析或建模的需求。比如有的变量数据存在着较多的重复值、缺失值、离群值,有的连续型变量数据需要进行离散化、标准化,有的时候特征变量个数过多造成“维度灾难”而需要进行特征筛选等。如果不开展数据清洗与特征工程,直接将收集的数据用于数据统计分析或机器学习项目,将显著影响最终分析或建模的效果和效率,而且这种影响是无法通过后续数据处理技术或机器学习算法的改进提升来弥补的。用一个通俗的比喻来讲,数据好比是食材,数据统计分析或开展机器学习项目好比是做菜,进行数据清洗、特征工程好比是处理食材,未处理食材导致的食材质量不高是无法通过烹饪技术的提升或厨艺的多样化来改进的。
良好的数据清洗、特征工程能够使得数据统计分析的质量或机器学习算法的效果和性能得到显著提高。当前,数据统计分析人员或开展机器学习项目人员的一个基本共识就是:数据清洗是整个数据统计分析或机器学习流程中非常关键、非常重要的一个环节,在很大程度上能够决定数据统计分析或机器学习模型算法的预测效能,因此虽然数据清洗、特征工程耗时耗力,但也非常值得为它花费更多的时间、资源与成本。