- Python数据科学应用从入门到精通
- 张甜 杨维忠编著
- 655字
- 2024-12-24 10:09:05
1.5.1 数据清洗、特征工程的应用场景
数字化转型浪潮下,数据统计分析的各种方法、机器学习的各种算法早已不再局限于概念普及和理念推广层面,而是真真切切地广泛应用在各类企事业单位的各个领域,从客户分层管理到目标客户选择,从客户满意度分析到客户流失预警,从信用风险防控到精准推荐……各种统计分析方法和数据挖掘算法的应用对于企业全要素生产率的边际提升起到了至关重要的作用。而数据清洗、特征工程作为进行各种数据统计分析或构建各种算法模型的前序环节,也广泛应用于真实的商业应用实践。
数据清洗的必要性在于原始数据存在着较多的瑕疵,那些直接从内外部获取的信息、自然收集或生产系统自然生成的数据,在未进行必要的加工整理之前,并不能够满足直接分析或建模的需求。特征工程的必要性在于很难直接找到、找准、找全用于预测响应变量的特征,而且这些特征需要通过特征工程不断选择、尝试、优化。
比如某电商平台商家想分析高价值客户(交易金额高、交易次数多)的特征,可能就需要从历史订单中筛选出有效订单(因为退换货订单不能反映客户的真实贡献度),然后从有效订单中再进一步筛选出客户满意度较好的订单(因为客户满意度较差的订单同样不能反映客户的真实贡献度),并选择、处理、提取客户的特征(性别、年龄区间、收货地址所在小区房价、登录平台次数、浏览商品到发生交易所用时间等),而选择、处理、提取出的特征变量对应的数据可能有重复值、缺失值、异常值等,这些就会用到数据清洗,从选择、处理、提取的一系列特征中选择出对于预测高价值真正有用、有效的特征,这些就会用到特征工程。