- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 286字
- 2021-09-26 16:15:39
第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法
6.1 引言
本章目标是介绍一种新的统计数据挖掘方法——排序数据对称化法,并将其加入第5章所述的好的建模做法的简单性和可取性范式之中。这种新方法用到了两种基础统计工具——对称化变量和排序变量,得到新的具有更高预测能力的重述变量。我列举了斯蒂文的量度范围(名义、排序、区间、比率),之后定义了一个近似区间范围,这是新统计数据挖掘方法的衍生品。然后,我简要回顾了探索性数据分析(EDA)的最简单要素:(1)茎叶图和(2)箱线图。这两种图都用于展示本章介绍的新方法,而这种新方法本身也属于EDA范畴。最后用两个例子来说明这个方法,为数据挖掘工程师提供一个应用这一有用的统计数据挖掘工具的起始点。