- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1229字
- 2021-09-26 16:15:22
1.3 EDA简介
图基的书不仅仅汇集了有创意的新规则和做法,也将EDA打造成一个新学科。如果数据分析师不去尝试很多事情,就会失败。它进一步支持了这样一种信念,即如果数据分析师的探查工作迫使他们注意到了意外情况,那么他们就会特别成功。换言之,EDA的理念是态度和尽可能改进分析的灵活性以及敏锐的洞察力的三位一体,以便能够及时发现意外情况。EDA是这样一个自我改进的理论:每位数据分析师做出自己的贡献,正如我撰写本书一样,这样就可以让这个学科从中获益。
EDA的敏锐洞察力吸引了更多关注,这是EDA方法的一个重要特点。数据分析师应该密切观察那些能够很好地进行分析的指标,而且应该用这些指标做出数据的分析图形。除了那些随时可见的图形可以作为指标,还有大量其他指标,比如点数、百分比、平均值,以及其他经典的描述性统计值(标准差、最大/最小值、缺失值等)。数据分析师的个人判断和对指标的解读并非坏事,因为人们的目标是得出有意义的推断,而不是传统的统计学上的那些统计显著的推断。
除了可视化指标和数据指标之外,数据中还包含间接信息,促使数据分析师关注,这些信息一般会以“数据看上去像……”或者“数据表明……”等语句起首。间接信息可能是模糊的,其重要性在于帮助数据分析师从中获得非正式的线索。所以,指标没有包括任何传统的统计口径,比如可信度区间、显著性检验或标准误差。
伴随着EDA,统计学领域出现了一股新潮流。图基和莫斯泰勒快速跟进,在1977年出版了第二本出色的EDA著作:Data Analysis and Regression。这本书常被称作EDA II。EDA II重写了数据分析和回归的经典推理过程的基础知识,将其发展成一个无须假设的非参数化方法,该方法遵循“(a)有效数据分析的一系列理念,以及(b)一套有用且易掌握的方法,使得这些理念能够融合在应用之中”[4,p.vii]。
1983年,霍格林、莫斯泰勒和图基出版了Understanding Robust and Exploratory Data Analysis(《探索性数据分析》),成功推进了EDA的发展。该书让读者了解了经典方法在其限制性假设无法满足时的糟糕表现,并提供了其他具有稳健性的实验方法,以扩展统计分析的有效范围[5]。该书囊括了一系列处理异常数据的分析方法,这些方法有助于快速识别数据结构,以及改善结果稳定性的优化效果。
1991年,霍格林、莫斯泰勒和图基继续在EDA方面结出硕果:Fundamentals of Exploratory Analysis of Variance[6]。他们用经典统计工具(如自由度、F比率、p值)更新了方差分析的基础知识。他们采用的是一些数字化和图形化的方法,可以更好地展示数据结构,比如规模效应、模式、残差的行为和相互影响。
EDA孕育出了大量的数据可视化表达方法。1983年,Graphical Methods for Data Analysis(Chambers等著)展示了各种新旧方法——有些方法需要计算机,而其他方法只需要纸笔,但是这些方法都是强大的数据分析工具,可以借此更多地了解数据结构[7]。1986年,都图瓦、斯泰因和斯图普出版了Graphical Exploratory Data Analysis,该书用简明易懂的方式综合介绍了各个主题[8]。雅可比1997年撰写的Statistical Graphics for Visualizing Univariate and Bivariate Data和1998年出版的Statistical Graphics for Visualizing Multivariate Data,使用直方图、一维和加强型散点图以及非参数平滑获得量化信息的图形结果[9,10]。雅可比还成功地将多变量数据图形用一页纸展示了出来。