1.9 统计数据挖掘

根据EDA的实质精神,数据分析师有义务尝试新的东西和重新尝试旧的东西。通过进行繁重的大数据处理,他们不仅能够从计算机的计算能力中获益,而且借助机器学习能力可以发现大数据中蕴藏的结构。在尝试一些旧方法时,统计学仍有可为之处。所以,当今的数据挖掘涉及三个概念范畴:

1)适当强调EDA的统计学:这包括采用传统的统计学中的描述性和非推论指标,这部分包括平方和、自由度、F比率、卡方值和p值,但是不包括推导的结论。

2)大数据:鉴于当今的数据环境,大数据被给予了特别关注。然而,由于小数据是大数据的一部分,因此没有被排除在外。

3)机器学习:计算机是学习机器,是基本的处理单元,具有无须编程就能学习的能力,而且具有发现数据中结构的智能。不仅如此,大数据之所以需要计算机,是因为它总能按照编写好的程序工作。

这三个概念定义了数据挖掘助记公式,数据挖掘=统计学+大数据+机器学习与提升。所以,数据挖掘就是处理大数据及小数据的统计方法和EDA,在计算机的帮助下,可以提升数据并了解数据中的结构。这个流程可以很好地处理大数据和小数据。

从EDA的角度看,仔细分析上面这个公式是明智的。提升和学习需要数据表的两个不同方面。前者聚焦数据表的行,使用的是计算机每秒处理数百万条指令(MIPS)的能力,程序代码执行时可以达到这样的速度。计算输入的100万个数据的平均值就是计算机提升数据的一个例子。后者聚焦数据表的列,计算机无须编程就可以找出数据表列中蕴藏的结构。它对计算机的要求要比前者更高,就像读书总是需要比移动书需要更多努力一样。计算机学习的一个例子是识别结构,比如a2+b2的平方根。

当有指标表明总体是非同质的(即存在子体或聚类)时,计算机需要学习数据表行以及行与行之间的关系,以识别行结构。所以,有时(比如边学习数据表列边提升和学习数据表行)计算机的工作量会更繁重,但是可以得到非常好的结果。

基于前面的说明,统计数据挖掘是计算机提升的EDA/统计学方法。在本书后面几章,我们将详细介绍机器学习数据挖掘,将其定义为不需要EDA/统计学的计算机学习。