1.9 统计数据挖掘_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生都市网

书名：统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）
作者名：(美)布鲁斯·拉特纳
本章字数：845字
更新时间：2025-03-01 06:00:53

1.9　统计数据挖掘

根据EDA的实质精神，数据分析师有义务尝试新的东西和重新尝试旧的东西。通过进行繁重的大数据处理，他们不仅能够从计算机的计算能力中获益，而且借助机器学习能力可以发现大数据中蕴藏的结构。在尝试一些旧方法时，统计学仍有可为之处。所以，当今的数据挖掘涉及三个概念范畴：

1）适当强调EDA的统计学：这包括采用传统的统计学中的描述性和非推论指标，这部分包括平方和、自由度、F比率、卡方值和p值，但是不包括推导的结论。

2）大数据：鉴于当今的数据环境，大数据被给予了特别关注。然而，由于小数据是大数据的一部分，因此没有被排除在外。

3）机器学习：计算机是学习机器，是基本的处理单元，具有无须编程就能学习的能力，而且具有发现数据中结构的智能。不仅如此，大数据之所以需要计算机，是因为它总能按照编写好的程序工作。

这三个概念定义了数据挖掘助记公式，数据挖掘=统计学+大数据+机器学习与提升。所以，数据挖掘就是处理大数据及小数据的统计方法和EDA，在计算机的帮助下，可以提升数据并了解数据中的结构。这个流程可以很好地处理大数据和小数据。

从EDA的角度看，仔细分析上面这个公式是明智的。提升和学习需要数据表的两个不同方面。前者聚焦数据表的行，使用的是计算机每秒处理数百万条指令（MIPS）的能力，程序代码执行时可以达到这样的速度。计算输入的100万个数据的平均值就是计算机提升数据的一个例子。后者聚焦数据表的列，计算机无须编程就可以找出数据表列中蕴藏的结构。它对计算机的要求要比前者更高，就像读书总是需要比移动书需要更多努力一样。计算机学习的一个例子是识别结构，比如a2+b2的平方根。

当有指标表明总体是非同质的（即存在子体或聚类）时，计算机需要学习数据表行以及行与行之间的关系，以识别行结构。所以，有时（比如边学习数据表列边提升和学习数据表行）计算机的工作量会更繁重，但是可以得到非常好的结果。

基于前面的说明，统计数据挖掘是计算机提升的EDA/统计学方法。在本书后面几章，我们将详细介绍机器学习数据挖掘，将其定义为不需要EDA/统计学的计算机学习。