1.6.1 数据规模特征_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生都市网

书名：统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）
作者名：(美)布鲁斯·拉特纳
本章字数：808字
更新时间：2025-03-01 06:00:53

1.6.1　数据规模特征

数据规模有三个显著特征：状态、位置和总体。状态指的是数据是否已经准备好可以用于分析。如果在进行可靠分析之前，数据需要用最少的时间和成本去整理，就被称为处于良好状态。反之，如果需要大量时间和成本去整理，数据就是处于糟糕状态。小数据通常是干净的，因而处于良好状态。

大数据是当今数据化环境的产物，数据流以前所未有的速度和数量从各个方向持续生成。之所以说这些数据是“脏的”，主要因为它们来自多个来源。数据汇总流程非常耗时，因为必须考虑多个来源的数据能否合在一起。由于这个过程需要多次调整，所以不同渠道的记录之间的匹配逻辑起初会比较模糊，之后才微调到合理的水平。由此产生的数据总是由无法解释的、看似随机的、无意义的值组成，因此大数据往往处于糟糕状态。

位置指的是数据放在哪里。与整齐排列在方方正正的纸上的小数据不同，大数据存放在包含了多维表的数据库中。这些数据表之间的链接可以是分层的（根据排序或层级），也可以是顺序的（根据时间或事件）。通过整合多个数据来源，其中每个来源都包含许多行与列，可以生成更多的行与列，这清晰地体现了大数据之大。

总体指的是一群个体，它们具有同样的特征，与所研究的问题有关。小数据通常代表已知总体的一个随机样本，这个样本在短期内一般不会出现变化。这些收集起来的数据是用来回答某个问题的，通过某个解决问题的方法可以从中直接获得答案。与此相反，大数据总是一些来自未知总体的多个非随机样本，而且短时间内会发生改变。从这个意义来说，大数据本质上是“次级”的。起初收集数据的目的是明确的，而为与这个初始目的不同的其他目的收集的数据就是次级数据。大数据可以从hydra的营销信息中获得，用于任何事后问题，可能没有一个简单的解决方案。

有趣的是，图基从未专门谈论过大数据。但是，他确实预言过，无论从时间上还是从金额上，计算成本都会变得更便宜，这表明他知道大数据时代正在到来。显然，个人计算机确实足以应付这样的成本。