1.6 小数据和大数据_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男频轻小说网

书名：统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）
作者名：(美)布鲁斯·拉特纳
本章字数：514字
更新时间：2025-03-01 06:00:53

1.6　小数据和大数据

我想澄清一下小数据和大数据的主要差别。数量就像美貌一样，在数据分析师心中占有一个位置。过去，小数据满足经典统计学的概念框架。小通常指的是样本量，而非变量的数量，变量通常有一大把。根据数据分析师所用的方法，小样本量一般不会少于5，有时是在5～20之间，经常是在30～50或者50～100之间，100～200之间很少见。当今的大数据需要用复杂表格的行（观察值或个体）和列（变量或特征）展示，而小数据通常只需要用几页的简单表格展示。

除了占用的空间很小，小数据还干净齐整。之所以说它们是干净的，是因为其中没有不准确或者不可能的数值（除了那些由于原始数据搜集错误造成的问题）。其中不包含统计异常值和有重要影响的数值点，或者EDA远点和外部点。它们处在传统统计方法所要求的随时可用状态。

对于大数据而言，有两种观点。一种观点属于经典统计学，只把大数据看作小数据的对立面。理论上，大是指样本规模较大，这种方法的渐近性会产生有效的结果。另一种观点来自现代统计学，从提升（数学计算）观察值和在变量中学习的角度看待大数据。数据的大小取决于由谁来分析数据，也就是说，如果数据分析师认为它们是大的，那就是大数据。不论数据分析师怎么做，EDA都可以扩展数据表的行和列。

本周热推：

Visual Basic.NET+SQL Server全程指南计算机网络 AI 3.0 AI的25种可能 ABB工业机器人编程全集