1.6 小数据和大数据

我想澄清一下小数据和大数据的主要差别。数量就像美貌一样,在数据分析师心中占有一个位置。过去,小数据满足经典统计学的概念框架。小通常指的是样本量,而非变量的数量,变量通常有一大把。根据数据分析师所用的方法,小样本量一般不会少于5,有时是在5~20之间,经常是在30~50或者50~100之间,100~200之间很少见。当今的大数据需要用复杂表格的行(观察值或个体)和列(变量或特征)展示,而小数据通常只需要用几页的简单表格展示。

除了占用的空间很小,小数据还干净齐整。之所以说它们是干净的,是因为其中没有不准确或者不可能的数值(除了那些由于原始数据搜集错误造成的问题)。其中不包含统计异常值和有重要影响的数值点,或者EDA远点和外部点。它们处在传统统计方法所要求的随时可用状态。

对于大数据而言,有两种观点。一种观点属于经典统计学,只把大数据看作小数据的对立面。理论上,大是指样本规模较大,这种方法的渐近性会产生有效的结果。另一种观点来自现代统计学,从提升(数学计算)观察值和在变量中学习的角度看待大数据。数据的大小取决于由谁来分析数据,也就是说,如果数据分析师认为它们是大的,那就是大数据。不论数据分析师怎么做,EDA都可以扩展数据表的行和列。