1.6.2 数据规模:个人观点

有关数据规模的讨论引发了一个问题:“一个样本应该有多大?”样本规模可以从1万到10万。我从事统计建模和数据挖掘顾问已超过15年,而且作为一名统计学教师,我用基本统计方法作为数据挖掘工具,分析过各种容易让人上当的简单交叉表,发现经验较少和受训练较少的数据分析师经常用了过多的抽样数据。我发现这些过度使用样本的分析和模型,往往包含了20~50个因子。尽管个人计算机可以承担如此繁重的计算工作,但提取和处理数据仓库中如此多的数据所需的额外花费和时间往往是不合理的。当然,数据分析师了解不必要的大数据造成的资源浪费的唯一方法,就是比较大数据和小数据,这是我建议的做法。