第1章 引论

1.1 个人计算机与统计学

个人计算机(PC)已经改变了统计学,不管这一切是好还是坏。个人计算机可以轻松地进行精确计算,减少了统计学的计算负担。人们需要做的只是提供正确的信息。只需要了解最基本的统计学知识,用户就可以给出输入数据,挑选所需的统计程序,最终得到结果。所以,诸如测试、分析和根据原始数据计算汇总指标等工作,都是自动完成的。个人计算机在决策过程中使用了先进的统计方法,比如在屏幕上展示条形图和曲线图,可以将三维旋转图形进行动画处理,以及在管理演示中用到的交互营销模型等。个人计算机可以方便制作文件,包括计算一些指标,比如用营销数据库计算跨市场平均利润;还可以从统计软件里复制结果,粘贴在演示文件中。解读个人计算机给出的结果并得出结论仍需要人工介入。

不幸的是,个人计算机和统计学的融合将只了解基础统计学知识的通才变成了准统计学家,并让他们产生了错误的自信,因为他们现在可以给出统计结果了。比如,计算平均利润就是商业界最基本的工作。然而,只有当数据是对称分布的时候,这个平均值才是一个“有价值的数据”。而在营销数据库中,利润数据的分布通常都是不对称的,具有正的偏斜度[1]。所以,这个利润平均值并不是一个可靠的汇总指标[2]。无疑这些准统计学家不懂得这个道理,因而基于这个利润平均值所做的解释显然是无意义的(floccinaucinihilipilification)[3]

另一个例子是个人计算机用相关系数(这是第二个常用的汇总指标)进行统计分析时采用的“不求甚解”[4]做法。相关系数衡量的是两个变量之间的关联程度。正确解读相关系数需要满足一个假设条件(两个变量之间的关系是线性的,即散点图是一条直线)。准统计学家几乎都不知道这个条件。同时,经验丰富的统计学家经常不检验这条假设,这也是经常使用个人计算机进行不严格的分析养成的坏习惯。

个人计算机史无前例的计算能力也让统计学家得以进行分析尽职调查。例如,统计分析的自然七步法将变得不太实用[1]。只要获取的信息可以从第一步顺利走到第七步,个人计算机和这个分析程序就是一对最好的搭档。不幸的是,统计学家都是人,他们习惯在七步法里走捷径。他们忽略了这个程序,把注意力只放在第六步。稳妥的做法是执行七步法的每一步[5]。七步法的顺序如下:

1)问题的定义——解决问题的最佳方法往往很难确定。管理目标一般是定性表述的,结果和目标变量(因变量)的选择会受到主观判断影响。在目标得到清晰表述时,往往找不到合适的因变量,所以不得不退而求其次。

2)确定方法——最先选择的方法通常是数据分析师感觉最顺手的,但不一定是解决这个问题的最好方法。

3)竞争性方法的使用——应用其他方法提高了进行完整分析的机会。

4)结果的初步对比——比较不同方法得出的结果间的差异可以增加新的方法,或者筛除备用方法。

5)精确度(尽管不充分)的比较——很难制订清晰的标准,因此精确度经常作为替代标准。

6)基于精确度(非充分标准)的优化——很难制订清晰的标准,因此精确度经常作为替代标准。

7)优化标准的对比——这是确定最佳解决方法的最后一步。

经典统计学奠基人卡尔·皮尔逊(Karl Pearson)和罗纳德·费舍尔(Ronald Fisher)爵士可能会对个人计算机的作用非常赞赏,因为个人计算机可以让他们从消耗大量时间的概念实证检验中解脱出来。皮尔逊的贡献包括回归分析、相关系数、标准差(1893年提出的概念),以及统计显著性的卡方检验(只举几例)。如果被个人计算机解放出来,他就可以用节省出的时间思考更多概念。当然很容易想到,个人计算机的强大功能也能让费舍尔的方法(比如最大似然估计、假设检验、方差分析)立即得到应用。

个人计算机让皮尔逊和费舍尔的经典统计学从象牙塔走进教室和会议室。在20世纪70年代,统计学家开始认识到,他们的方法可以发挥更大潜力。然而,他们知道一台可以指望的计算设备需要以足够高的准确度执行他们的统计分析工作,而且运算时间要合理。由于这些统计方法当时是为小型数据集开发的,通常只包含几个变量和最多几百条记录,所以数据的手工计算量很大,难以人工完成。而针对大数据(直到21世纪初才出现)使用这些统计方法几乎不可能。随着20世纪70年代中期微处理器的出现,统计学家现在已经有了计算工具——个人计算机。它可以用很短的时间以足够高的准确度进行大数据统计分析。台式机已经取代了教室和会议室里使用的电子计算器。从20世纪90年代至今,个人计算机对于统计学家的影响是几十年前无法想象的。

[1] 正的偏斜度即向右倾斜,指的是这个分布在右边有一个长尾。

[2] 对于具有中等偏斜度的分布,可以用模数或中位数作为一个可靠的代表性数据。

[3] floccinaucinihilipilification(读作FLOK-si-NO-si-NY-HIL-i-PIL-i-fi-KAY-shuhn),名词:没有用处的估算值。

[4] “不求甚解”这个说法支持了我所说的,即个人计算机有时不适合用于统计,相反的说法是“完整准确”。

[5] 七步法是图基的发明。这段说明是我写的。