1.3 为什么一小部分人的意见就能代表全体人
既然大数定理证明样本均值总是趋近于总体均值的,那么样本均值与总体均值之间的差距有多大?取多少样本就可以代表整体了?随着样本的增加,样本均值会明显接近总体均值吗?本小节系统地回答了这些问题。
1.3.1 100个人的收入能代表10000个人的收入吗
大数定理证明了只要样本足够大,样本均值总是会落在总体均值的附近。但是大数定理并没有明确地告诉我们,样本均值和总体均值究竟有多接近,也没有告诉我们,样本究竟多大时,才是“足够大”的。
这两个问题显然是彼此相关的,一个显而易见的事实如下:样本的数目越多,样本均值就与总体均值越接近。即增加样本数目是一个提升样本均值准确度的重要手段。样本中的个体数目与总体中的相等时,样本均值就百分百等于总体均值。
不过,在成本以及其他一些因素的约束下,我们有时不能想要多少样本就有多少样本。因此,研究样本均值和总体均值的关系就是十分必要的。
不妨假设我们想要了解毕业于某技校的10000个人的年收入情况,再假设这10000个人的年收入分布如图1.1所示。
图1.1 10000个技校毕业生的年收入分布
图1.1的单位为万元。图1.1的形状并不对称,低收入的人群收入较集中,高收入的人群收入较分散。这10000个学生中,较多人的收入都集中在30000~40000元,并且,他们的人均收入为40000元,图中线标出了40000的位置。
经费有限,我们只能随机调查其中100个人的收入状况。毫无疑问,这100个人的人均收入会落在40000元的附近。虽然实际生活中,我们只能进行一次调查,但我们在计算机上可以模拟若干次这样的调查。每次调查时的样本都不同,因此,每次得到的样本均值也不同。
不妨在计算机上模拟10000次抽样调查,每次调查的样本个数都是100。将这10000次调查的样本均值记录下来,并绘制成图1.2。
图1.2 10000次抽样调查的样本均值(样本数为100)
仔细观察图1.2。模拟10000次抽样后,每次抽样的样本均值组成了一个比较光滑的钟型曲线。在这10000次模拟中,绝大部分的样本均值都落入3.6~4.4的区域,与总体均值40000元是比较接近的,这说明使用100个样本即可较好地估计出10000个人的收入均值。
另外,图1.2的形状是十分对称的,这并不是一个偶然现象。实际上,不管总体呈现出一个什么样的形状,进行若干次抽样后,每次抽样的样本均值放在一起后,所组成的都会是一个对称且光滑的钟型曲线。这就是在大数定理基础上发展得到的中心极限定理。
1.3.2 确定抽样人均收入与真实人均收入间的误差
在1.3.1小节中我们直观地展示了中心极限定理的内容,即无论总体分布如何,样本均值总是对称地围绕在总体均值附近。更准确地说,它们服从一个以总体均值为中轴的钟型分布。如果你不知道什么是钟型分布,不妨跳到4.2一节,那里有更多更详细的有关介绍。
为了验证中心极限定理,我们首先在计算机上随机生成10000个数据,然后再从中抽取10000次样本,每次都抽取100个。最后,我们发现这10000次抽样的样本均值确实是紧密围绕在总体均值附近的,且与总体均值的误差基本上控制在0.4以内。
现在考虑一下真实情况。假如真的有这么一个技校,希望帮忙调查一下该学校毕业生的收入情况,那么,首先,不可能提前得知总体均值,否则,也就不需要做抽样调查了;其次,也不可能真的做10000次抽样调查,来确定样本均值与总体均值的误差范围。
只能调查一次,且只能调查100个样本。
可以确定的是,样本均值与总体均值之间存在一个误差,在真实的抽样调查中,我们只能通过样本中的信息来估计这个误差,通常,使用样本的标准误差作为样本均值与总体均值之间的误差是一个合理的方法。标准误差计算公式如下
其中xi为第i个样本,为样本均值,n为样本个数,在这个例子中,n就是100。通常认为,在68%的概率下,样本均值与总体均值的误差小于一个标准误差;在95%的概率下,样本均值与总体均值的误差小于两个标准误差;在99%的概率下,样本均值与总体均值的误差小于3个标准误差。
随机抽取的样本不同,样本的标准误差也就会不同,在1.3.1小节的模拟例子中,10000次抽样的标准差总是落在1.0~1.8。其中有一次抽样的样本均值为3.95,样本标准误差为1.34。
以这次抽样调查为例,我们可以这样告诉该技校,在68%的概率下,该校毕业生的人均年收入大于2.61万元,小于5.29万元;在95%的概率下,该校毕业生的人均年收入大于1.27万元,小于6.63万元;在99%的概率下,该校毕业生的人均年收入大于0万元,小于7.97万元。
很明显,样本标准误差普遍要高于样本均值与总体均值之间的实际误差。而且,当结论的准确度达到99%时,估计出的人均收入范围过大,已经失去实际意义,因此,将准确度达到68%的人均收入估计范围作为最终结论,是比较好的选择,这样一方面保证了真实的人均收入被包含在该范围内;另一方面,也保证了较高的精度。
1.3.3 考虑样本的最佳大小
直觉告诉我们,样本越大,样本均值与总体均值就越接近,因此,只要成本允许,就应该尽可能多地获取样本数据,以提高结果的准确度。这句话的前半句是正确的,后半句却不符合统计学理论。
仍以1.3.1小节中的10000个数据为总体,做10000次随机抽样,每次抽样时将抽取的样本个数增加至1000个,如此得到的10000个样本均值将如图1.3所示。
图1.3 10000次抽样调查的样本均值(样本数为1000)
将图1.3与图1.2做对比,图1.3也是一个对称的钟型曲线,但将样本数增加至1000后,绝大部分样本均值都落入了3.85~4.15的区域。从这一角度来看,增加样本个数确实能有效缩小样本均值与总体均值之间的误差。
但1.3.2小节中已经指出,我们不可能真的进行10000次抽样调查,而是要用样本的标准误差来估计样本均值与总体均值之间的误差。在将样本数增加至1000后所做的10000次抽样调查中,样本标准误差总是落在1.3~1.5。
与样本数为100时所做的10000次抽样调查相比,样本数增加后,样本标准误差变得更加稳定了,但并没有缩小。因此,增加样本数只能令样本均值尽量接近总体均值,但不能缩小最终得到的区间,于整体而言,增加样本数所起到的效果并不强。
当然,只要条件允许,样本多一些,总是没有坏处的,以上例子只是想说明,小样本未必就像大家想象的那么差。比如,在做全国性的抽样调查时,只需1000人的样本即可代表全国整体情况。通常来说,抽样调查的样本数没有上限,但最少不能少于30个,否则,样本的标准误差会十分大,而且也会失去统计意义。
另外,1.3.2小节给出的标准误差公式只适用于连续型数据,当调查离散型数据,比如调查全国离婚率、调查民众幸福程度时,需要用到的标准误差计算公式如下
其中n是样本个数,p是民众选择某选项的概率。比如,假设在一次样本个数为1000人的抽样调查中,有50%的人觉得自己很幸福,30%的人觉得自己比较幸福,20%的人觉得自己不幸福,那么,觉得自己很幸福的标准误差就是,觉得自己比较幸福的标准误差就是,觉得自己不幸福的标准误差就是。
进一步的,还可以在68%的概率下,认为全国人民中觉得自己很幸福的人所占比例为44.2%~65.8%,全国人民中觉得自己比较幸福的人所占比例为15.5%~44.5%,全国人民中觉得自己不幸福的人所占比例为7.4%~32.6%。