1.1 从柏拉图摘麦穗说起
在不回头而且只能摘一次麦穗的要求下,有没有可能摘到最大的麦穗?怎样才能保证摘到最大麦穗的概率最大?而最佳策略又会在什么情况下失效?简单的哲学问题中蕴含了有趣的统计学知识,这正是本小节要讨论的内容。
1.1.1 如何摘到最大的麦穗
有一个流传很广的故事是这样说的:
有一天,柏拉图问他的老师苏格拉底什么是爱情,苏格拉底回答说:“你去麦田里,随便选一条小径,顺着向前走,从路两旁摘一棵你觉得最大最金黄的麦穗,但是你只能摘一次,而且也不能回头。”
柏拉图两手空空地走出麦田,苏格拉底问他为什么摘不到,他回答说:“因为只能摘一次,又不能走回头路,其间即使见到一棵又大又金黄的,因为不知前面是否有更好,所以没有摘;走到前面时,又发觉总不及之前见到的好,原来麦田里最大最金黄的麦穗,早就错过了;于是,我什么也没摘到。”
苏格拉底说:“这就是爱情。”
哲学家看到这个故事,心里会无限唏嘘,啊,原来这就是爱情,爱情就是给人回忆和经历的东西,然后还能散发联想到“我从哪里来”“要到哪里去”之类的其他事情。数学家却不这样想,怎么可能会摘不到最大最金黄的麦穗呢?即便摘不到最好的,也一定存在某种方法能够摘到比较好的麦穗。
大部分田中小径都是笔直的,因此当柏拉图站在小径一端时,应该是能目测出小径的长度的。同时,麦田中的麦子排列得往往都十分整齐,柏拉图只需稍微看一眼,便能估算出麦子间的间隔有多大,小径两旁种了多少行麦子。
不妨假设这条小径长100米,种了200行麦子,那么,柏拉图能够摘到的就是路两侧的400棵麦穗。那么,怎么才能从这400棵麦穗中选出最大最好的一棵呢?
评价一棵麦穗好不好时,一方面要看它大不大,一方面要看它黄不黄。麦穗的大小可以用麦穗从顶到底的长度来表示,麦穗的颜色可以用色度来表示。我们称一棵麦穗就是一个样本,“麦穗从顶到底的长度”“麦穗的色度”就是两个指标,并且称全部的400棵麦穗为一个总体。
显然,在我们假想出的这个总体里包含400个样本,每一个样本包含两个指标。如果将这些数据记录在Excel里边,就能得到一个400行、2列的表格。我们的任务就是从这400个样本里选出指标值最大的那个样本。
回到摘麦穗问题上。如果能够回头,这个问题是很好解决的,柏拉图只需从小径一头走到另一头,记下最好的麦穗是哪棵,再回头把它摘下来就可以了。用抽象的数学语言表达,就是概览一遍总体中的数据,再选出最佳的样本点。
但是由于柏拉图不能回头,因此就不能根据位于他前方的麦穗的好坏来决定摘哪棵麦穗,只能根据位于他后方的麦穗的好坏来下决定。当柏拉图站在起始位置时,他对于麦田中的麦穗是一无所知的,当他踏出第一步,见到第一棵麦穗后,就对麦田中的麦穗有了一点儿了解,随着他见过的麦穗越来越多,他对麦田整体的认识也就越来越全面。
那么,如何根据已经见过的麦穗来决定摘取哪一棵麦穗呢?
1.1.2 样本点和样本的区别
假设你的老师也要求你去麦田中摘麦穗,你已经走过一半的路途,恰好站在小径的正中间。回首你走过的那半边麦田,你心想,我已经见过了一半的麦穗,这些麦穗中最长的有××厘米那么长,在接下来的一半路程中,如果我再见到比它长的麦穗,那我就摘下来。
这种做法非常明智,它也符合大多数人的常识。既然麦田里的麦子长得都差不多,那我见过的200个麦穗和我没见过的200个麦穗也就长得差不多。只关注前200个麦穗时,也能找到一个最长的麦穗,并且,即便是在全部的400个麦穗里,这个麦穗也属于比较长的那一部分。
那么,在接下来的后半段路程中,只要我再看到一个优于它的麦穗,就可以认为这就是最好的麦穗,起码,是处于顶尖水平的麦穗。
这种做法就是统计学中所说的“从样本推断总体”,将位于前半段小径的200棵麦穗看作一个整体,并根据这个整体来推断总体的情况。这个整体也称为一个样本,这个样本中包含了200棵独立的样本,即200棵麦穗。为了区分一个麦穗所代表的一个样本和由200棵麦穗组成的样本,我们也称一个麦穗为一个样本点或一个数据,反映在Excel里,就是一行数据即为一个样本点,一部分样本点组成一个样本。
根据前一半麦穗的情况推断后一半麦穗的情况是很聪明的做法,但这种做法也有缺陷。第一,我们不知道麦田里的麦穗是不是随机分布的,如果麦田里的麦穗按照从小到大的顺序整整齐齐地排列着,那这种做法就完全不起作用。第二,最大的那棵麦穗可能位于小径前半段,也可能位于小径后半段。如果它位于小径前半段,那么我们在小径后半段就看不到比它还大的麦穗,只能两手空空地走出麦田。
第一个缺陷比较好解决,站在小径尽头眺望一下,便能知道麦田里的麦穗是不是随机分布的。第二个缺陷却不太容易避免,在麦穗服从随机分布的情况下,如果我们把一半的麦穗都当作样本,那么做100次摘麦穗实验,最大的麦穗会有50次出现在前半段小径,导致我们与最佳麦穗擦身而过,摘不到麦穗。
如果缩小样本数量,比如将1/5的麦穗当作样本,在走过1/5的麦田小径后就开始着手摘麦穗,确实比较容易摘到一个比样本中最大的麦穗还要大的麦穗,但样本中最大的麦穗却不一定就代表麦穗的最佳水平,摘到的麦穗就可能不是最大的那个。
那么取多少麦穗作为样本比较合适呢?答案是148个。
1.1.3 37%法则
现在来研究一下取多少麦穗作为样本比较好。我们一共有400棵麦穗,那么样本数就小于等于400。不妨假设取了k个麦穗作为样本,这k个麦穗也就是位于小径最前边的k个。我们走过小径时,并不摘取见到的前k个麦穗,从第k+1个麦穗开始,只要看到比前k个麦穗都要大的麦穗,就把它摘下来。
假设麦穗是随机分布的,那么最佳麦穗可能的位置就有400个,落在每个位置上的概率都是1/400。如果这个最大的麦穗落入前k个位置上,那么我们就错过了它,只能两手空空地走出麦田,这件事发生的概率是k/400。如果最佳麦穗的位置特别靠后,而k个样本麦穗又都比较小,那我们可能会在遇到最佳麦穗前就摘下另一个比较大,但比最佳麦穗小的麦穗。
用i代表最佳麦穗的位置,只有在i大于k,而且前i-1个麦穗中最大的那个麦穗位于前k个麦穗之中时,我们才能摘到最佳麦穗。那么对于某个固定的k来说,摘到最佳麦穗的概率就是
我们希望能找到一个k,使p(k)达到最大。不妨令k分别等于从1到400中的每一个整数,经过400次计算,即可发现当k等于148时,p(k)达到最大。也就是取前148棵麦穗作为样本时,摘到最佳麦穗的概率最大,这个概率大约为40%,还有60%的可能摘不到麦穗,或者没有摘到最大的麦穗。
“小径两侧共种植了400棵麦穗”是我们假设的一种情况,在实际情况当中,小径的长短不同,麦子的稀疏也不同,考虑更广泛的情景,不妨使用n来代表麦穗的总数,那么对于某个固定的样本数来说,摘到最佳麦穗的概率就是
用x来表示k/n的值,并且假设n充分大,则上述公式可以写成
对-x·lnx求导,并令这个导数为0,可以解出x的最优值,也就是1/e,约为37%。e就是自然倒数,大约为2.71828。以n来代表麦穗的总数,则取n/e个麦穗作为样本是最恰当的,能使摘到最大麦穗的概率最大。
当然,即便找到样本数的最优解,也只有约40%的概率摘到最佳麦穗,约23%的概率摘到比较好,但不是最好的麦穗,还有约37%的概率与最佳麦穗擦身而过,只好两手空空地走出麦田。
根据37%的麦穗样本即可找到最佳的麦穗,这种法则就称为37%法则。37%法则意味着只需一小部分样本就可推断出总体中的信息,即37%的样本即可代表整体。只要总体的分布是随机的,37%法则就适用于一切寻找总体最优值的情况,这正是它的魅力所在之处。