2.5 指数分布

上面的泊松分布是一种描述和分析稀有事件的概率分布。在现实问题解决中,还有一类问题是需要去找到发生某种事件之间的间隔时间。比如系统出现缺陷的时间间隔、婴儿出生的时间间隔、旅客进入机场的时间间隔、打进客服中心电话的时间间隔等。指数分布(Exponential Distribution)就是用来表示独立随机事件发生时间间隔的概率分布。把指数分布和泊松分布放在一起,说明两者是有比较密切关系的,如图2-8所示。

图2-8

上一节里面的预测故障的例子中,按照时间把故障频度进行调整后代入泊松分布公式就可以知道任意时间区间内发生事件的概率。即设定时间为t,那么发生频度为λt,因为在时间t内发生故障的概率和时间t内不发生概率加起来是1,因此可以表示为下面的公式:

PTtλt)=1-PX=0;λt)=1-eλt

现在把T换成Xt替换成x

Fxλ)=PXxλx)=1-eλx

这里的Fxλ)就是指数分布的分布函数,λ表示平均每单位时间内事件发生的次数,随机变量X表示时间间隔。

指数分布的一个重要特征是无记忆性(Memory-less Property),又称遗失记忆性。如果一个随机变量呈指数分布X~Fλ),当st≥0时:

也就是:

这个结论告诉我们,在指数分布下,P{Xst}和P{Xs}对应的面积的比值等于P{Xt}对应的面积和总体面积的比值(A表示区域)(见图2-9):

从图2-9可以看到,无论s取什么值,st时的概率和s时刻的概率比值都是一样的。

图2-9

拿一个具体的例子来说,假设在牌桌上只能押大或押小,在连续押小输掉10次的条件下,下一次出现“大”和第1次就出现“大”的概率相同。对于玩家来说,每一局都是全新的,下一次赢钱的概率和之前的输赢没有任何关系,这就是所谓的无记忆性。

指数分布在机器学习中,可以用来预测某个事件或者状态(如故障发生)的时间间隔,这样可以让我们提前做出安排以减少损失。