2.2 混合高斯分布

继续拿人群的身高作为例子。假设不同的三个区域A、B、C的人群身高都服从三个不同的正态分布,区域A的人群的(μσ)为(160,5),区域B的人群的(μσ)为(175,10),区域C的人群的(μσ)为(190,15)。

这时如果出现一个人的身高为180cm,我们推测他来自哪个区域?一种方法是根据分布范围把此人推论为可能的区域,譬如区域B。不过更严谨、更合理的是应推算出该身高属于不同分布的概率,180cm的身高可能属于三个区域的比例分别为:属于区域A的概率是20%,属于区域B的概率是50%,属于区域C的概率是30%。

像上面这种情况,就需要用混合高斯分布(Gaussian Mixture Distribution)来进行数学描述。

混合高斯分布的数学公式如下:

x是观察到的样本数据,μi是不同混合高斯分布对应的平均值和协方差(对于一维的数据序列而言,就是方差,对于多维的数据来说,就是协方差,协方差的含义我们将在第4讲中进行介绍)。πi是对应的系数,所有系数的和为1。

对应的混合高斯分布的概率密度曲线如图2-3所示。

图2-3显示了拥有三个高斯分量的一个维度的混合高斯分布是如何由其高斯分量叠加而成。

图2-3

那么,为什么混合高斯分布的各个高斯分量的系数之和必须为1呢?这是因为混合高斯分布的定义本质上也是一个概率密度函数。而概率密度函数在其作用域内的积分之和必然为1。其整体的概率密度函数是由若干个高斯分量的概率密度函数线性叠加而成的,而每一个高斯分量的概率密度函数的积分必然也是1。所以,要想使混合高斯分布整体的概率密度积分为1,就必须对每一个高斯分量赋予一个值不大于1的权重,并且权重之和为1。

混合高斯分布或者对应的模型需要确定参数就比较多了,包括πu、∑。如果像高斯分布那样只有一个θ:(uσ),我们可以用最大似然算法来拟合。现在有多个参数要求的话,就无法套用最大似然算法,这时就需要用到最大期望(Expectation Maximization,EM)算法,关于EM算法将在第9讲进行详细介绍。

相比普通的高斯分布,在混合高斯分布中,我们看到有多个高斯分布的组合,在实际应用中,我们就可以把一个高斯分布对应到一个分类中,所以混合高斯分布就可以对应到多个分类中,也就是说混合高斯分布可以在多分类的任务中应用。