3.2 极大似然估计和平方损失_统计学习必学的十个问题：理论与实践-QQ阅读男生轻小说网

3.2　极大似然估计和平方损失

回归问题中，我们可以将每一个样本x对应的目标值看作一个均值为ωx的连续分布，如图3.1所示，它只假设分布p（y|x）服从高斯分布，而不关心p（x），所以训练过程本质上是在对这个条件分布的参数做估计（此章讨论一维变量的情形，下同）。

以这样的视角来重新考虑目标值的分布会发现，每一个样本的目标值y_i都服从高斯分布N（ωTx_i，σ2），它的均值为ωTx_i，假设样本是独立同分布的，那么目标值的分布就是所有样本分布的乘积，形式为：

图3.1　每一个样本x₀都对应着一个高斯分布，分布的均值作为真实值

定理3.2（极大似然估计）　给定分布的概率密度函数f，这个概率分布由参数θ控制，我们从分布中采样X₁，X₂，X₃，…，X_n，似然函数就是样本关于该参数的条件概率：

最大化似然函数的意义就是在参数θ的所有的可能取值中，寻找一个使得采样最可能出现的θ，可能性最大，意味着似然函数也达到了最大值。

因为总的似然函数等于所有样本分布的乘积，大量的小的数连乘会造成数值下溢，所以我们将似然函数取对数，连乘就变为了对数求和：

最大化对数似然就是最大化多个高斯分布的对数和：

利用对数的性质，就可以将其拆开：

其中ln（σ）与ω无关，最大化对数似然，相当于最小化其负值，所以，我们有：

其中标准差σ独立于ω，不参与优化。这样，我们就以极大似然估计的方法得到了均方误差的表达式。极大似然估计是贯穿统计学习和深度学习的参数估计办法，我们会经常使用它来得到损失函数，因为极大似然估计可以获得参数估计的一致性（见第4章）。