第二章 分位数回归

第一节 什么是分位数回归

当分析变量间关系时,最小二乘回归是我们最为熟知的一类统计方法。例如,在一个两变量模型中,当我们要研究变量x和变量y之间的线性关系,可以将回归模型设定为古典线性回归模型:

最小二乘法就是通过使残差平方和最小化来确定未知参数 β,即通过求解如下最小化问题进行参数估计,

但是在这一回归模型中,我们得到的估计量属于均值回归估计量。换句话说,当变量取值在均值附近时,利用的结果进行分析和预测的准确率较高,但是在变量y分布的上尾处或下尾处可能出现较大的估计偏差,我们希望能得到xy的整个分布上任意位置的影响,这就需要使用分位数回归。

Koenker和Bassett于1978年提出分位数回归这一方法,在线性关系的假设下,通过最小化残差加权绝对值之和,可以得到在因变量分布任意分位点处的回归方程。以上面的二变量线性回归为例,分位数回归函数可表示为:

其中,为分位点,取值介于0和1之间。也就是说在因变量的分位点处,xy之间的关系取决于。为了得到的估计值,不能再如均值回归一样采用最小二乘,而是需要采用加权绝对距离之和最小的估计方法,具体目标函数如下:

=0.5,式(2 -1)为中位数回归的目标函数,此时目标函数也可以简化为:

由于分位数回归使用残差绝对值的加权平均作为最小化的目标函数,因此不易受到异常点的干扰,与普通均值回归相比更为稳健。此外,分位数回归不要求扰动项为正态分布,应用条件更宽松,应用范围更广。最重要的是,分位数回归能够提供关于因变量分布上不同位置处的回归信息,从而能够对变量关系进行全方位刻画。