第二章分位数回归

第一节什么是分位数回归

当分析变量间关系时，最小二乘回归是我们最为熟知的一类统计方法。例如，在一个两变量模型中，当我们要研究变量x和变量y之间的线性关系，可以将回归模型设定为古典线性回归模型：

最小二乘法就是通过使残差平方和最小化来确定未知参数 β，即通过求解如下最小化问题进行参数估计，

但是在这一回归模型中，我们得到的估计量属于均值回归估计量。换句话说，当变量取值在均值附近时，利用的结果进行分析和预测的准确率较高，但是在变量y分布的上尾处或下尾处可能出现较大的估计偏差，我们希望能得到x对y的整个分布上任意位置的影响，这就需要使用分位数回归。

Koenker和Bassett于1978年提出分位数回归这一方法，在线性关系的假设下，通过最小化残差加权绝对值之和，可以得到在因变量分布任意分位点处的回归方程。以上面的二变量线性回归为例，分位数回归函数可表示为：

其中，为分位点，取值介于0和1之间。也就是说在因变量的分位点处，x和y之间的关系取决于。为了得到的估计值，不能再如均值回归一样采用最小二乘，而是需要采用加权绝对距离之和最小的估计方法，具体目标函数如下：

当=0.5，式（2 -1）为中位数回归的目标函数，此时目标函数也可以简化为：

由于分位数回归使用残差绝对值的加权平均作为最小化的目标函数，因此不易受到异常点的干扰，与普通均值回归相比更为稳健。此外，分位数回归不要求扰动项为正态分布，应用条件更宽松，应用范围更广。最重要的是，分位数回归能够提供关于因变量分布上不同位置处的回归信息，从而能够对变量关系进行全方位刻画。