3.2 分位数回归方法

本研究在分析大学编委数量与科研产出的相关性时,使用的主要统计技术之一是由Koenker和Basset提出的分位数回归模型Koenker R,& Bassett G.Regression quantiles[J].Econometrica,1978,46(1),33-50.。理论上说,普通最小二乘回归是拟合因变量Y的条件均值与自变量X之间的线性关系,而分位数回归是通过因变量在0-1之间取不同条件分位数值时,对特定分布的数据进行估计。普通最小二乘回归估计的是自变量对因变量的平均边际效果,而分位数回归估计的是自变量对因变量的某个特定条件分位点(如30%、50%、70%)的边际效果。其中50%分位点的回归也叫中位数回归。普通最小二乘回归只能提供一个平均数,而分位数回归却能提供许多不同分位数的估计结果。

本研究中使用分位数回归主要基于以下三点考虑。第一,分位数回归能够详细刻画因变量位于条件分布不同位置时自变量对因变量的影响差异,能够为我们提供大学编委数量与科研产出两者关系更为全面丰富的信息。本研究在化学、计算机、经济学学科中进行大样本的实证检验,化学、计算机、经济学学科中分别有样本大学1387所、1573所、984所大学之多,然而,影响因变量科研产出的因素有很多(本研究将编委数量作为自变量,科研产出作为因变量),比如科研经费的投入、科研人力的投入、科研政策的影响等等。要想获取所有这些大学的科研经费投入等数据是非常困难的,特别是还要获得在具体每一个学科中的这些数据就更加困难。而诸如科研经费的投入、科研政策的影响等是影响科研产出非常重要的变量,但是这些变量的数据很难获取。遗漏的这些重要变量多数情况下会被加入到误差项中,误差项的存在使得科研产出的条件分布很有可能位于不同的位置,反映了我们无法观察到的一些信息。而分位数回归正是可以对科研产出条件分布的不同位置进行分析,其为我们详细刻画大学编委数量与科研产出的相关性提供了可能,在我们无法获取更多变量数据的情况下,它能够为我们展现普通最小二乘回归在遗漏变量时无法呈现的更多丰富信息,为我们展现大学编委数量与科研产出两者关系的全貌,有助于我们深入理解两者之间的关系。

第二,分位数回归可以避免普通最小二乘回归中误差项同分布等较为严格的假设。普通最小二乘回归当数据出现尖峰或肥尾分布、异方差时,将不再具有最佳线性无偏估计的优良性。一方面,由于我们研究的变量中涉及总被引频次、篇均被引、h指数等引文数据,而引文数据具有非正态分布的性质,在此种情况下,分位数回归是一个较好的替代方法Danell R.Can the quality of scientific work be predicted using information on the author's track record?[J].Journal of the American Society for Information Science and Technology,2011,62(1),50-60.;另一方面,本研究化学、计算机、经济学学科中分别有样本大学1387所、1573所、984所大学之多,这些大学也有很大差异,在前述如科研投入等一些变量数据无法获取的情况下,会使模型中存在异方差的可能性很大,而分位数回归的特点之一就是可以避免普通最小二乘回归中误差项同分布的严格假设,允许异方差的情况下对变量进行分析。

第三,分位数回归较之普通最小二乘回归更为稳健,它对异常值具有耐抗性。分位数回归方法对异常值不敏感,这就如同中位数、分位数值相对于平均数受异常值的敏感性小的原理类似,该方法具有很强的稳健性邢春冰.中国不同所有制部分的工资决定与教育回报:分位回归的证据[J].世界经济文汇,2006,(4):1-26.   俞立平.科技评价方法基本理论研究:多属性评价面面观[M].北京:学习出版社,2011.

分位数回归模型可以用下式表示:

其中Yi是因变量,在本研究中分别用大学的论文数量、总被引频次、篇均被引、h指数测量。Xi是自变量,在本研究中用大学的编委数量表示。μθi为误差项,βθ是θ分位数下的回归系数。Quantθ(Yi|Xi)表示给定Xi条件下Yi的第θ个分位数,关于误差项的设定假设Quantθ(μθi|Xi)=0。当θ在(0,1)上变动时,第θ个分位数下的估计值为下面最优化问题的求解:

随着θ由0到1,我们能得到所有Y在X上的条件分布轨迹,即一簇曲线,而非像普通最小二乘回归只能得到一条曲线。式(2)可通过诸如单纯形法、内点算法、平滑算法等不同的参数估计方法进行求解,不同的求解方法各有优缺点。而本研究中分位数回归的统计分析通过运用Eviews6.0软件完成。

分位数回归技术目前已经在科学计量学、科技管理、高等教育学领域中得到了一定的应用。Danell在情节记忆、玻色—爱因斯坦凝聚两个研究领域的研究发现论文在过去的被引频次与现在的被引频次之间存在显著的正相关关系,且随着被引频次分位点的提高,两者的相关性越来越强Danell R.Can the quality of scientific work be predicted using information on the author's track record?[J].Journal of the American Society for Information Science and Technology,2011,62(1),50-60.。Stvilia等人从美国国家强磁场实验室发布的年度报告中选取了1415个实验团队为样本,运用分位数回归分析了这些团队诸如组成人员来自机构的多样性、学科的多样性等团队结构因素与团队科研产出数量的相关性,结果表明不同的团队结构因素与科研产出数量的相关性在不同分位点并不相同Stvilia B,Hinnant C C,Schindler K,et al.Composition of scientific teams and publication productivity at a national science lab[J].Journal of the American Society for Information Science and Technology,2011,62(2),270-283.。俞立平运用分位数回归方法在人文社会科学领域中分析了702所中国大学的课题科研经费、非课题科研经费、科研人员全时当量三个因素对科研产出数量的影响。其研究结果表明,随着科研产出数量分位点的提高,课题科研经费的弹性系数、科研人员全时当量的弹性系数随之降低,而当科研产出数量位于低分位点时,非课题科研经费与之无关俞立平.中国高校人文社科投入要素的贡献研究[J].北京理工大学学报(社会科学版),2012,14(5):32-38.。此外,卿石松和曾湘泉运用分位数回归法方法研究了不同专业对于本科毕业生起薪的影响卿石松,曾湘泉.本科毕业生起薪的差异分析[J].北京大学教育评论,2013,11(4):98-109.。舒强和张学敏运用分位数回归方法分析了农民工家庭子女高等教育个人投资的收益风险问题舒强,张学敏.农民工家庭子女高等教育个人投资的收益风险[J].高等教育研究,2013,34(12):51-59.