- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1034字
- 2021-09-26 16:15:52
9.2 相关系数的基础知识
相关系数记为r,是衡量两个变量的线性关系或直度的一个指标。按照定义,相关系数的取值介于-1和+1,包括两个端点值±1,即闭区间[-1,+1]。
以下几点是解释相关系数取值的公认规则:
1)0表示不存在线性关系。
2)+1表示存在完美的正线性相关:当一个变量的值增大时,另一个变量的值也严格按照线性规则增大。
3)-1表示存在完美的负线性相关:当一个变量的值增大时,另一个变量的值按照严格线性规则减小。
4)相关系数在0到0.3之间(0到-0.3)表明存在弱的正(负)线性相关。
5)相关系数在0.3到0.7之间(-0.3到-0.7)表明存在中等程度的正(负)线性相关。
6)相关系数在0.7和1.0之间(-0.7到-1.0)表明存在强的正(负)线性相关。
7)相关系数r的平方称作决定系数,并记为R平方,通常被看作是有另一个变量解释的一个变量的变化百分比,或者这两个变量共享的变化百分比。该系数有以下性质:
a.r是观察和建模(预测)的数据值的相关系数。
b.R平方会随着模型中预测变量个数的增加而变大;R平方不会随着预测变量个数的增加而变小。大多数建模者误以为具有更大R平方的模型要比R平方小的模型好。这种误解导致了建模者想在模型中加入更多(不必要)的预测变量。相应地出现了对R平方的调整,称作调整后的R平方。这个统计量的解释和R平方一样,但是当模型中有不必要的变量时,会导致R平方变大。
c.具体讲,经过调整的R平方因为回归模型中的样本量和变量个数而调整R平方。所以,经过调整的R平方可以让不同变量数和样本量的模型具有可比性。与R平方不同的是,经过调整的R平方不一定随着模型中的预测变量增加而必然会变大。
d.R平方是一个好模型的首要指标。R平方经常会被误用成评估哪个模型会得出更好预测的指标[1]。均方根误差(RMSE)是确定更好模型的量度指标。RMSE的值越小,模型越好(也即预测越准确)。通常RMSE比均方误差(MSE)更适用,因为RMSE的单位和数据的单位一致,而不是采用单位平方,所以可以代表一个“典型”误差的大小。RMSE只在模型拟合得很好时(即模型既不过拟合,也不欠拟合)才是一个模型质量比较的有效指标。
8)线性假设:相关系数要求所考察的两个变量之间具有线性关系。如果已知存在线性关系,或者观察到的两个变量之间的形态似乎是线性的,则相关系数可以提供这种线性关系程度的一个可靠量度。如果已知这种关系是非线性的,或者观察到的形态像是非线性的,则相关系数是无用的,或者至少存在疑问。我经常看到因为忽略了检验线性假设而误用相关系数的情况,尽管这个检验很容易做。
[1] 在b中谈到过误用。