3.3 散点图

对相关系数的线性假设的检验采用了散点图,即将点对(Xi,Yi)画在X-Y坐标图上。Xi和Yi通常分别作为预测值和因变量;下标i代表从1到n的观察值,其中n是样本量。在水平X轴和垂直Y轴的图上,散点图可以形象地展示两个变量之间的关系(但不意味着预测值和因变量之间存在因果关系)。如果图上散布的点看上去形成了一条直线,则满足了线性条件,rXY提供了一个度量X和Y线性关系的有意义的指标。如果这些散布的点不在一条直线上,则该条件不满足,rXY的值是有疑问的。

所以,在使用相关系数度量线关系时,建议画出散点图,检验线性假设条件是否成立。不幸的是,许多数据分析师不这样做,那么基于相关系数之上的分析可能是无效的。下面的示例可以进一步说明用散点图评估的重要性。

表3.2中有4个数据集,共11个观察值[1]。这4组(X,Y)点子具有同样大小的相关系数0.82。然而,X-Y关系是截然不同的,反映了不同的结构,见散点图3.1。

表3.2 4组(X,Y)点具有同样大小的相关系数(r=0.82)

图3.1 4组不同数据集具有同样大小的相关系数

X1-Y1(图3.1a)表明存在线性关系。所以的值0.82正确指出了X1和Y1之间存在强正相关性。X2-Y2散点图(图3.1b)展示了一个弯曲的关系;=0.82。X3-Y3散点图(图3.1c)显示了“外边”的一个观察值(13,12.74),其他点子形成了一条直线;=0.82。X4-Y4散点图(图3.1d)有“自己独特的形状”,明显不是线性的;。所以说,相关系数值0.82对于后三个X-Y关系并不是一个有意义的数值。