- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 309字
- 2021-09-26 16:15:52
9.3 计算相关系数
X和Y的相关系数计算很容易理解。令zX和zY分别为X和Y标准化之后的结果。也就是说,zX和zY都经过重新表述,均值(mean)等于0,标准差(std)为1。计算标准化值的重述公式和计算rx,y的公式分别为公式9.1、公式9.2和公式9.3:
相关系数定义为标准化值对(zXi,zYi)乘积的平均值,见公式9.3:
其中n是样本量。
作为一个简单的计算过程示例,我们考虑5个观察值的样本,见表9.1。列zX和zY分别为X和Y的标准化值。最右一列是标准化值对的乘积,其和为1.83,平均值(用调整后的被除数n-1,而不是用n)是0.46。所以,rX,Y=0.46。
为了全面一些,我在图9.1中提供了原始数据X和Y的散点图,不幸的是,由于样本量小,这个散点图没有太大用处。
表9.1 相关系数的计算
图9.1 X和Y的散点图