第9章 相关系数在[-1,+1]内取值,是这样吗

9.1 引言

1896年,卡尔·皮尔逊发明了相关系数。这个有着跨世纪历史的统计量现在仍在广泛使用,使用频次仅排在平均值之后,位列第二。人们了解相关系数的缺点和在使用中应避免的错误。基于多年从事统计建模咨询,担任数据挖掘工程师以及从事统计学专业教学的经验,我见过太多人们无视其缺点以及误用这个指标的情况。人们很少提到的相关系数的缺点是,其取值区间[-1,+1]受到两个变量分布的限制。本章的目的是(1)讨论这两个变量的分布对相关系数取值区间的影响;(2)提供一个计算调整后的相关系数的一个方法,用这个方法算出的相关系数区间通常比定义的相关系数区间小。