- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 309字
- 2021-09-26 16:15:32
3.7 本章小结
显然将分析建立在相关系数的随意使用上是有问题的。两个变量之间的关系强度并不能仅仅依靠计算r值。简单的散点图或平滑散点图都很容易检验线性假设是否成立,这对于进一步彻底深入的分析是必要的。
如果在图中观察到了线性关系,则r可以取计算值作为关系强度的度量。如果观察到的关系不是线性的,则r值应该剔除,或者在使用时需要格外小心。
当一个大数据的平滑散点图不能反映线性关系时,应该采用非参数方法检验其是否具有随机性或可察觉到的关联性。如果前者(随机性)是成立的,则可以得出结论,即变量间不存在关联关系。如果后者(可察觉到的关联性)是成立的,则这个预测变量需要被重新处理,以反映这种关联关系,并检验其是否可以被纳入模型之中。