第3章 变量评估的两种基本数据挖掘方法

3.1 引言

评估一个预测变量和一个因变量之间的关系,是建模过程中的一项基本任务。如果识别出的关系是可追溯的,那么,预测变量就反映了之前未发现的关系,并且可以用模型加以检验。相关系数是关键的统计量,尽管在变量评估方法中,它总是被误用。相关系数的线性假设在其使用范围未知的情况下,一般是不可检验的。本章的目标有两个:首先,展示平滑散点图是一种容易使用和有效的数据挖掘方法;其次,评估两个变量关系的一般关联非参数检验。前者的目的是让数据分析师能够大胆检验线性假设,确保相关系数的正确使用。后者的目的是提供一种行之有效的数据挖掘方法,用于评估平滑散点图的指示信息。

本章先快速回顾相关系数,其中包括检验线性假设重要性的说明,并介绍平滑散点图的做法,这是一个检验线性假设的建议方法。然后,介绍一般关联性检验,作为评估两个变量之间一般关联性的数据挖掘方法。