12.3 迷你案例

我们用一个迷你数据集A对一般回归建模做一个“大”讨论。我们不仅要用这个非常小的数据集说明可追溯的数据挖掘方法,还要强调数据挖掘的两个重要方面:第一,数据挖掘方法应该在大数据和小数据上都能行得通,这个观点在第1章的数据挖掘定义中已经明确了。第二,用小数据做数据挖掘的每个有效成果都说明大数据并不是发现数据结构必不可少的条件。这符合EDA理念,即数据挖掘工程师应该从简单处入手,直到有指标出现,再往前推进。如果预测结果不被接受,则应增加数据量。

迷你案例研究的目标如下:基于变量收入(INCOME)和年龄(AGE)构建一个OLS利润模型。一般回归模型(自从1805年3月6日发现最小二乘法依赖,这个方法在两百多年时间里广受欢迎)是典型的线性模型,隐含着一个重要的假设:给定预测变量和因变量之间的关系是线性的。所以我们采用第3章介绍的平滑散点图法,确定这个线性假设是否在PROFIT、INCOME和AGE之间成立。对于迷你数据集来说,10个分片共10个数据就可以画出一幅平滑散点图。实际上,平滑散点图是10对点子(PROFIT,预测变量Xi)的简单散点图。(对比说明:第10章中与逻辑斯谛回归讨论的logit值散点图与OLS方法无关。数量化的因变量不需要像在逻辑斯谛回归中那样的转换,比如将logit值转换为概率。)