6.5.2 示例2

自从1912年4月15日发生了“白色之星”级巨型邮轮泰坦尼克号在北大西洋撞冰山沉没这个严重事件之后,对于灾难的想象从未停止。近年来,人们对泰坦尼克号的兴趣骤然上升,因为罗伯特·巴拉德博士于1985年发现了该船的遗骸。这个世纪悲剧令人着魔。

任何有关这艘船沉没的新线索都是大新闻。我相信SRD法可以满足泰坦尼克号爱好者的好奇。我建立了一个初步的泰坦尼克模型,用来确认幸存者,如果泰坦尼克II号将要出航的话,就可以事先预测谁将最有可能在撞击冰山时有机会活下来,这个幸存概率是2.0408e-12到1之间[1]。这个模型稍后会详细介绍,它清晰地展示了SRD数据挖掘方法的优势,值得被纳入每位数据挖掘工程师的工具箱里。

1.泰坦尼克数据集

泰坦尼克号上的船员和乘客共有2201[2]人,只有711人活下来了,幸存率为32.2%。对于所有这些人来说,他们的人员信息是已知的:GENDER(男,女),CLASS(头等,二等,三等,大仓),AGE(成人,儿童)。

所有人按照GENDER-CLASS-AGE分为14类(表6.3)。表6.3包括了总人数(N)、幸存人数(S)以及幸存率(Survival Rate,单位是%)。

表6.3 泰坦尼克数据集

由于只有3个变量,而且信息很少,所以,构建泰坦尼克模型无论是从学术界还是业界角度看,都是非常有挑战性的[2-6]。SRD法在构建泰坦尼克模型的文献中是一个有价值的数据挖掘原创方法。下一节我们介绍这个建模过程。

2.重新编码的泰坦尼克序数变量CLASS_、AGE_、GENDER_、CLASS_AGE_和CLASS_GENDER_

为了观察这些数据的形态,我绘制了CLASS_、AGE_、GENDER_茎叶图和箱线图(分别见图6.6、图6.7、图6.8),也绘制了6.2节建立的交互变量CLASS_AGE_和CLASS_GENDER_的图,见图6.9和图6.10。在为交互变量设定顺序值时,我采用了众所周知的危机评价范围。“妇女儿童优先”,女性和儿童的幸存率分别是74.35%和52.29%(表6.4),这在上面所说的区间之内。

图6.6 CLASS_直方图和箱线图

图6.7 AGE_直方图和箱线图

图6.8 GENDER_直方图和箱线图

图6.9 CLASS_AGE_直方图和箱线图

3.对称化处理后的泰坦尼克序数变量rCLASS_、rAGE_、rGENDER_、rCLASS_AGE_和rCLASS_GENDER_

rCLASS_、rAGE_、rGENDER_、rCLASS_AGE_、rCLASS_GENDER_的茎叶图和箱线图见图6.11~图6.15。

图6.10 CLASS_GENDER_直方图和箱线图

表6.4 女性与儿童的存活情况

图6.11 rCLASS_直方图和箱线图

SRD法的应用结果见表6.5,可以对比原始变量和SRD变量的偏度。变量CLASS_、CLASS_AGE_和CLASS_GENDER_已经被重新表述,可以看到相应的有偏分布到对称分布之间的巨大差异:在朝向零的方向,偏度值大幅下降,尽管AGE_和GENDER_是无意义的变量,这两个变量只有两个值,这里只是用作参考。

4.构建一个初步的泰坦尼克模型

按照序数变量和区间变量的定义,我们知道对称化排序变量不是序数变量。尽管如此,经过重新表述的变量rCLASS_、rCLASS_AGE_和rCLASS_GENDER_的度量性质是不明显的。这些变量不是在一个比率量度上,因为无法定义一个真实零值。相应地,我把对称化排序变量定义为一个类似区间变量的变量。

图6.12 rAGE_直方图和箱线图

图6.13 rGENDER_直方图和箱线图

图6.14 rCLASS_AGE_直方图和箱线图

图6.15 rCLASS_GENDER_直方图和箱线图

表6.5 原数据与经过对称化处理的排序数据偏度对比

初步的泰坦尼克模型是一个以SURVIVED为因变量的逻辑斯谛回归模型,并假定1=是,0=否。这个初步的泰坦尼克模型用SAS程序LOGISTIC建立,其定义包含了两个交叉对称化排序变量rCLASS_AGE_和rCLASS_GENDER_,见表6.6。

表6.6 初步泰坦尼克模型的LOGISTIC程序:最大似然估计分析

这个初步模型得出的结果是,59.1%(=420/711)的幸存者和之前预测的幸存者的归类是相符的,见表6.7。这个幸存率表明,可以得出对一个二值分类模型的预测能力的更准确的评估结果——如果有一个大的不成比例的单元,比如预测而且实际上有1199名乘客死亡(第一行,第一列)。这里只给出了初步模型的结果,因为还有很多工作需要完成,包括在完成这个泰坦尼克模型之前要测试三路交互变量,这些工作超出了本章内容的范围。

表6.7 初步泰坦尼克模型的分类表

[1] 来源未知(实际是我丢失了这个来源信息)。

[2] 这个数字有争议,我看到的数字多数是2201名乘客和711名幸存者,也看到过2208名乘客和712名幸存者的说法。