10.3 案例分析

通过以下关于为投资产品的请求构建回应模型的案例研究,我介绍了一系列数据挖掘技术。为了使这些方法的讨论更容易掌握,我采用了来自直邮请求数据库的原始数据,这是小数据(几个变量,其中一些只有很少的数值,以及一个“小型大样本”)。用稍大的数据得出的结果也是相似的。

我在这里提到了数据大小的问题,因为数据挖掘者都赞同大数据更有利于分析和建模。现在有一个趋势,特别是在统计学相关领域里(比如计算机科学),知识发现和网络挖掘都在应用超大数据。这个趋势是因为一个错误的说法,即超大数据要比大数据更好。一个统计学事实是:如果小数据能够做出真实模型的话,那么用大数据或超大数据重做模型,得出的结果会出现大的预测误差方差。由于建模者并不知道真实模型是怎样的,他们只能遵循简单性原则。所以,最明智的方法是构建一个使用最少数据的模型,只要能得出良好的结果就可以。如果预测结果是不错的,那么这个模型就可以作为真实模型的一个好的近似。如果得出的预测结果无法接受,则探索性数据分析(EDA)方法会增加样本量(通过增加预测变量和个体),直到模型能够得出不错的预测结果,此时的数据样本量就足够大了。如果用超大数据构建模型,则多余的不必要的变量会对模型产生负面影响,进而增大了预测误差的方差。

候选预测变量和因变量

令TXN_ADD为“是-否”二值(回应)因变量,用于记录现有客户的活动,他们收到了一份被推荐购买额外投资产品的推广邮件。这个“是-否”的回应记为1-0,对应的是客户在其投资组合中已经/还没有加入至少一只新基金产品。TXN_ADD的应答率是11.9%,对于一个直邮促销活动来说,这个应答率通常比较大,对于促进现有客户增加购买来说,这是一个正常水平。

用于预测TXN_ADD的5个候选预测变量,其取值反映了收到邮件之前的情况:

1)FD1_OPEN反映了客户拥有的不同类别账户的数量。

2)FD2_OPEN反映了客户拥有的账户总数。

3)INVESTMENT表示客户投资金额的序数值:1=25~499(美元),2=500~999(美元),3=1000~2999(美元),4=3000~4999(美元),5=5000~9999(美元),6=10 000(美元)以上。

4)MOS_OPEN表示开户至今的月数的序数值:1=0~6(个月),2=7~12(个月),3=13~18(个月),4=19~24(个月),5=25~36(个月),6=37(个月)以上。

5)FD_TYPE是客户最近购买的投资产品的类型:A,B,C,…,N。