- 统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
- (美)布鲁斯·拉特纳
- 1156字
- 2021-09-26 16:16:09
11.2 背景
在当今这个大数据世界里,尽管统计方法很先进,通过大量计算机并行处理能获得大量成果,但企业仍发现自己缺乏有关客户的数据。一家公司即便拥有其客户交易的全部数据,也不知道客户与他们的竞争对手的交易情况。根据具体情况不同,企业不得不购买外部数据(既贵又不全),或者做一项调研(昂贵、耗时而且偏差大)以填补数据空缺。
SOW是实施市场营销战略的一个关键指标,也是监控一家企业的重要信息,比如客户忠诚度、客户获取和流失趋势、利润等。企业通常发起营销活动以推广重点产品。在这类活动中,这家企业需要知道每个客户感兴趣类别的SOW数据。我们用一家商业信用卡公司的案例来展示这个方法。选择这个案例是由于信用卡公司通常很依赖SOW数据。
比如,对于客户感兴趣的商品来说,锁定大的SOW值不需要大张旗鼓,或者如果企业想锁定那些SOW值小的客户,就要发出非常有吸引力的信息,附带有诱惑力的条件,比如折扣、额外奖励点数或免息分期支付计划。
SOW定义
SOW的基本定义是一位客户在一段时间里的某件商品或服务上的支出金额,除以这段时间的全部支出金额。尽管定义很简单,但SOW的计算是很难的,因为竞争对手的客户数据无法获得。一家信用卡公司知道其客户信用卡购买的所有记录,但却无法得到其客户使用竞争对手的信用卡的购买交易数据。
在实践中,预测SOW的常用方法是使用抽样调研数据,这是获得竞争对手信用卡采购数据的信息来源。做这样的抽样调研费时且成本高,更重要的是,无法知道抽样调研数据的质量如何,换言之,就是指这些数据的可靠性和有效性是未知的[1,2]。我知道有一篇文章是关于使用两步统计模型而不是抽样调研数据来预测钱包(一件商品或一项服务的总支出金额)和SOW(Glady,Croux 2009)的。这个模型的使用范围有限,很难在实践中采用。文章的作者认为这个模型是初步的,还需要进一步研究[3]。
1.SOW_q定义
我们要说的是准SOW这个概念,记作SOW_q,这个SOW适用于有不同总支出的客户,并且采用概率加权,估算客户在不同品类上的总支出金额。我们将以一家真实存在的信用卡公司为例,全面介绍包括SOW_q的计算和建模的所有重要细节(我们虚构了一个公司名称AMPECS)。这个案例可以直接引申出任何一个行业、产品或服务的SOW_q方法。
2.SOW_q似然假设
以下是一家公司在计算SOW_q时采用的假设:
1)如果一家企业客户在一段时期花费大量资金进行各种品类的采购,其SOW_q就会很大,因为这家客户不太像是还使用了其他信用卡。
2)如果一家客户在一段时期的各项采购总支出较少,那么SOW_q也会较小,因为这家客户很可能同时在使用其他的信用卡。
3)如果一家企业客户在一段时间的各项采购总金额适中,则SOW_q也是中等数值,因为这家客户有可能也在使用其他的信用卡。
由于上述假设是SOW_q方法的关键点,我们采用SOW_q的一个保守计算方法,去除这个方法本身包含的向上偏差。所以,我们用SOW_q区间范围内的因子降低了SOW_q的取值。例如,当0.20≤SOW_q<0.30时,令SOW_q=SOW_q*0.20。