1.2 对比与比率

如果你的团队刚刚开始数据应用的工作,那么“有数可看”对于团队来说已经足够好了。“昨天新增了5000个用户”“前一天的销售额为10万元”等,每天能看到这样的内容,团队会击掌庆祝。但是很快,这些数据就会被认为是低价值的分析依据进而被吐槽,来自各方的优化需求也接踵而至:丰富底层数据、丰富指标计算、让数据可视化并且高度自由可定制等。

为什么团队会这么快对这样的简单数据失去兴趣呢?这里要用到产品相关工作中的重要概念——场景。试想,当团队或者具体的数据分析师拿到这样的数据之后,具体的应用场景会是怎样的?假设我们拿到了“昨天新增了5000个用户”这条信息,此时它只是一个数字。想要处理和解读它,我们需要统一口径下不同维度的新增用户数据,比如按时间分,可以是前天、上周同一天、上个月同一天等。如果发现这些数据都比5000要好,此时我们又要“向下”细分,如各渠道的新增用户数量、各个产品的新增用户数量等。

可见,要让单一的数字发挥价值,需要不断地进行对比。

1.对比方法的作用

在数据应用的过程中,对比方法产生了很大的作用。

(1)消除不可控因素的影响

在优化产品的方法中,对比实验占有重要的位置。对比实验特别强调“控制变量”的理念:即在构建不同的实验组时,需要尽可能地保证只有要研究的问题在改变;除此之外,不同实验组是完全相同的。

例如大名鼎鼎的“A/B Test”——A/B测试,都有起辅助作用的“灰度发布”方法。当我们面对多个备选优化方案,并且很难提前判定哪个方案更好的时候,就会用到A/B测试方法,用实际的反馈数据来决定使用哪个方案。这几乎可以算是做产品优化需要具备的最基本的技术能力了。而“灰度发布”方法,就是为了在用户“无感知”的情况下,对用户进行“分流”——有些用户能看到新功能,其他用户则不能,但每一个用户都不会知道自己属于哪个部分。这就最大限度地保证了,在A/B测试的结果中,用户自身意愿的成分尽可能降低。

这种方法也可以用来屏蔽那些我们不可控的因素,如环境中的政策因素、突发事件、历史遗留问题等。这些因素会对产品产生显著的影响,但我们没有办法“优化”它,只能任由其存在和发展。因此,通过一定的方法屏蔽它的影响,也是势在必行的。如果A和B两个实验组都受到某个不可控因素的影响,那么对比的结论就可以认为不受这种因素的影响。

(2)减少冗余信息,增加数据的可读性

这个特性比较抽象,我们用例子来讲解。对于“昨天新增了5000个用户”,不同的人会有不同的理解。为什么呢?因为不同的人,掌握的背景知识和信息是不同步的。比如有两款不同的产品,一款产品的用户平均每天新增3000个,另一款产品的用户平均每天新增8000个。这两款产品对应5000这个数字的评价,一定是截然相反的。

但是在同一个团队的内部,我们不希望出现这种信息不同步的情况。为了让大家对数据的理解一致,我们需要给这个简单的数值加上一大堆辅助信息,如“前天的新增用户只有4000”“5000是历史上最高的一次”“其中有2000来源于昨天的运营活动”等。这些辅助信息就是冗余的,只为消除歧义而存在。但阅读这些数据的人,如果不能自己记忆所有的背景知识和信息,就必须要每次都去数据的源头把这些信息提取出来。

对比的好处就在于,通过对比给出的结论本身就包含了这些背景知识和信息。我们不再需要告诉别人“今天新增5000个用户,而昨天只新增了4500个”,而可以直接说“新增用户增加了11.11%”。如果你的工作是监督产品运转的整体情况,显然后一种表达方式更高效。

数据分析报告的重要价值之一就是数据分析师将几乎所有用到的背景知识和信息做了整合,放到了分析报告中。

(3)方便设定具体的执行计划

对比使得产品现状以及与目标之间的差距都是可量化的。通过对比分析,我们可以准确地给出“我们距离目标还差20%”这样的结论,而不是“我们希望在现有的基础上再多一点,多多益善”这样的模糊目标。

具体的目标会给后续的工作规划带来极大的便利,使得整个工作的过程变得可控。在工作中的任意一个时间点,我们都可以得到具体的、量化的现状数据,并对前一阶段的工作进行评估。

2.常见的对比方式

下面列举几种常见的对比方式,如用户之间、业务之间和时间点之间三种对比方式。

(1)用户之间的对比

用户之间的对比,就是按照不同用户的属性,把用户划分成几个群,再进行不同群之间的数据对比,并由此得出结论。用户的任意属性,都可以作为划分标准,但主要包括以下三大类:

❑通用的人口统计学方面的属性,包括年龄、地理位置、性别、收入等。

❑通用的用户行为的属性,包括与产品接触的高频/低频、行事风格的果断型/犹豫型、平台来源的iOS系统/Android系统、信息获取的主动型/被动型等。

❑细分的与具体业务特性相关的属性,如金融投资方面的总投资额、消费场景的总消费额、征信方面的信用评分、社交方面的粉丝数量、内容方面的UGC(User Generated Content,用户原创内容)贡献等。

对于以上划分标准,除了单独使用以外,还可以进行组合。比如这些例子:

❑围绕20~30岁用户群体的数据与围绕30~40岁用户群体的数据进行对比;

❑常住北京市的用户群体的数据与常住上海市的用户群体的数据进行对比;

❑男性用户群体的数据与女性用户群体的数据进行对比;

❑新注册用户群体的数据与老用户群体的数据进行对比;

……

(2)业务之间的对比

业务可以代表一款产品(或者包含多个子产品的一条产品线),也可以代表产品中的一个部分,如一个渠道、一种支付方式等。如果需要关注多个业务,那么可以考虑不同业务之间是否可以进行对比。当然,说到多个业务,其他公司的竞品也包括在内。

进行业务之间的对比要特别注意,两个业务是否真的能构成对比。通常存在一定相似性、构成一定竞争关系的两个业务才具有比较的意义。因此,我们可以沿着业务流程的链条来寻找和判断可以构成对比的业务:

❑两个业务是不是使用了同样的原料或相同性质的信息?

❑两个业务是不是使用了同样的供货商或者信息来源?

❑两个业务是不是基于相似的业务模式或盈利模式?

❑两个业务是不是用了类似的分销渠道或者信息传播渠道?

❑两个业务是不是瞄准了相似的用户群体?

……

比如,通过对比两个产品的数据,我们可以研究用户选择了A产品而舍弃B产品的原因;当我们想要改变这个现状的时候,改变哪个因素最容易达到效果。

再比如,在对比不同公司的产品时,需要特别注意团队能力、经济实力等公司维度的差异。当我们用对比得出的结论实际指导团队优化产品的时候,团队能力的差异就会表现出来。团队能力在短期内是一个不可控因素,应当考虑使用对比自身的特性尽量屏蔽这种因素对分析结果的影响。

(3)时间点之间的对比

时间维度的划分在简短的汇报中特别常见,如“同比增长”“环比下降”等。这些描述方式都是在时间维度上对数据进行了划分,让不同时间段的数据可以进行相互对比。我们也可以按照特定的时间段,把数据切分成我们想要的“实验组”与“对照组”。例如,团队在本月做了一项运营活动,但上个月同样做了一个类似的活动。那么,我们就可以把两个活动周期内的数据拿出来作对比分析,以分析哪种活动形式更适合我们的产品、哪种活动形式更符合我们的目标受众的口味。

但是相比前两个维度,时间的变迁更容易伴随着客观条件的改变。如果我们要使用时间这个维度来划分历史数据,同样需要考虑借助对比方法的特性,以屏蔽客观因素改变带来的影响。比如上面的例子,如果我们要对比两个运营活动,至少要保证两个活动的周期内没有发生重大的产品升级、没有出现节日或其他特殊时期,并且竞品和市场环境没有出现重大变化等。

3.比率:对比的“助手”

与对比方法类似,还有另一个在数据分析中常见的数据——比率。说到数据分析,你可能会想起各种“率”:成功率、转化率、同比/环比、占比等。

比率与对比的区别在于:对比只能是口径相同、维度也相同的两个数据之间的分析,如金额与金额比、人数与人数比、时长与时长比等;但比率可以是相同口径下的跨维度的数据之间的分析,如金额比人数、金额比时间、人数比时间等。比率的背后是基本的除法运算,实际意义是“平均分”——把金额平分到每个用户身上,把人数平分到每个时间段里等。也就是说,我们可以将一种维度的数据按照另一个维度细分下去。

比较有用的一种构建比率的方式如这个公式:“比率=目标资源/现有资源”。

比如转化率,我们以从“注册用户”到“付费用户”的转化分析场景为例。“注册用户”就是我们的现有资源,而“付费用户”则是我们的目标资源。以此组合出来的比率,自然是用转化为“付费用户”的用户数量比上转化之前的“注册用户”总数量。再比如,在分析每个用户身上花费的运营成本时,花费的资金数额就是目标资源,而由这些资金驱动的用户数量就是现有资源。

理解了这种规律,再加上比率本身的跨维度对比的特性,我们几乎可以利用任意两个数据构建对自己有用的比率指标。(在这里停留一分钟,大家自己“脑洞”一下?)