第2章常见分析方法和指标详解

第1章主要讲解了我们对于数据的基本认知以及数据的特性，总结了在数据分析时的基本思路和方法。在这一章中，我们会继续前面的话题，讲解数据分析的基本思路，并尝试从中提炼规律性。

本章内容共分为五节，分别如下：

❑访问量与点击量；

❑转化率与漏斗模型；

❑用户画像与用户分群；

❑产品推荐与精准营销；

❑广告投放与商业变现。

这五节内容是按照由基础到高级、由表象到本质的顺序排列的。其中囊括了目前用到的主要分析思路，也涵盖了做数据分析师常见的优化目标，如提高转化率、了解用户、实现商业目标等。

本章内容可以用图2-1所示的关系来概括。

图2-1 常见分析思路之间的关系

2.1 访问量与点击量

用户看到与我们的产品相关的内容，并根据设计好的交互功能进行单击、滑动等操作来切换内容，这是用户最基本的行为。在这个过程中，用户能接触到的不仅包括产品本身的页面和功能，而且包括各种与产品相关的内容，如我们制作的广告图片、撰写的运营文章、拍摄的宣传片，以及在新兴媒体上发布的微博、推送的公众号消息、进行的直播等。

对于以功能为主的产品，除了功能的搭建和完善，最需要关心的当然就是用户如何借助提供的功能在产品内部“流动”——通过用户访问和操作的行为数据来分析用户是如何使用各个功能的。而对于其他类型的产品，在操作流程中也免不了伴随着浏览和点击等基本行为，并产生相应的行为数据，如购买商品的流程、投资的流程等。因此，“访问”和“点击”这样的用户基本行为始终是需要重点分析的对象。

1．流量数据的使用

流量数据比较常见的用途有三方面：作为观测指标、作为交互设计的评价依据、作为切分维度，下面分别展开介绍。

（1）作为观测指标

流量数据最直接的使用，就是只关注流量本身，也就是关注用户行为本身。这种方式比较简单，只是对已经记录的数据进行简单的计数。比如，每个页面的曝光量、点击量是多少？点击率是多少？相对应地，除了页面，还可以看每个功能按钮、每个预留的运营位置放置的banner、每款产品的详细内容、每条微博、每段视频、每场直播等。

这种对于流量数据的直接统计和观测，其目的通常是做到对整个产品整体的情况有一个宏观上的认知。比如，每天上班的第一件事，就是看看自己负责的内容有多少用户访问了、点击了，如果在宏观的数据上发现了问题，就深挖下去找到原因。这种简单的统计是最基本的流量数据加工，在团队中，关注这种数据的通常都是团队的leader。

将流量数据作为统计指标的另一种重要情况就是流量本身是“买来的”。比如，我们将编辑好的运营文章投放到特定的传播渠道，亦或是广告投放的过程，其中的流量都直接对应着一部分成本。因此，在这些场景中，将流量数据单独作为指标来查看，除了用来把握用户行为的宏观情况，还达到了监控成本的目的。

（2）作为交互设计的评价依据

与用户直接接触的是交互设计，因此流量数据分析也可以用来对交互设计进行评价。评价的过程就是从流量数据中选择那些可量化的数据，以对交互设计进行量化，从而得出评价的结论。

❑直接对流量数据进行统计。比如，用户实现一个目标需要经过几个步骤，放在显眼位置的按钮或者内容是否足够吸引人等。

❑通过特定行为的产生来定位交互设计中存在的问题。比如，用户跳出产品。

❑通过相邻两个行为之间的时间差来评估交互功能的简便性。如果用户在一个中间环节的页面停留得太久，并且最终直接离开了，这个页面就需要马上进行优化。

❑通过多个行为的执行顺序来评估展示给用户的信息是否清晰明了、是否足够完整等。如果展示信息设计得不合理，用户可能需要在多个页面之间多次往返。

通过这些数据，我们就可以从流量的角度，也就是用户在实际使用过程中产生的真实行为的角度，来对交互设计进行量化的评价。

这种评价的好处，首先在于它的评价依据是客观的、量化的，而不是喜好、情绪这种主观因素。所以不仅评价结果本身是一个量化的、具有指导性的结果，更重要的是多次评价结果之间可以近似地进行比较，如画成随时间变化的折线图等。其次，由于流量数据通常都是最细颗粒度的明细数据，因此一旦我们在评价结果上发现了问题，就可以找到更细粒度的流量数据，以支持对问题的进一步研究，最终准确地定位真正导致问题产生的环节。

（3）作为切分维度

除了直接对流量数据进行统计外，更常见的分析场景是将流量数据作为其他数据的切分维度，即我们将各种页面、按钮等作为其他数据的来源渠道，并用流量的大小来衡量每个渠道价值的大小，以此作为维度来切分其他数据。

举个例子：在电商场景中，电商平台内的流量就经常被用来切分交易额的来源。如果我们在产生的每笔订单上都做了与流量数据相关的标记，比如我们知道哪些订单是从首页推荐的产品上产生的、哪些是从产品目录产生的、哪些是从用户已购买商品的订单列表产生的等。这样，经过简单的数量统计，我们就知道首页、产品目录和订单列表对最终交易额的贡献到底谁大。

做到这一步，我们还只是把其他数据按照流量的“入口”进行了切分。如果我们进一步关注这些入口“流入”的用户的具体数量，还可以将这些“入口”贡献的交易额再具体地切分到每一次访问、点击等用户行为上。之后，我们就能统计出平均几次浏览、几次点击才能够产生一笔订单，而平均每次浏览和点击对最终交易额的贡献是多少。

类似地，我们可以将交易额、利润和成本等很多重要的数据按照流量切分。也可以说，通过这样的切分，我们就可以估算出用户浏览行为的价值是多少。比如如果流量本身是收费的，通过计算流量带来的平均交易额和利润，我们就能够评估这些买来的流量是否“物有所值”。

2．流量数据面临的问题

虽然流量数据十分重要，但在获取和加工上并非“一帆风顺”。可能面临的重要问题主要包括以下两方面。

1）数据获取的过程。如何设计获取数据的过程，这确实是一个“技术活”，特别是在当下移动互联网兴盛的时代。

在以PC为主的时代，流量数据的获取相对简单一些。我们需要做的就是在页面、按钮以及各种链接的位置进行数据埋点，还可以针对特定行为的产生进行数据埋点。当用户访问、点击或者执行了特定的行为时，数据就会传递到后台系统而被记录下来。以数据上报的策略为例，之所以说PC时代的数据获取相对简单，是因为在PC时代，用户所处的环境相对稳定，因此在上报策略中不需要考虑太多环境因素的变化。举一个实际的例子：除非设备、线材老化而出现问题，或者突然停电，否则几乎不可能出现突然断网的情况，而且网络带宽基本稳定。

相比之下，移动互联网的场景就没那么简单了。用户所处环境灵活多变，就会导致网络不稳定，最终导致收集上来的数据不全、不准。比如走到地下室、坐地铁时经过隧道，或者走到室内某个信号不好的地方等。

针对类似的情况，有两种可以参考的数据上报策略。

一种方式是收集数据之后先存储在移动设备上，等到网络状态良好的时候再统一上报到服务器。这种方式的好处就是“绕过”了网络状况的影响，但如果对数据实时性要求比较高，这种方式会导致数据更新有延迟，并且延迟多久并不能确定。另一种方式是一旦移动设备联网了就会“不停地交换数据”，与使用QQ聊天一样，实时收集任何新数据。这种方式能保证数据的时效性，但是除了受到网络的影响以外，还会耗费用户大量的移动网络流量，并且可能导致产品在使用过程中出现卡顿现象。

因此，目前数据上报的策略需要在时效性、准确性和用户体验等多方面进行平衡，同时要设计出现数据遗漏时的补救措施。

2）数据量大，难于加工和计算。这几乎是一个纯技术问题，反映到数据应用层面，就是数据处理和展现工具“反应慢”。比如，流量数据相对于交易数据来说，数据量可能是交易数据的十几倍到几十倍不等，因产品自身的复杂程度与交易流程的复杂程度而异。

针对这类问题，围绕“大数据”概念而出现的各种数据处理技术将会解决这类数据加工和计算的问题，如分布式计算、并行计算、对非结构化数据的处理等。

第2章 常见分析方法和指标详解

2.1 访问量与点击量

第2章常见分析方法和指标详解