- 数据分析方法论和业务实战
- 陈友洋
- 1826字
- 2024-11-03 10:06:31
1.3 数据分析的步骤
数据分析从发现问题到运用方法去解决问题有一个完整清晰的过程。
作为数据分析师,清晰了解数据分析的步骤是非常重要的,有助于清楚地把控整个数据分析的流程。
作为想要学习数据分析的人员,只有了解数据分析的流程,在面对数据分析问题时,才能知道如何去开展。
那么,数据分析流程包含哪些环节呢?
一次完整的数据分析流程主要分为6个环节,包括明确分析目的、数据获取、数据处理、数据分析、数据可视化、总结与建议,如图1-7所示。
图1-7
1.明确分析目的
做任何事情都有其对应的目的,数据分析也是如此。每一次分析前,都必须要先明确做这次分析的目的是什么。只有先明确了目的,后面的分析才能围绕其展开,常见的数据分析目标包括以下3种类型。
(1)指标波动型:主要是针对某个指标下降、上涨或者异常所做的分析,比如,DAU(日活跃用户数)降低了、用户留存率降低了、电商平台的订单数量减少了、销售收入降低了。分析的主要目的是挖掘指标波动的原因,及时发现业务的问题。这里的关键是要量化指标下跌的原因,比如,总的指标下跌有多少是A原因引起的,有多少是B原因引起的。
(2)评估决策型:主要是针对某个活动上线、某个功能上线、某个策略上线的效果评估,以及对下一步迭代方向的建议。这些建议是指导产品经理或者其他业务方决策的依据,所以数据分析对应的结论产出不能局限于发现什么,而是要告诉业务方怎么做、方向是什么。
(3)专题探索型:主要针对业务发起的一些专题进行分析,比如,增长类的专题分析,怎么提高用户新增、活跃、留存、付费;体验类的专题分析,如何提高用户查找表情的效率;方向性的探索,微信引入视频号功能的用户需求分析以及潜在机会的分析。
2.数据获取
明确了数据分析的目的之后,就是根据我们的分析目的,提取相对应的数据,通常这个环节是利用Hive SQL从数据仓库中提取数据。
在提取数据时,通常要注意提取的维度和对应的指标个数。以电商APP的付费流失严重为分析案例,我们需要提取的维度和指标可以根据具体的业务流程来制定(见图1-8)。
图1-8
(1)维度(见图1-9)
我们需要确定好维度。
时间维度,确定提取的时间跨度,例如,今天的数据和昨天的对比,就是提取两天的数据。
设备维度,确定是否需要区分iOS和安卓平台,对不同平台的用户进行对比,以分析付费流失严重是否主要发生在某个平台。
年龄、性别、地域维度,提取这些维度信息,主要是为了确定在哪一个年龄层、哪个性别、哪个地域的用户流失最严重。
新老用户维度,主要从新旧维度上分析流失严重是集中在新用户还是老用户。
图1-9
(2)指标
确定好维度以后,接下来就是指标信息,维度+指标才是一个完整的数据。根据图1-9,我们可以把指标信息概况为如图1-10所示。
因为需要分析每一个环节的流失情况,所以需要提取下单的每一个环节对应指标的人数和次数。基于这些人数和次数,我们可以计算每一个环节之间的转化率。
活跃浏览比=浏览的人数/活跃的人数
浏览添加比=添加的人数/浏览的人数
添加下单比=点击下单人数/添加购物车人数
成功下单率=成功下单的人数/点击下单的人数
图1-10
3.数据处理
当我们知道应该从哪里获取数据,以及获取哪些指标数据后,为了保证数据质量,通常要对数据进行处理。
常见的数据处理有异常值处理、空值处理。比如,我们在提取用户的年龄数据之前,需要去除年龄中空的数据及异常数据(如年龄超过120岁等)。
4.数据分析
根据分析目标,要选择合适的分析方法和分析思路去做拆解和挖掘。
针对订单流失的问题,典型的分析思路和方法是漏斗分析和用户画像分析。
漏斗分析主要是分析付费流失严重的主要环节在哪里,如图1-11所示,我们发现付费流失严重主要是因为“用户活跃”到“浏览商品”的转化率从50%降到30%,减少了20%,那就可以把问题定位成为什么用户浏览次数会变少。
图1-11
用户画像分析可以帮助我们分析流失严重的用户是什么特征,如年龄、性别、地域等;在流失前有什么特定行为,如访问了哪些页面、看了哪些内容。这样就可以知道这种流失是集中在哪一个年龄群体、哪一个地域群体及其他行为特征。
5.数据可视化
通过数据分析得出结论后,还需要用图表展示出来,所谓“文不如表,表不如图”,用图表可以更清晰地展示你的结论,一般我们可以利用Excel、Python或者R语言进行可视化图表的制作。
常见的图表有柱形图、折线图、饼图、条形图、面积图、散点图、组合图、箱线图等。
6.总结和建议
当利用图表把数据分析结论展示出来后,就是数据分析的总结部分,主要包括得出了什么具体结论,以及给业务人员提供具体建议,告诉他们改进的方向。