1.1 认识数据分析

1.1.1 数据分析的概念

数据分析是将数据转变成有效信息的过程,其中数据具有历史性特征,信息具有指向性特征。

(1)数据的历史性。数据是客观的事实,能够被收集到的数据都是过去已经发生了的事件所产生的结果,如收集到某商品的销售量,是因为某商品已经发生了销售事件,所以才会产生销售量指标。

(2)信息的指向性。由于每个人的背景、经验及掌握的信息不同,对于相同的数据会产生不同的看法,也就是每个人对有效信息的理解各有不同,因此从数据中提炼的信息并不适用于所有人,只有特定的某一部分人才会关注该信息。

数据分析过程中核心的工作是建立参考系(见图1-1),如在分析自己店铺的数据时,需要建立的参考系是同期的行业大盘。由于所有的分析方法论都直接作用于参考系,因此需要充分利用参考系。

数据分析也是在使用不同的角度观察事物,运用维度和指标之间不同的组合,更清晰地看清事物的全貌。从这个角度来理解,数据分析就是在研究维度和指标之间的组合关系。

图1-1 数据分析的参考系(集市店)

1.1.2 数据分析的作用

数据分析可以给决策者提供运营策略的决策依据,特定的分析维度可以帮助运营人员做出有效的决策,有效的决策可以提高项目的成功率。

【例1-1】某线下企业想转型线上市场,考虑到成本因素,决策者需要决策是先开淘宝店,还是先开天猫店,哪一个选择对企业更有利?

采集该企业所经营类目的店铺经营数据,经统计分组后的数据对比如图1-2所示。如果选择入驻淘宝平台,将面临激烈的竞争,而天猫的竞争小、份额大。因此建议入驻天猫,由天猫平台进入市场。

图1-2 不同平台的数据对比

【例1-2】某企业在优化某商品标题时,需要替换标题中的某些词,那么哪些词被替换后可以有效提升商品的引流效果呢?

收集该商品的关键词词根的数据表现(见图1-3),可以发现“情人节”“手工”“友情”这3个词都没有产生流量,因此将这3个词删掉后将不会影响商品现有的流量和销量,而且替换新的有效词根会有效提升商品的引流效果。

图1-3 不同关键词词根的数据表现

总而言之,数据能够帮助企业让运营方向更清晰,让运营决策更精准,从而让项目的成功率更高,如图1-4所示。

图1-4 数据对运营的作用

1.1.3 数据分析的标准流程

数据是客观的事实,但是数据本身并不会告诉人们其价值,其中蕴涵的信息需要数据分析师进行发掘。图1-5所示为数据分析的标准流程,共有8个步骤。

图1-5 数据分析的标准流程

下面分别对这8个步骤进行介绍。

1.明确目标

数据分析是一种目的明确的行为,因此开展数据分析的基础是明确目标,在此之前任何分析都可能是无用的。例如:用户想要了解销售情况,或者想找到数据之间的某种规律,那么用户的一切行为都将基于某个目标来展开。

2.明确分析维度和指标

围绕分析目标,选定数据分析的维度和指标,选定范围后才可以有目的地收集数据,并展开分析。明确分析范围能避免分析报告内容繁而不精的问题。

例如:分析目标为分析新上线的详情页的效果,选定分析的维度和指标。分析的维度有日期、页面,指标有停留时间、转化率等。

3.数据采集

数据采集是将目标数据收集到计算机硬盘中,或通过爬虫工具收集,或通过手工记录。数据是数据分析的基本资料,没有数据就无法开展数据分析工作。基础的数据采集可使用Excel、八爪鱼、火车采集器、码栈等软件,高级的数据采集可使用Python语言。

4.数据清洗

采集得到的数据一般不可以直接使用,因为可能会有一部分“脏数据”,如果不处理将会影响分析结果。在分析前需要对数据进行检查,如果发现“脏数据”就必须进行清洗。

【例1-3】表1-1是从淘宝生意参谋下载的店铺经营数据,其中第3行观测值中存在以“—”为标记的缺失值,此类缺失值如果不处理将无法进行下一步操作,因此需将数据中的“—”符号替换为数字“0”。

表1-1 店铺经营数据

注:PC是指个人计算机,全称为Personal Computer。

数据清洗可使用Python,也可使用专业的数据仓库技术(Extract Transform Load,ETL)工具。

5.数据整理

因为收集的数据一般都是零散的或者杂乱的,所以直接观察数据难以洞察其蕴含的信息,对数据进行整理后形成的“整洁”数据才便于分析。

数据需要按照某个维度汇总才能进行有效的观察。例如:要观察新的详情页上线后用户行为的变化,就可以按照上线前和上线后的用户行为数据进行分类汇总,然后通过两份数据的对比来得出结论。

【例1-4】表1-2是淘宝网女装T恤和衬衫两个品类在2020年1~3月的销售额数据,将数据整理成表1-3的形式,更便于分析。

表1-2 未经整理的行业数据

表1-3 整理后的行业数据

6.数据分析

数据分析的目的是将数据转变成有效的信息。前面的步骤都是为了能在这一步得到信息,信息的提炼依靠对比法、拆分法、分组法等分析方法。

【例1-5】表1-4是商品标题的关键词词根分析,用于对标题进行优化。将表1-4中的支付买家数进行对比,可以发现“收纳箱”和“大号”这两个词根的支付买家数为0,表示没有用户通过这两个词根产生交易,因此得到的信息是“收纳箱”和“大号”这两个词根可以优化。

表1-4 关键词词根分析

7.数据可视化

数据可视化旨在借助图形化手段,清晰、有效地传达与沟通信息。

【例1-6】将表1-5的数据更直观地展现出来。

表1-5 多个产品的对比数据

用表1-5中的数据画出雷达图,如图1-6所示,各个产品间的差异清晰可见。

图1-6 雷达图

8.数据报告

数据报告是将一系列分析结果有逻辑地进行集中展现并阐述分析结论的文档,可以使用 PPT、Word制作数据报告,数据报告页面示意如图1-7所示。

图1-7 数据报告页面示意