1.4 数据分析的核心理论基础——统计学

统计学是数据分析领域十分重要的理论基础,数据分析的主要思想和方法论便来源于统计学。

统计学是关于认识客观现象总体数量特征和数量关系的科学,是通过搜集、整理、分析、统计资料,认识客观现象数量规律性的方法论科学。由于统计学的定量研究具有客观、准确和可检验的特点,因此统计方法就成为实证研究的最重要的方法,广泛适用于自然、社会、经济、科学技术等领域的分析研究。

1.4.1 统计学的来源及特点

统计学是一门很古老的科学,起源于对社会经济问题的研究。一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。

统计学(Statistics)最早是由德国国势学派的阿亨瓦尔(Gottfried Achenwall)于1749年使用的,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。19世纪,人们在广泛的数据及资料中探究统计学的意义,由美国人辛克莱尔(John Sinclair)将“统计学”引进英语世界。

统计的研究对象是客观现象的总体数量特征和数量关系。统计研究不同于其他学科的研究,是因为它有以下独特的研究特点。

(1)统计离不开数据,一切用数据说话。

(2)统计的最终目的是研究总体,而不是研究个体,通过寻找事物的共性,掌握事物的规律。

(3)统计以显示客观事物独立存在的实际情况为目的,数据反映的是事物的真相,统计学则是揭开真相的工具。

1.4.2 统计的基本概念

1.统计总体与总体单位

(1)统计总体。统计总体就是根据一定的目的和要求所确定的研究事物的全体,它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。

(2)总体单位。总体单位,是指构成统计总体的各个个体单位。但总体单位必须是现实生活中存在的个体,不能是虚构的或抽象的事物。

(3)总体的特征。统计总体必须同时具有同质性、大量性和变异性三大特征。

① 同质性。同质性,是指构成总体的每一个个体单位虽然在许多方面存在差异,但至少在一个方面必须保持相同的性质。同质性是统计总体形成的基础,构成总体的各个个体单位在某一性质上必须是相同的。

② 大量性。大量性,是指总体由足够多的单位构成,只有个别或少数的事物不足以构成总体,这是由统计的研究对象决定的。统计的研究对象是客观现象的数量特征和数量关系,少量事物所表现出来的特征往往带有偶然性,客观现象数量方面的规律性只有在大量事物个别特征的汇总中才能显示出来,表现出共同的倾向,方便人们从中认识到事物的必然性。

③ 变异性。变异性,是指同一总体的各个个体单位除了具有某种或某些共同的性质外,在很多方面是存在差异的,这种差异称为变异。如果总体中的每个个体在各方面都一样,就没有了统计的必要,正是因为变异的普遍存在,才有必要进行统计调查和分析,以寻求总体的一般规律性。

(4)总体的分类。按照总体单位是否可数,总体分为有限总体和无限总体。有限总体规模和范围相对较小,是由有限的个别事物构成的总体。无限总体包括的个别事物很多,以致无法计量。

(5)总体与总体单位的关系。总体和总体单位不是固定不变的,它们会随着统计研究的目的不同而变化。一个事物在一种情况下是总体,但在另一种情况下有可能就变成了总体单位。

2.标志和标志表现

(1)标志。标志是说明总体单位的特征或属性的名称。每个总体单位从不同方面考察,都有许多属性和特征。

标志与总体单位的关系是十分明确的,如果没有标志就无法表现总体单位的特征,如果没有总体单位,标志也就失去了意义。

(2)标志表现。标志表现,是指标志特征在各单位的具体表现。统计标志是统计所要调查的项目,标志表现是调查的结果,是标志的实际体现。

3.指标

(1)概念。指标,是指同类社会经济现象总体在一定的时间、地点条件下的综合数量表现。

例如:2021年某网站“双十一”,截止到2021年11月11日23:59:59,活动总销售额为5403亿元。

(2)构成要素。由对上例的分析,引出指标的指标名称、指标数值、时间范围、空间范围、计算方法和计量单位6个构成要素。

(3)性质。

① 具体性。总体在具体时间、地点、条件下的数量特征,即统计指标——质的规定性(事物本身就必须具有的应有之义)。

② 综合性。对总体数量特征的综合说明是由个体数量综合而来的,如平均价格=∑每个商品的价格÷全部商品数。

③ 数量性。统计指标是数量范畴,没有无数量的指标。

(4)分类。指标按性质可分为以下两种。

① 数量指标。反映社会经济现象的总规模和总水平的指标,表现形式为绝对数,如商品销售额、店铺转化率、消费者好评率等。

② 质量指标。说明社会经济现象的相对水平或平均水平的指标,表现形式为相对数或平均数。通常是由两个总量指标对比派生出来的,反映现象之间的内在联系和对比关系,如行业平均转化率、流量价值等。

指标按数值表现形式可分为以下3种。

a.总量指标。反映总体规模,通常以绝对数的形式表现,如人口总数、国内生产总值等。

b.相对指标。两个绝对数之比,也称为相对数,如计划完成程度、男女生的比例等。

c.平均指标。反映总体在某一时间或空间上的平均数量状况,如人均消费水平、某店铺一周的平均客单价、平均转化率等。

(5)指标和标志的关系。

① 区别。指标是说明总体数量特征的概念,而标志是说明总体特征的概念;指标都是用数值表示的,而标志有的是用数值表示的,有的是用文字表示的。

② 联系。

a.许多统计指标是由各单位的数量标志值汇总而来的,如一个县的粮食总产量是该县各乡镇粮食产量的合计数。

b.指标和标志之间存在转化关系,在一定的条件下(研究目的的调整),指标和标志之间可以相互转化,当研究目的发生转化后,原来的总体转化为总体单位,统计指标也就变为数量标志了,反之亦然。

1.4.3 统计的工作过程

1.统计的工作过程

(1)统计设计。开展统计工作的初期需要根据统计研究对象的性质及统计的任务、目的,对统计工作的各方面和各环节进行通盘考虑和全面安排,通过制订切实可行的方案来指导实际工作。换句话说,就是要先把问题想清楚,围绕着如何解决问题来设计统计工作。在这个过程中可以把所需的数据种类及要求梳理清楚。

(2)统计调查。根据设计方案的要求,有计划、有组织地搜索客观现象的第一手资料。

(3)统计整理。统计整理是统计调查的继续,它是运用科学的方法对调查资料进行汇总、整理,使之条理化、系统化的工作过程。

(4)统计分析。统计分析在统计工作中必不可少,它是在统计整理的基础上,借助统计分析工具对统计资料进行综合分析,通过统计分析可以揭示所研究的客观现象的数量特征、内在联系和客观现象发展变化的本质规律,必要时还可以对客观现象进行预测。

2.实务中的工作过程

在现实工作中需要频繁使用到统计的工作流程,例如:通过商品搜索结果分析市场份额,过程如下。

(1)统计设计。由于电商平台中的商品数远大于展现在页面中的商品数,如连衣裙商品有一千多万的商品数,但展现在消费者面前的搜索结果最多只有4400个商品。因此只能通过抽样的方法来估算市场,按销量由多到少排序,抽取销量排名前4400名的商品作为研究样本。

(2)统计调查。使用工具或者自行编写爬虫获取搜索结果中销量排名前4400名的商品信息。

(3)统计整理。对采集的数据进行整理、过滤异常值、处理缺失值等操作,并将数据整理成可供分析的结构。

(4)统计分析。根据分析的维度分类汇总数据,基于分类结果获取统计意义。

1.4.4 统计的研究方法

1.大量观察法

大量观察法是统计研究的特有方法,只有在大量观察的基础上,才能消除偶然的数值差异所产生的影响。也只有在大量观察的基础上形成的总体平均数,才能显示总体的一般水平和发展变化规律。仅凭少数资料或短时间的数值变化,难以得到正确的分析结论。一般情况下,数据量越大,统计分析的结果就越接近事物的真实规律。

2.统计分组法

统计分组法在统计研究中占有重要地位,也是分析电商数据时常用的统计方法,它不仅是统计整理资料的重要组成部分,而且在整个统计工作阶段都能发挥特有的作用。

从统计设计阶段开始,要根据研究对象的特点,制订分类标准,确定反映总体不同性质特征的分类指标体系。

在统计调查阶段,要根据具体的分组规定和分组方法,分门别类地搜集有关数据。

在统计整理阶段,需对搜集来的原始资料,按统计分析的要求进行分析或再分组。

到统计分析阶段,则可以用类型分组、结构分组、水平分组、依存关系分组、时间阶段分组等各种分组方法进行统计分析,以反映总体内部不同分组条件下的事物的相互联系。

分组方法是进行分析时用到的核心方法,了解并掌握分组方法可以提高数据分析能力。常见的分组方法有以下5种。

(1)类型分组。类型分组是按不同类型进行分组,如按店铺类型分为天猫店和集市店,分组后可观察各店铺销售数量或销售额的差异。

(2)结构分组。结构分组是根据研究对象的内部结构进行分组,如研究淘宝类目,可以根据淘宝的类目树来分组,一级类目分为服饰、数码等,服饰又可以分为服装、饰品,服装又可进一步分为T恤、衬衫等。

(3)水平分组。水平分组是基于研究对象的不同水平进行分组,如分为不同的价格区间、销量区间进行研究。

(4)依存关系分组。依存关系分组是把性质上有关的不同社会经济现象联系起来进行分组。通过依存关系分组,可以观察不同社会经济现象总体在数量上的依存关系,认识不同现象在数量上影响的作用、程度和规律。例如:研究商品定价和销量之间的关系,可以把商品分别按照销售额和价格进行分组,然后观察各组的销售额和商品销量分布,将两者联系起来进行分析。

(5)时间阶段分组。时间阶段分组是根据时间粒度进行分组,如年、季度、月、周、天、小时、分、秒。在分析店铺销售额时可以把销售额按照不同的时间阶段进行分组分析,根据天及以上的粒度分组是研究销售额的趋势,根据小时的粒度分组是研究消费者的行为特征的(消费者集中在哪些时间段进行网购消费)趋势。

3.综合指标法

综合指标法就是利用多项综合指标,对相互关联的客观现象进行综合概括的方法。

4.归纳推断法

归纳推断法是从个别到一般的推理方法,是统计研究中常用的方法。归纳推断法主要应用于所研究的总体单位数很多,甚至是总体无限的情况,通过观察部分单位并进行计算和分析,推断总体的数量特征。