2.1 你知道年龄属于哪一类数据吗

求职者的学历算统计数据吗?如果算,又该怎么表示它呢?社会调查领域有哪些专用的数据类型?除抽样调查外,还有哪些常用的调查方法?结构化数据和非结构化数据又分别指什么?文本数据和音频数据又该如何处理?

2.1.1 如何用数字表示求职者的最高学历

我们的日常生活离不开统计数据。每天的气温、蔬菜的价格、上班路上的时长……这些都是数据。根据不同的角度,可以将统计数据分为多种不同类型。最常见的3种统计数据是数值型数据、顺序数据和分类数据。

数值型数据是最常见的数据,也是生活中应用最多的数据。气温、价格以及上班时长都属于这类数据。通常情况下,气温可以取-20℃~40℃的任意一个数值,蔬菜价格也可以任意取值。

这些数值彼此是连续的,而且数值之间具有明确的大小关系。因此,数值型数据也叫作连续型数据。在研究数值型数据时,我们几乎不需要对数据进行任何处理,只需将它们录入Excel表格中即可。

还有一些数据不是数值型数据,但同样也在统计学的研究范围。比如月,月只有12个取值,而且不是连续的,不存在5.3月这种说法。同时,不同的月之间具有大小关系,12月要比1月大。我们将这种存在大小关系的非数值型数据称为顺序数据。

另外一个典型的顺序数据是学历。一个人的学历可以是“小学”“初中”“高中”“大学”中的任何一个。为了便于进行统计分析,通常使用1、2、3、4来指代“小学”“初中”“高中”“大学”。

显然,初中学历要优于小学学历,大学学历又要优于高中学历,即此处的1、2、3、4具有大小关系,但我们不能说“小学”与“初中”之和等于“高中”,即此处的1、2、3、4不能像数值型数据那样进行四则运算。

最后一类数据是不存在大小关系的非数值型数据,我们将之称为分类数据。一种典型的分类数据是季节。季节有4个取值,分别是“春”“夏”“秋”“冬”,也可以使用1、2、3、4来指代它们。但是“夏”并不优于“春”,“春”与“夏”之和也不等于“秋”,这里的1、2、3、4只是一个符号,而不具备任何数学上的特点。

另一种特殊的分类数据是二值型分类数据,这种数据只有两种取值。比如婴儿的性别要么是男,要么是女,我们就用0来代表男、1来代表女。再比如婚姻状态栏要么填已婚,要么填未婚。这种二值型分类数据在进行统计分析时具有其特殊的优势。

还有一些数据所属的类别有些模糊不清。比如年龄这一数据,它可以取0到正无穷之间的任意一个整数,从这个角度来看,它似乎是一个连续型数据。但是它又不能取分数,似乎又是一个顺序数据。

在处理年龄时,通常要根据具体的问题情境来确定具体处理方法。可以将它直接看作连续型数据,也可以将其转化为顺序数据,即将小于20岁的样本视为少年,将大于20岁、小于40岁的样本视为青年,等等。

2.1.2 统计调查中专用的数据类型有哪些

另一种常用的统计数据分类方法是根据数据的来源来确定数据的类型。这种分类方法常用于统计调查当中。

如果调查者没有干扰样本的状态,收集得到的数据就称为观测数据。比如天气预报站连续记录1个月的天气数据等。如果调查者对样本施加了影响,收集得到的数据就称为实验数据。比如对某种农作物进行品种实验,或者对某种药物进行疗效实验,等等。这两个概念常见于生物学、医学等涉及大量实验的领域。

另一种分类方法是根据数据的取得途径来确定数据的类型。如果数据来自原始数据的载体,就称为初级数据。如果数据来自他人的文献、报表,就称为次级数据。这两个概念常见于社会调查领域。每年统计局都会组织各种各样的社会调查,他们收集到的就是初级数据。其他学者在写论文时就要援引各类统计年鉴,他们使用的就是次级数据。

以上4个概率中观测数据与实验数据是相对立的,初级数据和次级数据是相对立的。这两对相对立的概念之间则是相互包含的。比如统计局发布的经济指数就既是观测数据也是初级数据,而实验室记录的不同饲料下小白鼠体重增长情况则既是实验数据也是初级数据。

通常而言,观测数据与实验数据不存在优劣之分,而初级数据的准确度则优于次级数据。但初级数据的收集成本大大高于次级数据的收集成本,尤其是在进行全国普查时,所消耗的成本更是十分巨大。根据第1章中的理论,抽样调查能够有效缩减初级数据的收集成本,除去抽样调查外,常见的调查方法还有典型调查和重点调查。

典型调查摒弃了样本的随机性,它从总体中有意识地选取了若干具有典型性和代表性的样本进行调查,比如要研究某市的扶贫项目,就专门调查该市的贫困县。属于一种从个性中了解共性的调查方法。

重点调查的调查对象则是总体中十分重要的那些单位。比如调查某市经济指数时,只需调查最大的几家龙头企业,即可对该市的经济情况有所了解。这种调查方法舍弃了一部分不必要的信息,从而大量节约了成本。但通常不能用重点样本的结果来推算整个调查总体。

观测数据、实验数据、初级数据、次级数据这4个概念的意义主要在于标志数据来源,在确定数据的分析方法时则应考虑数据属于数值型数据、顺序数据、分类数据中的哪一类。

2.1.3 新浪微博属于哪类数据

随着大数据时代的兴起,另一种根据数据的结构性进行分类的方法也随之走入人们的视野。通俗来讲,数据的结构性指的是一份数据能不能规规矩矩地放进一个框架已经固定的表中。

比如在记录每个月的收支情况时,使用收入、支出和结余3个变量即可组成一张表。每个月末都可向该表中添加一行记录,这样的数据就是结构性的。在2.1.1小节和2.1.2小节中介绍的数据类型都属于结构化数据。

非结构化数据则是那些不能用一张固定的数据表进行概括的数据,或者说,是以前人们不认为能够进行统计分析的数据。最典型的非结构化数据就是文字、图像和音频。

比如“梧桐街的烧烤小龙虾真好吃啊”这样一条微博就是一条非结构化数据。在处理这条微博时,首先就要将其拆解成一个一个的词语。可以拆成“梧桐”“街”“的”“烧烤”“小”“龙虾”“真”“好吃”“啊”;也可以拆成“梧桐街”“的”“烧烤小龙虾”“真好吃”“啊”。将一个一个的词语录在一行中,这样就得到了一条微博数据。

由于每条微博的长度不一样,其包含的词语个数不一样,每一行数据的结构也就不一样,无法用一个列数固定的数据表来放置这些数据。因此,这类数据也就称为非结构化数据。

图像数据与音频数据有类似的问题,在存放这类数据时,难以用一个或几个简洁的词语来描述每张图像或每个音频的主要内容,也难以用一个固定格式的数据表来盛放从中抽取得到的信息。总之,具有这些特征的数据就称为非结构化数据。

介于结构化数据和非结构化数据之间的数据称为半结构化数据。半结构化数据的特点是它的数据是有结构的,但是结构的变化很大。

员工简历是一个半结构化数据的例子。员工简历通常可以分为个人信息、教育经历、项目经历、技术技能等。每一份简历都可以分成几个部分,即每一份简历的内部都存在一定的结构性。但是纵览全部简历,不同简历的结构又各不相同。有的简历没有技术技能,有的简历又多了一部分实习经历。

考虑情况的复杂多变性,很难设计出一份包含了全部情况的固定结构数据表来存储简历信息。因此,员工简历就是一个半结构化的数据。

结构化数据是最好处理的一种数据,只需一张表即可存储其中的信息。非结构化数据和半结构化数据的存储方法则较为复杂,对非结构化数据,通常将其与内容标签放在一起,以方便提取数据;对半结构化数据,则使用节点的方法,随着结构的改变而改变节点,灵活地存储数据。

此外,结构化数据可直接进行统计分析,而在对非结构化数据和半结构化数据进行统计分析时,必须先将其转化为结构化数据才行。