§1.3 统计学的若干基本概念

§1.3.1 变量及统计数据

在统计研究中,说明现象某一特征的概念常被称为变量(varible),变量是随不同时间或不同空间而变化的特征。变量的具体取值称为变量值或者数据(data)。对于统计所研究的现象来说,数据是有特定内涵的、表明所研究现象某种特征的具体数值。统计数据是所研究的总体或总体单位某一特征的具体表现,是对客观现象进行观测与统计分析的结果。在社会经济统计中,常把反映现象特征的概念(变量的名称)称为标志,常把反映现象数量特征的概念和数值(变量的名称和变量值)称为统计指标。通过实际观测与统计调查取得的变量值,以及运用统计方法加工整理与分析得到的数据,都可称为统计数据。

无论是搜集总体的数据还是样本的数据,总是要对客观现象进行具体的计量,才能获得用来表现客观现象数量特征的数据。由于所表现事物的性质不同,对数据计量的尺度不同,也就可能有多种计量方式。第一类计量方式为定量尺度,变量表现的是现象的数量特征,如每个工人的年龄、工资收入、工作时间等,这类说明事物数量特征的变量称为数值型变量或定量变量,其取值是数值型数据。例如,人的体重、身高可能各不相同,分别都是变量。某个人的体重为65千克,身高为1.70米,这些具体数值则是体重和身高这两个定量变量的变量值,即数据。第二类计量尺度为定类尺度,其特点是只能对事物进行平行的分类和分组,各组或各类之间的关系是并列的或平等的,例如人口的性别、民族、婚姻状况和行政区划,等等。这类数值只是作为各种分类的代码,并不反映各类的优劣、数量的大小或顺序的前后。由于这种尺度各组或各类间是并列的或平等的,因而这些组或类别的顺序是可以改变的。例如人口的民族,将哪一类放在前面都是一样的,但各组或各类之间是互相排斥的,就是说某一个人只能属于其中的一类。第三类计量尺度为定序尺度,是对客观现象各类之间的等级差或顺序差的一种测度,表现为各类或各组之间有一定的顺序,可以比较其大小。利用定序尺度不仅可以将研究对象分成不同的类别,而且还可以反映各个类别的优劣和顺序。例如,产品的等级可以分为“一等品”“二等品”和“三等品”;人们的收入可分为“高”“中”“低”;考试成绩可以分为“优秀”“良好”“中等”“及格”和“不及格”;等等。虽然定序尺度不能表明考试成绩一个“优秀”等于几个“良好”,但是显然“优秀”要好于“良好”,“良好”要好于“中等”,等等。与定类尺度相比,定序尺度可以区分不同的类别,而且相互之间可以比较其大小或顺序,所以定类尺度比定序尺度的精确性高一些。但定序尺度不同类别之间的差别还不能量化,其差异还不能精确的计量。需要指出,有时由定量尺度可以转换为定序尺度,例如百分制的考试成绩可以转化为“优秀”“良好”“中等”“及格”和“不及格”等五级分制成绩,但是五级分制成绩却不能确切转换为百分制成绩。

按照变量的可能取值是否连续,变量可分为连续型变量和离散型变量。连续型变量的取值在数轴上是连续不断的,任意两个变量值之间可有无穷多个变量值,无法一一列举,也就是说在一定区间内可以取任意值。例如,某类物体的尺度、某区域某时间范围的温度、某件产品的使用寿命,均无法将所有的可能结果全部列举,都是连续型变量。离散型变量是只能用计数的方式取得可数值的变量,通常只能取有限个值的整数值,是可以一一列举的。例如,某地区的人口数,企业的个数等,都是离散型变量。

按照变量的取值是否确定,变量又可分为确定性变量和随机变量。当变量的影响因素是确定的或可事先控制的时候,变量取值的大小和方向是可以确定的,例如过去某特定时期的利率、存款准备金率是由中央银行已经规定的;又如在研究本年居民消费时,上一年居民的消费支出是已经既定的;再如某特定时点全国的人口数是客观存在的确定数值,对于这样的变量称为确定性变量。当变量的影响因素是不确定的随机因素,或变量决定于众多细小的不确定因素时,变量的取值带有随机性,变量的取值不能事先确定。例如投掷一枚骰子可能出现的点数、当年的消费品价格指数,这样的变量称为随机变量。在社会经济现象中,既有确定性变量,也有随机变量。

§1.3.2 总体

前面讨论过统计具有总体性,统计所研究的是由同类事物构成的总体的数量特征。所谓总体是根据一定的目的确定的所要研究的事物的全体,它是由客观存在的、具有某种共同性质的众多个别事物构成的整体。例如,要研究中国的人口状况,可以“中国的全部人口”作为一个总体;要研究某企业某月某种产品的质量情况,可以将“该企业该月所生产的全部该种产品”作为一个总体。可见,某类人的总和、某类物的总和、某类事件(交易)的总和,都可能成为包含众多基本单位的总体。总体是我们所研究的对象的全体。构成总体基本单位的个别事物称为总体单位或称为个体。例如,相对于“中国的全部人口”这个总体,“中国的每个人”是个体或总体单位,相对于“某企业某月所生产的全部某种产品”这个总体,“该企业该月所生产的每件该种产品”是相应总体的个体或总体单位。

统计实务所面对的是非常具体的现象,总是强调总体是在一定研究目的下所要面对的具体事物的全体。由于总体中个体的某种特征有差异,其取值具有不确定性,总体中个体的该特征是个随机变量,某特定个体该特征的具体数值是这个随机变量的具体取值。所以如果不考虑事物的具体内涵,有时也将总体界定为某随机变量,而将该随机变量的取值界定为个体。在这种意义上强调的是一种观念总体而不是实质总体。在数理统计中,通常从数学上将总体界定为随机变量,将随机变量的取值作为个体。

总体单位是所要研究具体问题的属性、数据的表现者,是总体数量特征的最原始承担者,是从中收集数据的实体,而不是数据本身。总体的数量特征通常无法通过直接观测得到,我们只能对总体单位的特征进行观测。例如研究全校男学生的平均身高,只能对本校全部或部分男学生的身高加以测量,然后用统计方法去测算。原始的统计数据是从对总体单位的观测取得的,所以正确界定总体单位是很重要的。

作为统计研究对象的总体,具有客观性、大量性、同质性、变异性等特征。

首先统计总体总是与某种研究目的相联系的客观存在的事物,例如与研究工业企业流动资金周转速度的目的相联系的,是由全部工业企业形成的统计总体;与研究某市居民家庭消费水平的目的相联系的,是由该市所有居民家庭构成的统计总体,它们都是与特定研究目的有关的客观事物。

其次,统计总体总是由大量的总体单位构成,所谓“大量”单位是相对于“个别”单位而言。各种现象的数量规律性,要在有足够数量的单位组成的总体中才能体现出来。个别单位的数量特征可能各不相同,只有大量单位在总体中的综合,才能表现出客观规律发生作用的结果,也才能体现出总体的内在数量规律性。总体的这种内在的数量规律性正是统计研究所要寻求的。所以总体总是由相当数量的总体单位所构成。

此外,总体总是依据一定的研究目的由具有同类性质的事物组成。作为一个总体的各个总体单位,至少在某一个方面具有相同性质的特征。总体单位的同质性是它们能够构成一个总体的基础。例如,分析一所大学某年毕业生的英语水平,其同质性指的是该大学那一年毕业的学习英语的毕业生;不是该大学毕业的学生,或者不是那一年毕业的学生,以及不是学习英语的毕业生,都不能构成所研究的总体。

在总体中,由于多种因素的影响,各总体单位的数量特征经常是有差异的,或者说存在着“变异性”,总体内各总体单位的这种变异性是事物的客观属性。在同类事物的总体中,不同的个体除了受某些共同因素的影响外,还要受很多其他非共同因素的作用,因而显示出各自的个体差异。总体单位的数量特征的变异性,与统计学研究对象的差异性或不确定性是相联系的,正是存在这样的变异性,才需要我们运用统计方法去寻求整个总体的共同规律性。反之,对于各个总体单位的特征没有差异的总体,只需从中随意抽取一个单位加以观测,就可知道整个总体的状况,严格说来也就不需要统计了。

总体可分为有限总体和无限总体。构成一个总体的单位数量无论有多少,只要其数量是有限的,就称为有限总体。例如全国人口普查,尽管总体单位数量达十几亿,但它还是有限总体。在现实生活中绝大多数社会经济现象都是有限总体。当总体的单位数量多到无限时,这种总体称为无限总体。例如,一个区域一段时间的平均气温,由于可以在这个区域的任意测量点观测其温度,也可以在这段时间内的任意时点观测其温度,从理论上说这时可以有无限多个观测点和无限多种观测方式,所取得的观测值可以是无限多的,这样的总体可视为无限总体。

§1.3.3 样本

统计研究的目的是确定总体的数量特征,但是通常构成总体的单位数很多,不可能或不必要对每个总体单位逐一加以调查,这时通常是以某种方式从总体中抽取一部分单位作为总体的代表加以研究。例如,从生产的全部灯泡中抽取若干个检验其使用寿命。一般把这种从总体中抽取的部分单位组成的整体,称为该总体的样本。

样本是统计学中非常重要的概念。样本既然是从总体中以某种方式抽取出来的,构成样本的每个单位本来就都是构成该总体的总体单位,它们具有与总体同质的数量特征。一个样本包含的个体数量称为样本容量。由于样本容量可大可小,抽取的方式也各种各样,对于既定的总体来说,用不同方式抽取的样本可能有很多个,每次抽取的样本并不完全相同,所以样本具有随机性。

样本只是总体的代表,要想从样本得出有关总体特征的结论来,必须首先明确该样本代表的总体是什么。抽取样本的目的是要由样本提供的信息去推断总体的特征。可是样本毕竟只是总体的一部分,抽取的样本以及获得的样本数量特征均具有随机性,由样本去推断总体的特征也就总是存在一定的代表性误差。如何科学地从总体中抽取样本,怎样控制样本对总体的代表性误差,这是推断统计学研究的重要问题。