- Python机器学习算法与应用
- 邓立国
- 1733字
- 2020-11-23 14:57:12
2.1.2 数据分布离散程度的测定
数据分布的离散程度是描述数据分布的另一个重要特征,反映各变量值远离其中心值的程度,因此也称为离中趋势。它从另一个侧面说明了集中趋势测度值的代表程度。不同类型的数据有不同的离散程度测度值。描述数据离散程度的测度值主要有异众比率、极差、四分位差、平均差、方差和标准差、离散系数等。这些指标又称为变异指标。
1.异众比率
异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。异众比率主要用于测度定类数据、定序数据的离散程度。
(2.18)
其中,∑Fi为变量值的总频数;Fm为众数组的频数。
2.极差
极差是一组数据的最大值与最小值之差,离散程度的最简单测度值。极差的测度如下:
· 未分组数据:R = max(Xi)-min(Xi)
(2.19)
· 组距分组数据:R=最高组上限-最低组下限
3.四分位差
中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。它们分别是用3个点、7个点、9个点和99个点将数据四等分、八等分、十等分和一百等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。
一组数据排序后处于25%和75%位置上的值称为四分位数,也称四分位点。四分位数通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。
(1)四分位数确定
设下四分位数为QL,上四分位数为QU。
①未分组数据
(2.20)
当四分位数的位置不在某一个位置上时,可根据四分位数的位置,按比例分摊四分位数两侧的差值。
②单变量值分组数据
(2.21)
③组距分组数据
(2.22)
(2)四分位差
四分位数是离散程度的测度值之一。上四分位数与下四分位数之差称为四分位差,亦称为内距或四分间距(Inter-quartile Range),用Qd表示。四分位差的计算公式为:
(2.23)
4.平均差(Mean Deviation)
平均差是各变量值与其算术平均数离差绝对值的平均数,用Md表示,是离散程度的测度值之一。平均差能全面反映一组数据的离散程度,但该方法的数学性质较差,实际中应用较少。
(1)简单平均法
对于未分组数据,采用简单平均法。其计算公式为:
(2.24)
(2)加权平均法
在数据分组的情况下,应采用加权平均式:
(2.25)
5.方差和标准差(Variance、Standard Deviation)
方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此能够准确地反映出数据的差异程度。与平均差的不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。
①设总体的方差为,标准差为,对于未分组整理的原始数据,方差和标准差的计算公式分别为:
(2.26)
②对于分组数据,方差和标准差的计算公式分别为:
(2.27)
③样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1(自由度)去除总离差平方和。
设样本的方差为S2、标准差为S,对于未分组整理的原始数据,方差和标准差的计算公式为:
(2.28)
对于分组数据,方差和标准差的计算公式为:
(2.29)
当n很大时,样本方差S2与总体的方差的计算结果相差很小,这时样本方差也可以用总体方差的公式来计算。
6.相对离散程度:离散系数
前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小不仅取决于数值的变异程度,还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将上述反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后进行对比。离散系数通常用V表示,常用的离散系数为标准差系数。测度了数据的相对离散程度,用于对不同组别数据离散程度的比较计算公式为:
(2.30)