1.4.3 数据的推论统计

推论统计通常是(但并非总是)数据收集和汇总后的下一步,推论统计常利用较小群体的数据来推论可能的较大群体的特征。本书介绍了参数检验与非参数检验的相关概念及操作,在实际的应用中需要根据具体需求选取正确的统计方法来检验假设是否成立。

1.参数检验

参数检验是在已知或者假设总体分布的情况下对总体的相关参数进行评估检验,描述连续型因变量与分类自变量间的关系。在参数检验中,本书只介绍t检验与方差分析(相关分析中的皮尔逊相关也属于参数检验,将单独讲解)。

(1)t检验(t检验是对平均数的差异检验,如图1.4.1所示)

图1.4.1 t检验

(2)方差分析(方差分析是对平均数的变异分析)

通过分析不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小(方差分析的样本数均在2组以上),如图1.4.2所示。

图1.4.2 方差分析

2.非参数检验

非参数检验是指对于无法获取总体分布情况的相关信息,利用样本数据对总体分布形态等进行推断。本书介绍了8种非参数检验的方法,关于每种方法的详细步骤请查阅相关章节,以下仅做概述。

●9.2节“游程检验”:检验样本的随机性和两个总体的分布是否相同。

●9.3节“单样本K-S检验”:检验样本是否来自特定的理论分布。

●9.4节“二项分布检验”:检验样本是否来自二项分布的总体。

●9.5节“两个独立样本的非参数检验”:检验两个样本是否来自相同分布的总体。

●9.6节“多个独立样本的非参数检验”:检验多个样本是否来自相同分布的总体。

●9.7节“两个相关样本的非参数检验”:检验样本来自的两个相关配对总体是否具有显著性差异。

●9.8节“多个相关样本的非参数检验”:检验多个相关样本是否来自相同分布的总体。

●第10章“卡方检验”:判断样本是否来自特定分布的总体的检验方法,比较两个或两个以上的样本率(构成比例),以及对两个分类变量的关联性进行分析,其思想是比较理论频数和实际频数的吻合程度或者拟合度。

3.相关分析

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,研究随机变量之间的相关关系的一种统计方法。本书主要介绍双变量相关分析和偏相关分析。

(1)双变量相关分析

●12.1节“皮尔逊相关分析”:用于度量两个变量间的线性相关关系。

●12.2节“肯德尔等级相关分析”和12.3节“斯皮尔曼等级相关分析”:用于分析定类变量或者定序变量的相关关系。

(2)偏相关分析

12.4节“偏相关分析”:当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析这两个变量间的相关程度。

综上所述,数据分析是有组织有目的地收集数据、分析数据使之成为有用的信息,从而帮助研究者做出判断、采取适当行动对具体业务进行指导的。本节旨在为读者构建一个清晰的思路,具体的原理及详细的操作请翻阅相应章节。