7 忽略变量偏误和生态学分析

首先,我们谈谈因果推论的潜在危险。从一定程度上来讲,这一部分是有关因果推理的一个延伸,但是我们在这里加入了生态学分析。真正的因果关系是很难找到的,它有几个潜在的危险:一个是伪相关(spurious correlation);一个是表面上的时间顺序,不要以为知道了事情发生的前后顺序就能找到因果关系,发生在前面的不一定是原因,发生在后面的也不一定是结果;另外一个是忽略变量偏误(omitted-variable bias);最后一个是抽样选择性偏误(selection bias)。

先讲伪相关。A和B之间有关系,但是这种关系是由C造成的,那么A和B在表面上的因果关系就是伪相关。比如有人认为数学成绩取决于语言能力,语言能力越强,数学成绩越好。这里就忽略了一个智力因素,即智力水平高的人语言能力强,数学成绩也好,因此语言能力与数学成绩的相关是通过智力因素来实现的。语言能力与数学成绩之间的因果关系就是伪相关。第二个就是表面上的时间顺序。我曾有幸和社会学大师Duncan进行过一次座谈,他说社会科学要找到真正的因果关系是很难的。当时我就提出来是不是能够根据事情发展的前后顺序来寻找因果关系,在前的是原因,在后的是结果,因此我们通过纵向研究就可以找到这种因果关系。他立刻提出了反对意见。他举了一个例子,圣诞节前会有一个购物高潮,那么是圣诞节造成了这种购物高潮,还是购物高潮造成了圣诞节?我一想,这确实很有道理。人的行为是有目的性的,这种目的性促使我们去预测事物的发展方向,提前做好某些准备。这就导致了有些事情结果在前,原因在后。人们做很多事情是为了将来,而不是为了现在,因此我们要侧重从理论上对它进行分析,找出真正的因果关系。第三个威胁到因果推论的因素是忽略变量偏误。忽略变量偏误的产生要有两个条件:一个是忽略的变量要与因变量有关,另一个是忽略的变量要与主要的自变量相关。这两个条件都要成立,缺少其中一个都不会造成忽略变量偏误,下面讲生态学分析的时候我会再讲到这两个条件。


学生一:忽略变量偏误和前面的伪相关有什么区别吗?它们都是因为忽略了一个中间变量而造成的。

谢宇:从统计上来讲,它们之间是没有区别的。这四个因素是概念上的区分,在本质上都是一样的,我只是根据比较传统的方法把它们区分出来。我这里把忽略变量偏误单独列出来,其实其他几个因素都可以看作忽略变量偏误的一种表现形式。其实就统计学而言,它们在本质上是一样的,只是表现方式不一样。


再举一个例子,比如北京有两家医院:一家非常好,有先进的设备,一流的医生,管理和服务也很专业;另一家是很差的医院,设备陈旧,技术落后,医生水平一般。假如你以哪个医院死的人少来衡量医院的好坏的话,就会出现忽略变量偏误,因为肯定是好的医院死人多。死亡是与病情有关的,病情越严重,死亡率越高。另外,病情越严重越容易被送到好医院,因为差的医院看不了,所以好医院死的人会比差医院要多。如果忽略了病情这个变量的话,就会造成忽略变量偏误而得出死人少的医院是好医院的结论。因为病情严重与否与死亡有直接关系,另外,病情的严重程度也会影响到对医院的选择。

第四个是抽样选择性偏误。假如你所得到的样本对总体没有很好的代表性,就会造成抽样选择性偏误。比如有一个给予物理学研究生的奖学金,这个奖学金需要考虑研究生入学考试GRE的三个部分:一个部分是语言,一个部分是数学,一个部分是分析。结果社会学家发现这个奖学金给了语言能力好的人。为什么物理学的奖学金要由语言能力来决定?因为申请这个奖学金的人都是数学和分析能力很强的人,他们的差异就在于语言能力。这个问题的关键在于样本的选择性,假如这个奖学金是面向所有同学的话,就不会出现这样的结果。而这一样本是来自读物理学的研究生,所以才出现这样一个抽样选择性偏误的问题。

接下来举的例子是一个模型,叫Willis-Rosen模型,研究的是高等教育的经济回报问题。他们认为有些人通过接受高等教育能够增加他们的生产能力,如果不让这些人去读大学而去从事体力劳动的话,他们创造不了多少社会价值。另外有些人则是让他们去接受高等教育反而不如让他们去接受生活技能的训练,读大学对他们而言没有什么收益。这就是两组不同的人,一组人不读大学要比读大学要好,另一组人读大学要比不读大学好。如果你让这两种不同的人去做他们不擅长的事情,他们就不会有很大的发展空间。这就是一种自我选择,高等教育的经济回报有的人高,有的人低,去读大学的人正是因为回报高才去读,而没有去读大学的正是那些回报低的人,他们选择了另外一种适于他们工作并且相对于读大学回报高的职业。因此高等教育的回报率是因人而异的,如果你在抽样的时候不考虑到这种差异,就会出现抽样选择性偏误。

下面我们谈谈生态学谬误(ecological fallacy)。生态学谬误是这样一个错误,即你把高层次的信息、经验、发现应用到低层次的分析单位上。换言之,假如你的理论是建立在个人层次上的,而你利用汇总层次的证据或事实作为对个体的推理根据,你就可能犯了生态学谬误。我要强调这只是一种可能会出现的错误。我举一个例子,有两个班级——A班和B班,A班学生学某门课的平均时间是10小时,平均成绩是90分,B班学生学这门课的平均时间是15小时,而平均成绩是80分。由此我们得出结论:虽然A班学生比B班学生花的时间少,但成绩比B班学生好,因此学习时间和成绩是负相关的。这个结论对不对?哪个地方有问题呢?问题就出在你的理论假设是在个人层面上,花多少时间学习是个人的事情,而你的结论是以班级为单位的,统计数据也是在班级层面上。这两个不吻合,就有可能造成生态学谬误,所以从上面的例子不能得出学习时间会对成绩造成负面效应的结论。这里可能的现象是在一个班级里面,就个人而言学习时间对成绩是正相关的,但是由于两个班级学习起点不同、智力水平不同,一个班级学生花的时间少但是成绩提高较快,另一个班级学生花的时间较多但是成绩提高较慢,但是当你取了平均值以后,在班级的单位上呈现负面关系。这是一个很经典的生态学谬误的例子。

讲生态学谬误就必须讲到Robinson,他是一个很有才华的社会学家。他在1950年发表了一篇论文,这篇论文已经成为一篇经典文章。Robinson, W. S.1950. “Ecological Correlations and the Behavior of Individuals, ”American Sociological Review 15: 351-357.他在这篇文章里提出了生态学谬误的问题。这篇文章引发了社会科学的一场危机,他自己也产生了危机,他在写完这篇文章后就决定歇笔了,为什么呢?因为1950年以前,所有的数据都是汇总的数据,都是以地区为单位的,Robinson就说,假如我们社会科学的目的是要了解人类行为的话,这种汇总数据是不能用来推论人类行为的。人们为什么结婚,为什么生育,为什么上学等等,假如我们要研究这些的话,用汇总的材料是办不到的。因此Robinson在写了这篇文章后,就决定不再做研究了。

这对社会学是一个很大的挑战,同时也给下一代学者带来了契机,这就是调查革命。调查革命的发起就是为了回应Robinson提出的挑战。在研究中,我们不用政府提供的汇总材料,而去做个体和家庭的研究,收集个体层面上的资料。密歇根大学社会学系在那个时候做出了很大的贡献,不仅在理论上,也在实践上做了很多工作。调查革命提出要收集以个人为单位的数据,这种单位要与你的理论层次相一致。当时所有社会学研究用的都是政府提供的汇总数据,正是因为这次调查革命,才有了密歇根大学社会学系的兴起。我要提的另外一个人叫Gary King,他是哈佛大学的一位政治学家,他最近出了一本关于生态学谬误的热门书。他在这本书里讲的是怎样解决生态学谬误,如果对这个话题感兴趣的话,可以去读一下他的这本书。King, G.1997. A Solution to the Ecological Inference Problem: Reconstructing Individual Behavior from Aggregate Data. Princeton University Press.

为什么会产生生态学谬误?这是因为未观察到的差异性或者说忽略变量偏误。这就回到了刚才那位同学提的问题,其实这些原因在本质上是一致的,忽略变量偏误只是其中的一种表现形式。这里我们回顾一下造成忽略变量偏误的两个条件:一个是忽略的变量要和因变量有关系,另一个是忽略的变量要与主要的自变量有关系。在学生成绩和所花时间的关系的例子中,忽略的变量是什么?就是学生的个人学习能力。学习能力强的学生花的时间少,学习成绩也好;学习能力较差的学生花的时间多,成绩还是相对较差。也就是说,学生的学习能力既影响到学生的个人学习时间,也影响到学习成绩的好坏。因此,当你忽略了学习能力这个变量时就会造成忽略变量偏误。另外一个因素是这种差异是以班级为单位的,假如班级与班级之间不存在能力上的差异,就不会出现这种忽略变量偏误,因此你在寻找差异的时候是应该找以班级为单位的原因,而不是找以个人为单位的原因。

我先讲抽样,再讲生态学谬误,然后才讲生态学谬误与忽略变量偏误的关系。其实,当我们在利用抽样获得的数据进行分析的时候,可能出现的错误都是因为忽略了某些变量造成的。下面我们再来举一个例子,这是一个忽略变量偏误的例子,不过这里也有生态学谬误的因素。这是一个真实的例子,佛罗里达州是还保留有死刑的一个州,有一个社会学家做了一个调查,对300多个凶杀案进行了分析。凶杀案是很容易被判死刑的,而在美国种族问题是很敏感的,在判刑上是不是有种族歧视?是不是黑人更容易被判死刑?我们来看下面的数据(见表7-1)。

表7-1 被告人的种族与死刑判决结果频数表

在326个被判有罪的被告人中,白人有160个,其中19个被判了死刑,所占比率为12%。黑人有166个犯了凶杀案,被判死刑的有17个,占10%。这个数据和我们最初的想法刚好是相反的,白人被判死刑的概率比黑人还要高。请问为什么?


学生一:可能白人和黑人犯的罪行不一样,白人犯的罪行更严重。

谢宇:你们想一下造成忽略变量偏误的两个条件,被忽略的这个变量是什么?在这里它既要和种族有关系,又要和被判死刑有关系。如果这个变量是罪行的话,那么罪行和种族有什么关系?是白人更容易犯严重的罪行吗?

学生二:这可能和法官的种族有关系,一般法官会偏袒自己种族的人。

谢宇:显然,美国社会的白人法官要大大多于黑人法官,按照你的说法,白人法官会偏袒白人的话,白人中被判死刑的人应该更少才对,怎么会更多呢?要注意被忽略的变量应该与因变量有关系。

学生三:可能佛罗里达州的白人更多,黑人更少。

谢宇:这没有关系。我们的案例中被告凶杀案的白人和黑人的数量是差不多的。

学生四:是不是与被害者的种族有关系,如果被害者是白人就更容易被判死刑。

谢宇:对,讲得很好,原因就在这里。为什么呢?这里有两个条件:第一,被害者的种族和犯罪者的种族是相关的;第二,杀了白人更容易被判死刑。通过下表就可以看出来(见表7-2)。

表7-2 被害者的种族、被告人的种族与死刑判决结果频数表

可见,白人杀白人被判死刑的概率很高,黑人杀白人被判死刑的概率最高,而白人杀黑人就几乎没有被判死刑的,黑人杀黑人被判死刑的概率也比较小,因此这里忽略的变量是被害者的种族。当被害者是白人时,不管被告人是白人还是黑人,被判死刑的概率都较高;当被害者是黑人时,被判死刑的概率就比较低。可见,在美国种族歧视还是很严重的。我们在这里犯错误的原因是认为罪行是与罪犯的种族有关的,而实际上被判的罪行是与被害者的种族有关的。因此,我们在考虑问题的时候,要把造成忽略变量偏误的两个条件都考虑进去,忽略的变量是否与因变量有关系,同时这个变量是否与自变量有关系。只有当一个变量满足了这两个条件时,忽略它才会造成忽略变量偏误。上面这个案例其实也是一个生态学谬误的问题,因为我们从表7-1中得到的结论是被判的罪行与罪犯的种族有关系,而实际上被判的罪行是和他所犯的罪行有关的,如果被害人是白人的话,被告人就更容易被判死刑。因此从这个角度来看,这也是一个生态学谬误。我举这个例子的目的有两个:一个是要让你们明确忽略变量偏误所需要的两个条件,另外一个是让你们明白忽略变量偏误和生态学谬误在本质上是一样的。

接下来我要讲多层次数据处理手段。多层次数据就是说数据的来源是多层次的,既有组层次的数据,也有个体层次的数据。比如你的学习能力是个体的,家庭背景是个体的,但是教师水平、设备等都是以班级为单位的。假如你的研究单位是个体,你就不能用班级层次的数据来汇总;假如你的研究单位是组,你就可以用个体层面的数据来汇总。

我这里先讲两个模型:一个是随机效应模型(random effects model),一个是固定效应模型(fixed effects model)。然后再讲多层次分析(multi-level analysis)。我在讲到这两个模型的时候,会讲到组内差异和组间差异的问题。

先讲第一个模型——随机效应模型。我们分析得到的数据是要分析两部分差异,组与组之间的差异和组内差异。组与组之间的差异是随机的,我们对两个组各取一个平均值,两个平均值相减就得到了组间方差。假如各组之间没有选择性,那么既可以用组间方差,也可以用组内方差。在这种情况下,如果你仅有组这一层的变量的话,就不会出现生态学谬误。在这里最好的方法是两个方差都用,这样得到的数据会更加精确。但是如果只有一个层次的变量也可以,只是效率不如前者高。

由于随机变量模型无法完全解决忽略变量偏误或者生态学谬误的问题,这就引入了固定效应模型,用来控制未观察到的异质性。由于组间差异不一定符合统计模型,此手段就放弃解释组间差异,把它看作是固定的、不可改变的差异,仅关注组内差异。它之所以被称为固定效应模型,是因为总体的异质性所产生的共同特征已被各组的给定系数α所控制。这种方法在方法论上很站得住脚,但会牺牲很多统计的信息。

最后一个就是多层次分析。第一个随机效应模型讲的是组与组之间的差异,这种差异是随机的;第二个固定效应模型就是把这种差异作为一个固定不变的东西,这种差异是不可以用统计模型来进行分析的。第一种是不对差异进行考虑,只把它作为一个随机变量;第二种是考虑这种差异,但把这种差异固定下来,不对其进行分析。这两者代表两个极端,折中的一种方法就是多层次分析方法。这种方法有一个很强的理论来源,就是人与人是有差异的,而且人的表现、行为方式是随着环境的变化而变化的。那么我们就想知道人在不同环境下的表现是怎样的,他的行为是怎样的,这是社会学研究的一个很重要的理论基础。涂尔干提出了社会事实的概念,他认为人到了一个组之中,就要受到环境的影响,行为方式也会发生变化。当我们想知道人是怎样受到环境影响时,就要用到多层次分析方法,这就是多层次分析方法的理论来源。在使用这个方法时,研究的因变量是个人层次的,但自变量(或解释变量)既可以是个人层次上的,也可以是更高水平层次上的,比如社会环境、学校、班级等。当你的数据具备这样的要求时,你就可以做多层次分析。这里,自变量有两个层次:一个是个人的,一个是环境的。多层次分析的关键在于环境层次和个人层次的自变量的交互作用。比如个人的行为随着环境的变化而变化,这就是说个人作为自变量时,其参数是随着环境的改变而改变的,这就是一种交互作用。因此,如果个人水平上的变量作用随着环境的变化而变化的话,你就可以做多层次分析。

我给你们举一个例子,这是我和我的一个学生做过的研究。我们做这个研究实际上是为了批评市场转型模型。这种模型认为教育的回报率是与市场发展程度成正比的,市场经济越发达的地方,教育的回报率越高。我们做了一个地区差异比较,发现在市场经济发达的地方平均受教育水平较高,但是教育的回报率并不高;而在市场经济不发达的地方平均受教育水平较低,但是教育的回报率却比较高。而且市场经济发达的地方的教育回报率甚至比市场经济相对不发达的地方要更低。这就反映出很多光靠市场经济不能解释的问题,这种现象在单位中也存在。收益好的单位,大家得到的钱都比较多,但是差异并不是很大,也就是回报率比较小;反而那些收益差的单位,其领导得到的报酬比一般员工得到的要高很多。这是一个体制的问题。上面是我们利用地区差,用多层次分析的方法来反驳市场转型理论的例子。