- 数字一点不老实:看穿纷繁信息中的数据玄机
- (英)汤姆·芝华士等
- 2733字
- 2024-01-17 10:42:51
引言
数字没有感觉,不会流血,不会哭泣,也不抱希望。数字不懂勇敢或牺牲,也不知爱与效忠。无情到极致时,你眼前只有1和0。
——艾米·考夫曼,《星谜档案》
数字冷漠且无情。人们常常因此不喜欢数字,原因不难理解。2020年上半年,新冠病毒席卷全球,在撰写本书时,报纸仍然在报道每日因新冠死亡的人数。在英国,这些日增死亡病例数曾经高达几千,当它们降到仅仅数百时,感觉像是看到了隧道尽头的亮光。
然而,这些人中的每一个都是独一无二的个体。我们可以谈论新冠流行期间的死亡人数——截至2020年8月,英国已有41369例死亡,在西班牙,这个数字是28646;也可以谈论当这种流行病寿终正寝时(如果真有那么一天),全世界会有多少人因其丧生。但是,这些惊人的数字并不能告诉我们任何关于那些个体的信息。他们每个人都有故事:他们是谁,做了什么,他们爱谁,谁又爱他们。将有人为他们哀悼。
“今天有×人死亡”——用一个简单的数字来代表所有这些逝去的生命,应该说既刺耳又冷酷。它无视所有的心碎和悲伤,它删去了所有个体的独特性和他们的故事。
但如果我们没有记录每日的死亡数字,从而跟踪疾病的传播,很可能会有更多的人死亡,更多独一无二的人生故事将提前结束。我们只是不知道有多少。
在本书中,我们将谈论很多关于数字的事:数字如何在媒体中被使用,它们又会出什么问题,从而让人产生错误的印象。但在此过程中,我们需要提醒自己,这些数字代表着某些东西。通常它们会代表人,要么就是代表对人来说很重要的事物。
某种意义上,这本书讲的是数学。你可能自认为数学很差,担心看不懂本书。有这种想法的人为数不少,几乎每个人好像都觉得自己数学不好。
大卫在杜伦大学教授经济学。学生需要在A-level*数学中拿到A才能被这个专业录取,但他的很多学生仍然说自己数学差。汤姆认为他的数学很差,但他曾两次获得英国皇家统计学会颁发的“新闻领域统计卓越奖”(statistical excellence in journalism,他喜欢时不时地在聊天中提起此事)。有时大卫也认为自己数学不好,但他其实在给本就擅长数学的人教数学。
你的数学很可能也比你自己想象得好。你不太擅长的也许是心算。我们想到“擅长数学的人”时,往往想到的是像《倒计时》节目里的卡萝尔·沃德曼或蕾切尔·莱利。**她们的确擅长数学,但就算你做不到那种程度的心算,也不意味着你不擅长数学。
大多数时候,我们都认为数学就是答案有对有错。但我们又会发现,很多时候——至少在我们现在讨论的这种数学中——情况并非如此。就比如可能令人感到恐惧的新冠病毒病总死亡人数,看似就是个简单的数字。但我们应该用以下哪个数字来代表它?我们说的是经检测“确诊”的死亡病例数,还是将今年的死亡人数与过去几年的统计平均值进行比较得出的“超额”死亡人数?这两种统计方向会给出非常不同的答案。该用哪个,取决于我们想要回答什么问题。两个都没错,但也都不是“正确”答案。
重要的是,要理解为什么这些数字并非清晰明了,以及为什么有时候听上去直截了当的东西实际上更复杂——尤其是当数字易于被用来误导或混淆视听的时候,而人(尤其是但不限于政治家)存在这样做的倾向。这些辩论影响着我们的生活,也影响着我们参与民主的能力。以此类推,如果没有受过教育的民众,就很难有运转良好的国家;我们需要能够理解我们的领导人正在实施的政策,以便在选举期间投出明智的选票来支持或反对这些领导人。
但仅仅能理解文字是不够的,你还需要对数字有一些领会。我们的新闻越来越多地以数字的形式报道,如警方报告的犯罪率的升降、一个国家经济的萎缩或增长、新冠死亡人数和病例数的最新数据等。要理解周遭世界,我们可能不必擅长数学,但确实需要理解这些数字是如何产生、如何被使用以及可能如何被误用的,否则我们会做出糟糕的决定,无论是作为个人还是社会。
有时,对统计数据的误解会如何导致坏决策是显而易见的,例如,如果不知道有多少人感染了新冠,我们就无法判断何为得当的应对措施;另一些情况下可能就没这么明显,就像我们将在本书中讨论的一些例子,比如培根是否致癌、喝汽水是否让人变得暴力等。但是我们都有意无意地使用这些数字来帮我们理解身处的世界。喝红酒、锻炼、投资——我们做这些事是基于我们认为它们(对快乐、财富或财富)的好处大于风险。如果要明智地做出这些决定,我们就得知道这些好处和风险是什么、有多大——通常我们会从新闻中了解这些。
在新闻机构提供这些数字时,你不能指望它没有夸大其词或有意筛选事实。这不一定是因为新闻人想搞欺骗;只是因为他们想报道刺激、精彩或耸动的事情,这样你就会买他们的报纸或看他们的节目;也因为他们——以及我们——都渴望“叙事”:那是一个个的故事,其中的问题都有明确的起因和解决方案。而你如果根据刺激、精彩或耸动的程度来选择新闻,那么你很可能接收很多错的或有误导性的数字。
此外,虽然记者一般都很聪明,也有好的出发点(不同于刻板印象),但他们往往不太擅长阐释数字。这意味着你在新闻中读到的数字很可能是错的——并非总是如此,但已经常见到需要你谨慎为上了。
好在曲解数字的方式通常可以预见,例如选取异常值或使用特殊的起点以人为挑选数字,反复雕琢数据直到其显示出某种特点、使用百分比增幅而非绝对值变化以夸大数字、将只代表相关性的数字用于暗示因果关性,不一而足。本书将为你提供识别其中一些曲解方式所需的工具。
我们不是要让你觉得你读到的所有数字都不能信,而只是想帮你更好地决定哪些数字可以信、何时信。
我们尽可能少地使用数学。几乎所有看起来像方程的东西都被我们拿了出去,移到主文之外的文字框里;你感兴趣的话可以阅读,但不读也不会阻碍你理解。
有时我们无法避免一些技术概念,所以你会遇到“p=0.049”“r=-0.4”之类的东西。别担心。这些只是一些简写,背后的概念都相当简单具体,就在现实生活之中,你肯定能理解。
我们将这本书分为22个短章节,每一章都会用新闻报道中的例子来介绍数字可能产生误导的一种方式。在读完每一章后,我们希望你能理解这一章要说明的问题,并知道将来如何识别它们。我们认为最好先阅读前八章,这几章中的一些内容可以帮你理解本书其余的部分;但你想随处跳读也没问题,如果有前文讨论过的概念,我们会标出来。
在本书的最后,对于媒体如何更好地使用数字,即如何避免本书聊到的一些错误,我们提了一些建议。我们愿意把它看作一种统计写作体例,如果你也一起向你收看和阅读的媒体倡议使用这样的体例,那就太好了。
那我们就开始吧。
*即“英国普通高级水平教育证书”,对应的考试略相当于中国的高考。其成绩在英语国家广受认可。——译注及编注(本书脚注,若无特别说明,均为编注)
**《倒计时》(Countdown)是英国长盛不衰的游戏综艺节目,其中有计算、拼写等环节。沃德曼(Carol Vorderman)是该节目自1982年开播以来的助理主持人,在2008年由莱利(Rachel Riley)接替。——译注