前言

小时候,我常常盯着车窗外的车流,研究每辆车的车牌号。我会把每个车牌号分解成素数,如:45=3×3×5。这叫作因式分解,是我最喜欢的消遣活动。我这个小数学迷对素数特别感兴趣。

我对数学的爱好逐渐发展成热爱。14岁时我参加了一次数学夏令营,带回来一个心爱的魔方。数学使我摆脱了现实世界的混乱。经过数学家们的一步步证明推导,数学不断发展,其覆盖的知识领域不断扩大。我也加入了数学领域,在大学时期主修数学,后来取得数学的博士学位。我的论文方向是代数数论,这根源于我从小就喜欢的因式分解。最后,我成为巴纳德学院的终身教授,该学院的数学系是与哥伦比亚大学联合创办的。

后来,我做了一个重大的决定:从大学离职,到顶尖对冲基金德劭集团(D.E.Shaw)担任金融工程师。我离开学术界进入金融领域,把抽象的数学理论应用到金融分析的实践中。我们所做的数据分析为一个又一个账户实现了总量达到数万亿美元的变现。起初,在新的研究室研究全球经济让我感到既兴奋又震撼。但就在我在那儿工作了一年多的时候,2008年秋,全球金融危机爆发了。

显然,金融危机使得我曾经的庇护所——数学不仅卷入了这个世界性的问题,还助推了其中许多问题的发生。房地产危机,大型金融机构倒闭,失业率上升,在幕后运用着神奇公式的数学家们成为这些灾难的帮凶。而且,由于数学的功能特别强大(这是我热爱数学的原因之一),一旦其与科技相结合,其所造成的混乱和不幸也会成倍增长,它使得一个有着巨大缺陷的系统加速运转,进一步扩大规模,这些都是我原来不曾意识到的。

要是我们当时头脑清醒的话,就会后退一步思考,数学是怎么被我们误用的?我们该如何防止未来发生同样的灾祸?但是,金融危机发生以后,新的数学技术变得比以往更热门,其应用甚至延伸到更多的领域,每时每刻都在搅动着海量数据,其中大多数数据都是由社交媒体或者电子商务网站从使用者那里搜刮而来的。而且,数学逐渐不再关注全球金融市场动态,而是开始关注我们人类本身。数学家和统计学家一直在研究我们的欲望、行动和消费能力,一直在预测我们的信用,并用结果来评估我们作为学生、职员、情人的表现以及是否有变成罪犯的潜力。

这也就是我们所说的大数据经济,其收益前景非常可观。一个电脑程序可以在1~2秒内快速扫描成千上万份简历或是贷款申请,然后将结果整理成清晰的列表,让最有潜力的申请者位居前列。这不仅节约时间,而且公平客观。毕竟,电脑程序不像人类带有个人偏见,它只是一台处理数字的无情机器。到2010年左右,数学已深刻地介入人类事务,公众对数学这一工具的出现表示出了极大的热情。

然而,我看到的是危机。数学应用助推数据经济,但这些应用的建立是基于不可靠的人类所做的选择。有些选择无疑是出于好意,但也有许多模型把人类的偏见、误解和偏爱编入了软件系统,而这些系统正日益在更大程度上操控着我们的生活。这些数学模型像上帝一样隐晦不明,只有该领域的最高级别的牧师,即那些数学家和计算机科学家才明白模型是如何运作的。人们对模型得出的结论毫无争议,从不上诉,即使结论是错误的或是有害的。而且,模型得出的结论往往会惩罚社会中的穷人和其他受压迫的人,而富人却因此更加富有。

我为这些有害模型提出了一个名称:“数学杀伤性武器”(Weapons of Math Destruction,简写成WMD)。接下来,我将用一个例子向你们阐明这种模型的破坏性。

这个案例中的模型和很多其他的案例一样,其出发点是好的。2007年,华盛顿特区新上任的市长艾德里安·芬提下定决心对本市教学质量不佳的学校进行改革。当时,几乎每两个中学生中就有一个九年级学生是勉强毕业,只有8%的八年级学生在数学上的表现达标。为此,市长芬提设立了一个新的职位——华盛顿市教育总督,并聘用知名教育改革者李阳熙担任该职务。

当时流行的理论是:学生学得不够好是因为老师教得不好。所以,在2009年,教育总督李阳熙落实了一项旨在开除教学表现差的教师的计划。这符合当时全美教学质量差的地区所进行的改革的一种趋势,而且从系统工程学的角度看,这种想法非常有意义:评估教师。开除最差的教师,把最好的老师调到需求最紧迫的地方发挥他们的才干。用数据专家的话来说,就是“优化”学校的教师系统,尽可能保证给孩子们提供好的教育。除了那些“差”教师,谁会反对这项提议?教育总督李阳熙开发了一个叫作IMPACT的教师评估工具,至2009~2010学年末,华盛顿特区开除了评估结果垫底的2%的教师。第二学年末,又开除了5%,也就是206名教师。

华盛顿特区一所公立中学的五年级教师萨拉·韦索基似乎没有任何理由为此担心。她在麦克法兰中学仅任教了两年就得到了校长和学生家长的一致好评。校长表扬她对学生们的教育极负责任,学生家长纷纷称她为“接触过的老师中最好的一个”。

但是在2010~2011学年末,韦索基的IMPACT评分很低。她的问题出自一个叫作增值模型的新评分系统,该系统用于评估数学教学和语言技能教学的效果。该算法给出的评分权重占她最终评分的一半,超过了学校领导和社区的评价。华盛顿特区别无选择,只好开除了她,以及另外IMPACT得分在最低限度之下的205名教师。

这看起来不完全像是一种政治迫害或者分数决定论。该学区的这一评估办法确实是有其内在逻辑的。毕竟学校领导也有可能是糟糕教师的朋友。他们可能只是喜欢这些教师的个性或是表面上的尽心尽力。糟糕教师很可能从表面看来是个好教师。所以,像许多其他的学校系统一样,华盛顿特区愿意减少人为偏差,更加注重评估得分,因为这一分数是根据实实在在的数学和阅读成绩计算得出的。华盛顿特区官员承诺,分数可以清楚地说明问题。分数更能体现公平。

韦索基当然觉得这些数字极其不公平,她想知道这些分数是怎么得来的。她后来告诉我说:“我认为没有人能理解这些分数。”一个优秀的教师怎么会得到如此低的分数呢?增值模型评估的到底是什么?

她所知道的就是,评估模型很复杂。华盛顿特区聘用麦斯迈提卡政策研究机构(Mathematica Policy Research)研发评估体系。该机构遇到的难题是测量特区学生在学业上的进步,然后计算学生的进步或退步在多大程度上归因于他们的老师。这当然不容易。研究人员知道,许多变量,包括学生的社会经济背景、是否存在学习障碍等,都会影响学生的学习成绩。评估算法必须要考虑到这些个人差异,这就是评估模型往往十分复杂的一个原因。

试图将人类行为、表现以及潜力归纳为某个算法或模型确实不是一件容易的事情。要想理解麦斯迈提卡政策研究机构处理的是什么问题,你可以想象一个住在华盛顿特区东南部贫民区里的10岁小女孩。在一学期的学习之后,她要参加五年级的标准化测试。然后她的生活将继续下去。她可能正面对着家庭纠纷或是家庭经济困难,也许她正在搬家或是在担心她品行不良的哥哥,也许她不满意自己的体重或是在学校总被欺负。无论她在生活中经历了什么,下一学年她都要参加六年级的标准化测试。

如果你比较一下这个女孩两次测试的结果,最可能的情况是分数持平,当然更好的是分数提高了。但是如果分数下降,你能很容易地计算出她和那些优秀学生在两次测试的分数差距上差了多少。

但是,老师该为这一差距负多大的责任呢?这很难计算,而且麦斯迈提卡政策研究机构的教学评估模型只有少许数据可供比较。与之相反,像谷歌这样的大数据公司,研究人员会不断测试、监测成千上万个变量。他们可以把任一广告的字体从蓝色改为红色,将不同的版本分别投放给1000万名用户,然后追踪哪个版本获得的点击率更高,随时根据用户的反馈微调算法和操作。虽然我对谷歌公司有许多意见(接下来我将会在本书中做具体探讨),但谷歌的这种测试方法可以说是对数据的一种有效利用。

而想要计算一个人在一个学年内对另一个人的影响则复杂得多。韦索基表示:“学习和教学中有太多的不确定因素,很难一一评估。”而且,试图借助对二三十个学生的考试成绩的分析评估一名教师的教学水平,从统计学上来说也是不可靠的,甚至是很可笑的。样本量太小了,一切皆会出错。如果要采用严格的统计学标准分析教师的教学效果的话,我们必须随机挑选几千个甚至数百万个学生参加考试。统计学家需要大量的数据平衡例外和反常情况。(我们在后文将会看到,数学杀伤性武器惩罚的个体往往是多数人中的例外。)

同样重要的是,统计系统需要反馈通路,以保证系统出差错时运行者能觉察到。统计学家会不断用差错训练模型,使之更加智能。若亚马逊的推荐模型的相关性计算出错,给十几岁的女孩推荐了草坪修剪的工具书,则其网站的点击量必然会发生骤降。为此,亚马逊公司就需要不断调整模型,直到用户相关性推荐的算法运作正常为止。但是,如果没有错误反馈,大数据模型就会持续输出错误的结果,而没人试图对此加以改进。

我将要在本书中探讨的许多数学杀伤性武器都属于后者,包括华盛顿学区的教师评估增值模型。许多数学杀伤性武器都是依靠自己的内置逻辑来定义其所处理的情况,然后再以其自己的定义证明其输出结果的合理性的。这种模型会不断地自我巩固、自我发展,极具破坏力——而且在我们的日常生活中很常见。

在麦斯迈提卡政策研究机构的评分系统给予韦索基和其他205名教师差评之后,华盛顿特区开除了这些教师。但是该评分系统如何知道其决策是否正确呢?无从知道。评分系统确定这些教师是不合格者,那么别人就会认为他们是不合格者。206名“差”教师走了。仅仅是这一事实就表明了该评估增值模型的效果——该模型正在清理华盛顿特区的不合格教师。比起探索教学质量不佳的真相,评估模型所做的只不过是用分数具象化了问题。

这是数学杀伤性武器的典型反馈回路的一个示例。我们将会在本书中看到许多这样的例子。比如,当前,更多的雇主开始使用信用评分系统来评估求职者。雇主的想法是,及时支付账单的人更可能准时到岗和遵守规则。但其实,信用评分低的人中也有很多有责任感的、称职的员工。但是,雇主相信信用低和工作表现差呈正相关,这就导致了信用评分低的人很难找到工作。失业导致他们陷入贫穷,而这又进一步降低了他们的信用得分,让他们找工作难上加难。这是一个恶性循环。而雇主永远也不会知道,他们因为只关注信用评分而错过了多少个优秀的员工。数学杀伤性武器的构建过程存在着许多有害的假设,这些模型包裹着数学精确性的外衣,流行于市场,未经检测便投入使用,而人们对此却毫无争议。

这凸显了数学杀伤性武器的另一个常见特征,即其结果往往更倾向于惩罚穷人。部分原因是数学模型是被设计来评估数量巨大的人群的。数学杀伤性武器擅长处理巨量数据,而且处理成本很低,这也是它们的优势所在。而富人通常受益于个人投入。高档律所或者大学预科学校会比快餐连锁店或者资金短缺的城市公立高中更依赖推荐和当面交流。我们在之后会经常看到这一点:特权阶级更多地与具体的人打交道,而大众则被机器操控。

没有人能给韦索基解释为什么她得了这么低的分数,这已经足够说明问题了。算法就像上帝,数学杀伤性武器的裁决就是上帝的指令。数学杀伤性武器就像一个黑盒子,其内容物是被严格保护的公司机密,如此,像麦斯迈提卡这样的顾问公司才得以收取高昂的费用。但维护算法的机密性也有另一个目的:如果被评估的人被蒙在鼓里,他们将不太可能找到系统的漏洞。他们只能努力工作,遵守规则,祈祷模型记录并回报他们的努力。但是,人们无从了解模型的具体运作方式,这意味着人们很难对模型给出的分数提出质疑或者抗议。

多年来,华盛顿的教师一直在抱怨他们遭到了评估系统武断的差评,强烈要求知道分数的由来。他们被告知这是算法的结果,很难进一步解释。很不幸,很多教师因此望而却步,不再追究,他们被数学吓到了。但有一个叫作萨拉·拜克丝的数学老师没有因此退缩,她不停地向学区领导、以前的同事詹森·卡姆拉斯问个究竟。在萨拉反复追问了几个月之后,卡姆拉斯让她等待一份即将发表的技术报告。而拜克丝回复道:“如果你自己都无法解释评估标准的根据,你怎么能保证评估的正当性呢?”但是,这就是数学杀伤性武器的本质——将问题分析的部分外包给程序员和统计师,而他们的原则通常就是,机器说了算。

即便评估模型的细节始终没有公布,萨拉·韦索基也知道,她的学生的标准化测试的分数在算法中占了很大的权重,而她对此有一些疑问。在麦克法兰中学任教的最后一学年,在开学之前,她看到她即将迎来的五年级新生在四年级期末考试中取得了惊人的好成绩。巴纳德小学29%的学生的阅读水平被评为“高级阅读水平”,这一成绩是该学区平均成绩的5倍。萨拉的很多学生都来自这个小学。

但是,开学后,她发现很多学生连简单的句子都读不好。很久之后,《华盛顿邮报》和《今日美国》的调查揭示,该学区41所学校的标准化测试试卷有大量涂擦痕迹,包括巴纳德小学。大范围纠正答案表明作弊的可能性很大,部分学校有多达70%的考场涉嫌集体作弊。

这和数学杀伤性武器有什么关系?有多方面的关系。第一,教师评估算法被视为一种可以改善教学质量的强大工具,这是开发该算法的本来目的,而在华盛顿校区,该评估算法以一种“胡萝卜加大棒”政策形式推行。教师知道如果他们的学生考试成绩不好,他们就会面临失业风险,因此他们想方设法确保学生通过考试,尤其是在经济大萧条期间劳动力市场需求疲软的时候。与此同时,如果他们的学生的表现好于其他学校的学生的话,该学校的教师和校领导将可以得到高达8000美元的年终奖金。在了解了这些强有力的激励政策的存在以及试卷被大量涂改、出现反常高分的事实之后,你就有理由怀疑巴纳德小学的四年级教师出于害怕或是贪婪修改过学生的试卷。

可以想见,如果萨拉·韦索基班级的五年级新生其上一学年的高分期末成绩是造假的,那么他们这一次真实的五年级期末成绩就会说明他们这一年的学习效果不佳,而他们的老师也会因此成为“差”教师。韦索基认为这正是她现在的遭遇。这种解释与家长、同事和校领导的观察相符,即她确实是一个好教师,而这可以帮助她澄清事实真相。

但是,你不能状告一个数学杀伤性武器。这也是我们说数学杀伤性武器具有极为可怕的破坏力的原因之一。模型不会倾听,也不会屈服,对诱惑、威胁和哄骗以及逻辑通通充耳不闻,即使被评估者有充足的理由怀疑得出结论的数据被污染。没错,如果自动化系统出现过于明显的错误或者整体性错误,程序师的确会回头修改算法。但多数情况下,程序的裁决不容置疑,而操作程序的人只能耸耸肩,好像在说:“嘿,你又能怎么样呢?”

这正是萨拉·韦索基最终得到的学校回复。詹森·卡姆拉斯后来对《华盛顿邮报》表示,试卷上的涂擦也许的确暗示了考试作弊的存在,萨拉的五年级学生前一学年的期末考分也许的确是错误的,但这些都不是决定性的证据。他声明,对韦索基老师的处理是公正的。

你看出矛盾了吗?某个算法被用于处理大量数据,它根据结果提出了一种可能性,即某人可能是糟糕的员工、有风险的借款人、恐怖主义者或者是糟糕的老师,这种可能性所对应的分数能摧毁一个人的生活。但是当有人反击的时候,作为抗衡证据的“暗示考试作弊的可能性”的涂擦痕迹又起不到作用了。之后我们将不断发现,数学杀伤性武器的受害人所面对的提供反驳证据的标准要比算法给自身设定的标准还高。

萨拉·韦索基在拿到评分结果后没几天就被解雇了。好在,很多人包括校长都担保她是个好老师,她很快在北弗吉尼亚富人区的一个学校入了职。换句话说,由于一个正当性与准确性都极为可疑的模型,穷学校失去了一个好老师,而不会根据学生考试成绩开除教师的富学校得到了一个好老师。

房地产危机发生之后,我意识到,数学杀伤性武器的应用领域已经拓展到银行业,并对整体经济造成了危害。2011年年初,我从对冲基金离职。后来我在一家电子商务创业公司担任数据分析师。因为这一职务的关系,我发现大量数学杀伤性武器已经现身于我们能想到的任何一个行业,加剧了社会不公平,进一步压榨了弱势群体的剩余价值。这些数学杀伤性武器是正发展得如火如荼的数据经济的核心。

为了传播数学杀伤性武器这个名词,我注册了一个博客,起名叫“数学宝贝”。我的目的是动员同行数学家们反对使用草率的统计和带有偏见的模型,因为这样的统计和模型会导致恶性循环。我的博客尤其吸引数据专家,他们提醒我要将数学杀伤性武器这个概念传播到新的领域。但是2011年中期,“占领华尔街”事件在下曼哈顿区突然发酵,我意识到我们该为更广大的民众做些事情了。当时,上万民众聚集,要求经济正义和经济问责。但是当我听到记者对占领者的采访时,我发现他们似乎对经济方面的基本问题一无所知。他们明显没有读过我的博客。(这里我要多说一句,了解一个系统的缺陷,并不是要求你对整个系统都了如指掌。)

我意识到,我要么批评他们,要么加入他们,我选择了加入他们。不久后,我便推动哥伦比亚大学交替银行集团启用每周例会制度,讨论金融制度改革。在这个过程中我意识到,离开学术界之后的两次职业冒险,一次是在金融领域,另一次是在数据科学领域,给了我极大的便利接触推动了数学杀伤性武器的流行的科技和文化。

现如今,天生有缺陷的数学模型正从微观上掌控着整体经济,其影响覆盖了从广告业到监狱运营的各个领域。这些数学杀伤性武器和迫使萨拉·韦索基结束其在华盛顿特区公立中学的职业生涯的教师评估增值模型有很多相同的特点:不透明,不接受质疑,解释不通,并且都面对一定规模的大众进行筛选、定位或者“优化”。大多数数学杀伤性武器都会把其运算结果和实际情况相混淆,最终只能导致恶性循环而非问题解决。

但是,学区教师评估增值模型和用于寻找高额发薪日贷款潜在客户的数学杀伤性武器之间有一个重要的区别,即这二者会带来不同的结果。学区得到的是一种概念上的政治货币,即教师评估得以完成,教学效果在表面上得到改善的政绩。企业得到的是本位货币:钞票。对于许多借助数学杀伤性武器运营业务的公司来说,热钱的涌入似乎证明模型奏效了。站在公司的角度,这是有意义的。当公司构建模型寻找潜在客户或者操控绝望的借款人时,越来越多的盈利似乎表明它们走对路了。但现在的问题是,利润变成了真理的象征。这种危险的混淆我们以后还会多次看到。

这种混淆的出现是因为数据科学家经常忽视交易接收端的民众。他们当然明白,数学杀伤性武器必然会出现偏差,在一段时间内会把部分人群归错类,剥夺他们找到工作或者买房的机会。但是一般来说,数学模型操作者不会思考这些可能的错误。他们看重的反馈是金钱,这也是他们的根本动机。他们设计模型就是为了吸收更多的数据,对分析结果进行微调,让更多的热钱涌入。投资者因此而尽享收益,于是决定继续将更多的钱投入数学模型开发公司。

那么受害者呢?数据科学家也许会说,没有数学模型是完美的,那些受害者是附带损失。像萨拉·韦索基这样的人常常会被他们认为没有价值,不值得惋惜。他们也许会说,别管这些人,去看那些从搜索引擎的推荐中获得有益建议的人,或是在潘多拉网络电台上找到自己喜爱的音乐的人,或者那些在领英上找到理想工作的人,还有在婚恋交友网站Match.com上找到爱情的人。多想想算法实现的这些令人惊讶的成就,忽略那些不完美。

大数据从不缺传道者,但我不在其中。本书将透视数学杀伤性武器带来的种种危害和不公正,分析其对人们在人生关键时期(如上大学,借钱,入狱,或者是找工作和保住工作)所做决策造成误导的有害例证。我们将看到,人类生活的各个方面正越来越多地被数学杀伤性武器所控制。

欢迎参观大数据的阴暗面。