什么是囚徒困境

上中学的时候,我想当一名医生。后来,我读了《创世纪的第八天:20世纪分子生物学革命》(The Eighth Day of Creation: Makers of the Revolution in Biology),这本书的作者是《时代周刊》的专栏作家霍勒斯·贾德森(Horace Judson)。这部精彩的分子生物学编年史改变了我立志当医生的理想。我当时便下定决心,要学习生命的化学本质,要研究那些构建细胞、为细胞提供动力并组织细胞运转的分子,要去维也纳大学学习生物化学。当时,并不是每个人都赞成我的决定。我的父母听说他们唯一的孩子不再想当医生,都很苦恼,因为他们认为医生这个职业可以保障我顺利成为受人尊敬的社会中坚。在他们看来,我要去学习的专业就是跟酵母有关,是用来对啤酒和葡萄酒进行发酵的。

1983年10月,我第一次进入大学的课堂,遇到了许多女孩,我从未见过那么多的女孩聚集在同一个地方。在药理学专业的入学新生中,女性占了绝大多数,因此,跟我挤在一起同堂上课的600人之中,几乎三分之二都是女孩。对于在男子中学度过青春期的我来说,大学简直就是天堂。而在为数不多的化学专业学生里,有一个女孩名叫厄休拉(Ursula),她跟我一样,也在拼命学习,努力跟上大学里深奥的数学课程。六年之后,我们结婚了。直到现在我还在怀疑,当初她挑上我,是否就是因为我的数学解题能力呢?

随着我逐渐融入维也纳大学的生活,我的学习重心也在不断地调整。大一我喜欢物理学;大二我钟爱物理化学;大三时,我有幸进入了彼得·舒斯特(Peter Schuster)的理论化学课堂。彼得可是这一领域里声名远播的人物,他是维也纳大学生物数学学院的创始人,后来当上了奥地利科学院的院长,还曾给教皇本笃十六世讲授过进化科学。刚一上彼得的课,我就立刻认识到,自己以后一定要跟这个人一同工作。到了大四,我开始在他的指导下,撰写我的毕业论文。彼得为人热情,涉猎甚广,知识和兴趣远远超出了科学的范畴。有一次,我们一起去登山,他说道:“只有装备不足的登山者,没有真正的坏天气。”

我真正意识到自己完全迷上了数学,是在一年以后,我在阿尔卑斯山跟彼得一起徒步旅行的时候。那是1988年3月,我刚开始攻读博士,就来到阿尔卑斯山静修。跟我一同前往的是一群才华横溢的年轻人,其中包括沃尔特·方塔纳(Walter Fontana),如今他已成为哈佛医学院的一名著名生物学家。我们的研究小组就住在奥地利群山中一个原始的小木屋里,一边享受那里的新鲜空气,一边工作、游玩。我们滑雪,上课,畅饮啤酒和葡萄酒,我们思考生命的神秘。最棒的是,我们一起讨论最新的理论和学术问题,有时是在温暖的小屋里,有时是在阿尔卑斯寒冷的室外。在高高的山上,当许多想法脱口而出时,我们呼出的空气都凝成了雾汽。我已经记不得,那究竟是我们对数学的梦想,还是热气变成的云雾,不过那种经历真是太爽了。

我们这群热情开朗的学生还接触到了许多个性鲜明的学者,并从他们身上获得了宝贵的知识。其中一位学者叫卡尔·西格蒙德,他是维也纳大学的数学家。卡尔留着浓密而又凌乱的头发和齐整的胡子,戴着眼镜,看上去有点孤僻,不怎么平易近人。他很酷,更像是一名学生,而不是教授。卡尔仅凭记忆就可以讲授他所有的课程,用的是一种催眠式甚至咒语一般的语调和节奏。在那次令人心奋的阿尔卑斯静修营的最后一天里,卡尔给我们讲了一个他刚从报纸上看来的十分有趣的问题。

这篇文章是关于博弈论的。匈牙利裔的伟大数学家约翰·冯·诺依曼于1928年发表了他关于博弈论的第一篇论文,虽然在他之前也有别人提出过类似的概念,但多数历史学家认为,冯·诺依曼才是开创这一领域并将其发扬光大的人。后来,曾遭到纳粹迫害而来到美国避难的奥地利经济学家奥斯卡·莫根施特恩(Oskar Morgenstern),也在这一领域作出了贡献。在他的帮助下,冯·诺依曼对博弈论进行了完善,并成功地将其应用于经济领域。利用博弈论的方法,冯·诺依曼对美苏之间的冷战行为进行了建模。他的这一方法广为他人所用,比如著名的兰德公司(RAND)。兰德(研发)公司成立于1945年12月,是最早出现的智囊机构,最初是由美国空军和国防承包商共同发起的一个RAND项目,目的是针对那些难以回答的问题找出答案。实际上,冯·诺依曼就是兰德公司的一名顾问。

在演讲中,卡尔向我们讲述了对于“囚徒困境”的最新研究进展。囚徒困境是一个十分有趣的博弈,于1950年由梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)共同设计,这两人恰恰就供职于加州圣莫尼卡的兰德公司。卡尔对此很感兴趣,设计这一博弈的发明者也意识到,作为一个强大的数学工具,囚徒困境很好地模拟了人类生活中最重要的一种斗争——关于冲突与合作、个人利益与集体利益之间的斗争。

这一难题之所以被命名为囚徒困境,是因为在它的经典形式中设计的是如下场景:假设你和你的同伙都已被警方捉拿归案,囚禁起来,而且正面临一项重罪控诉。检方对你们俩分头进行审讯,并各自提供一次选择的机会。这个选择机会正是囚徒困境的核心:如果某人充当背叛者,指控另一人的罪行,而与此同时,另一人保持沉默(不发起指控),那么背叛者坦白从宽,其刑期将减至1年,因为他揭发了同伙,使同伙获罪;而保持沉默的同伙则将面临4年的监禁。如果你们俩都保持沉默,相互合作,互不揭发,由于检方控诉重罪的证据不足,你们的审判结果会相对较轻,将分别获得两年的刑期。还有一种结果是,你们俩都背叛对方,相互揭发,则都会被治以重罪,但考虑到都有坦白的表现,将分别处以3年的刑期。

在实际生活中,你可以发现从囚徒困境引申出来的无数变形,例如不同的环境、不同的惩罚和奖赏、不同的囚禁方式细节,等等。但无论形式如何变化,其中心思想都可以用一张选择表——回报矩阵来表示(见表Y—1)。这个两行两列的矩阵可以概括囚徒困境的所有4种结果,也能概括日常生活中各种紧张微妙的局面。

表Y—1 回报矩阵

我们先看看回报矩阵的上面一行:你们俩都合作,每人获刑两年,记为-2,代表你们将失去自由的年头。你合作,而同伙背叛,你获刑4年,他获刑1年。下面一行则描述了其他两个可能的选项:你背叛,而同伙合作,你获刑1年,他获刑4年。你们俩都背叛,每人获刑3年。从纯粹自私的观点来看,对你而言最好的结果是第三种情况,其次是第一种、第四种,而第二种情况是最差的。对你的同伙而言,第二种情况最好,然后分别是第一、第四和第三种情况。

假设你自己是一个理性而自私、事事争第一的人,你会怎么做呢?你大概会这样推理:你的同伙要么背叛,要么合作。如果他背叛,你也应该背叛,从而避免对你最坏的结果。如果他合作,你就应该背叛,从而获得对你最有利的结果,获刑最短。因此,无论你的同伙怎么做,你的最佳选择都是背叛。

在回报矩阵所定义的这样一种博弈里,背叛是一种优势策略。在博弈论中,优势策略的意思是说,无论对手采用何种策略,这个策略永远是最佳的。这并不难理解:如果你们俩都合作,你获刑两年,但如果你此时改为背叛,则只需1年。如果对方背叛而你守口如瓶,你将获刑4年,此时如果你改口背叛,则只需3年。因此,不管对方如何,你都最好采取背叛策略。

不过,在上述推理链条中存在一个漏洞。那就是你的同伙不是傻子,他跟你一样,也在进行同样的推理,也会得出同样的结论。这样导致的结果就是,你们两人都背叛,各自入狱3年。这里的困境就在于,如果你们俩都采用对自己最佳、最理性的优势策略,所获得的结果还不如你们同时保持沉默!你们都得到了第三等的结果,但如果你们都合作的话,就可以获得第二等的结果。

看起来是不是很无奈?这就是囚徒困境。只要你们相互信任、彼此合作,就能比自私自利获得更好的结果。借助这一思考工具,我们可以更清晰地领会合作的意义:一方付出代价让另一方获利。在囚徒困境中,如果双方都合作,就放弃了各自最优的结果——1年刑期,而获得了次优的结果。但跟双方都背叛相比,这仍然是一个不错的选择。

囚徒困境的形成,很大程度上取决于矩阵中合作与背叛所对应的利益安排。通过对各种选择所对应回报价值的大小进行排列,可以对囚徒困境进行明确定义:R(Reward)是双方都合作时所获得的利益,S(Sucker)是一方合作、另一方背叛时合作方的损失,T(Temptation)是对方合作时己方背叛所获得的好处,P(Punishment)是双方背叛时得到的惩罚。我们来详细讨论这些概念。双方合作的回报价值R明显要高于双方背叛的惩罚P。然而当一方合作、一方背叛时,背叛者获得最高的回报T,而不幸的合作方则要接受最差的结果——傻子回报S。总的来说,当TRPS时,就形成了囚徒困境。就这个基本博弈来说,我们也可以对各种回报以其他顺序进行排列,从而得到不同的合作困境。但在所有这些困境之中,囚徒困境是最难解决的,你可以将其视为合作的终极困境。

在日常生活中,类似的困境总会以这样那样的形式发生在我们身上。当跟我竞争升职机会的同事休假时,我愿意帮他完成他分内的工作吗?两个互为竞争对手的公司各自定价时,是应该串通一气以获得最大的利润,还是应该竞相降价以抢夺市场?还有超级大国之间、邻国之间,甚至不同物种之间的军备竞赛,都是囚徒困境的很好的例子。如果相互竞争的国家之间能够达成合作,避免军备竞赛,这样对大家都有好处。然而,对每一个国家来说,它们各自的优势策略却都是大幅加强本方的军备。