- 超级合作者
- (美)马丁·诺瓦克 罗杰·海菲尔德
- 22072字
- 2021-03-31 22:23:11
01 合作的5大机制
第1章 合作机制1直接互惠
“我给你挠挠背,你也会给我挠挠背。”这就是对直接互惠的最好解读。当两个个体再次碰面的概率高于无私行为的成本收益比时,直接互惠就能引领合作的进化。直接互惠需要一定程度的“认出”、“回忆”等认知能力。
会有人流血的;他们说,血债血偿。
莎士比亚,《麦克白》
漆黑一片之中,有生物在飞动。它们避开月光,竭尽嗅觉感官去追踪它们的猎物,然后落在附近的某处,伺机潜近。四脚大步快跑一段之后,它们紧紧趴在了猎物身上。利用鼻子上的热感应器,它们能感知到猎物身体哪里的血管距离皮肤比较近。晚餐常常是从脖子上狠咬一口开始的。在那里,它们能待上整整一个小时,利用带有沟槽的长舌头,像吸管一样吸吮着新鲜而温暖的血液。一连几个晚上,它们都要回到同一处伤口继续用餐。人们认为,它们能识别出猎物的呼吸声,就像我们利用语音来识别彼此一样。
在我看来,吸血蝙蝠最与众不同的一点,就在于它们回到群栖巢穴之后所发生的事情。在巢穴中,几百甚至上千只蝙蝠聚集在一起,倒挂在岩壁之上。如果巢穴中的某一位成员在一夜的狩猎后无果而归,那么它的同伴就会反刍一些血液来与它分享。关于蝙蝠之间互赠血液的研究,最初是由马里兰大学的杰拉尔德·威尔金森(Gerald Wilkinson)在20世纪80年代早期进行的。威尔金森在哥斯达黎加野外的考察工作中发现,无论哪个夜晚,总会有百分之几的成年蝙蝠和三分之一的幼年蝙蝠找不到食物。但它们却从来不会挨饿,因为那些吃得肚满肠肥的蝙蝠会吐出一点儿宝贵的血液,喂养这些同伴。研究中有一个有趣的发现:蝙蝠更愿意与之前喂养过自己的蝙蝠分享血液——蝙蝠之间会花时间为彼此梳理打扮,尤其在胃部的毛发处花很多工夫,以使得对方能识别出自己。
这就是我所说的直接互惠的一个例子。直接互惠,就是简单的平等交换原则。我给你挠了背,也指望着你能为了回报我而给我挠挠背。同样的道理也适用于蝙蝠之间的血液大餐。这样的互惠行为在许多俗语中都有所体现,譬如“以牙还牙”,以及“善有善报”。罗马人常说的“quid pro quo”,就是指“用某物换某物”。从吸血蝙蝠的例子中我们可以看出,这类合作行为的产生远早于罗穆卢斯和雷穆斯,也远早于现代人类的诞生。
为了让直接互惠发挥作用,双方需要不断重复接触,这样才能有机会用一方的好意回报另一方的好意。他们可能生活在同一条街道或同一个村庄,也许是一起工作的同事,或者每个周日会在教堂碰面。在吸血蝙蝠的例子中,它们都栖息在同一个山洞里。通过这样的方式,它们就能在相互帮助的基础上形成“接触”。
在直接互惠研究领域,蝙蝠是经常被人引用的一个自然界中的案例,另外一个例子就是珊瑚礁。各种鱼类会把出现珊瑚礁的地方当作“清洁站”,让小鱼小虾在这里为自己清除寄生虫:大鱼们甩掉了一身讨厌的寄生虫,而小鱼小虾则享用了一顿免费大餐。当濑鱼为大石斑鱼提供服务时,这位小清洁工有时会游到大鱼的腮腔或口腔之中,信心十足,相信自己绝对不会被大鱼一口吃掉。当石斑鱼想要离开的时候,会稍微合拢一下嘴,并抖动身体,以此来提醒嘴里的清洁工朋友。甚至在自身陷入被攻击的险境时,石斑鱼还是会如此照做。其实这时候更加安全的做法,是迅速吞下小清洁工,然后一走了之。第一种策略是合作,第二种策略是背叛。
扁虱是一种颇为可恶的寄生虫,它的存在引发了这种机制的另一个例子——互惠梳理的出现。非洲一种名叫黑斑羚的羚羊会帮助同类整理毛发,去除扁虱。而当谈到与我们有最近血缘关系的物种时,书本中也满是这类例子。克雷格·帕克(Craig Packer)于1977年在坦桑尼亚的贡比鸟兽研究中心做了针对东非狒狒的长期研究报告。东非狒狒有着橄榄色的毛发,因此亦称为橄榄狒狒。报告称,雄狒狒会向其他雄性伸出援手,来共同对付另一只年长狒狒,这样,其中一只狒狒就可以与年长狒狒收服的雌狒狒发生关系。虽然提供帮助的雄狒狒无法在结盟后立刻得到雌狒狒,但它仍会合作,期望受助的狒狒能对它的帮助予以回报。而现实中,它确实也能得到回报。
斯里兰卡猕猴会照料受伤的雄性同伴,以便在今后的冲突中得到这位同伴的帮助。那么,年少的雄猴会对壮年雄猴的伤势特别地悉心关照也就不足为奇了,因为壮年雄猴在争斗中往往更占优势。印度尼西亚中加里曼丹省的一项研究显示,雄猴更容易与它之前曾为其梳理过毛发的雌猴交配——理毛似乎就是交配的“报酬”。这一有趣的发现令人们对“最古老的职业”——卖淫产生了新的理解。这一职业的存在历史似乎比人类本身还要久远。
雄性黑猩猩会为了达成同盟关系而与其他猩猩分享肉类食物。有证据显示,它们会根据同伴之前向自己提供帮助的情况来决定自身的合作程度。互惠可以通过各种方式实现,如梳理毛发、帮忙打架、照看幼崽、发出警报、教育、交配以及分享食物。亚特兰大埃默里大学(Emory University)的弗朗斯·德瓦尔(Frans de Waal)观察到,地位很高的雄性黑猩猩索科如果当天早些时候为他的同伴梅儿梳理过毛发,那么它和梅儿温存的机会就更大一些。
当然,也不排除例外情况,原因有二。第一,不同的科学家对互惠等词汇有着不同的理解和运用。第二,当涉及在野外观察动物行为时,通常需要作出漫长而细致的研究工作,才能真正搞清楚事实真相。剑桥大学生态学和进化生物学教授蒂姆·克拉顿—布洛克(Tim Clutton-Brock)认为,许多案例都可以用另一种方式进行解释,因此很难筛选出具体的互惠实例。
我们再来看一下克雷格·帕克富有启迪意义的东非狒狒研究。一开始,帕克认为雄狒狒是为了争取交配机会而互相帮忙。他最初的理论是,狒狒联盟中各成员之间会进行角色轮换以保证每一位都可以从联盟中获利。但之后的研究显示,在争取“战利品”的时候,原本互相合作的两只雄狒狒会展开竞争。的确,获得交配机会的唯一办法,就是加入联盟、形成合作。而一旦现有的合作关系走到终点,每只雄狒狒就要凭借自己的力量赢得雌狒狒的欢心。帕克这样说道:“在这种情况下,合作就像是买彩票,如果你不买,就不可能中奖。因为二对一还是有着非常大的成功率的。和中奖的价值比起来,买彩票的成本非常之低。只要参与次数足够多,那么你就一定能得到中奖机会。同样的道理也适用于你的同伴。”
互惠无处不在
奥利弗:我记得你!
杂货铺老板:我也记得你。现在给我滚出去,不准进来!
奥利弗:哦,不要这样。过去的事就让它过去吧。我们可以互相帮助。你有个买卖,我们也有个买卖。我们会派人到你的店里来,然后你也派人到我的店里去。你觉得如何?
杂货铺老板:你走你的阳关道,我走我的独木桥。在我把你踢出去之前,赶快滚蛋!
劳雷尔和哈代在电影《以牙还牙》(Tit for Tat)中的对白
确定直接互惠案例真实性的方法之一,就是去思考令这一机制起效的必备特征。由直接互惠引起的合作进化,需要参与者有能力识别出眼前的同伴,并回忆起之前与之打交道的结果。它(他)们至少需要一点记忆力,去记住另一个生命体对它(他)们做过的事情,也需要一点智力,去想清楚是否要采取互惠行为。换句话说,直接互惠需要一定程度的高级认知能力。
我很确信,某些鸟类以及我们人类的许多近亲,都具有足够的认知能力,尤其是类人猿。我也十分确信,人类大脑也具备了充分的认知能力。如果哈利帮过弗雷德一个忙,那么弗雷德就能记住哈利的长相,还能记住哈利做过的好事,以及哈利过去的行为举止究竟是怎么样的。弗雷德具有充分的认知能力,可以从回忆过程中想清楚,哈利是否值得信任,并据此指导自身的行动。
当我们去观察日常生活中林林总总的事物时,就会发现,直接互惠的现象比比皆是。家庭里的各项琐事,就是在不经意间凭借物品和服务的交换来完成的。负责下厨做饭的那个人基本上可以免于洗碗的差事,反之亦然。学生宿舍中各位成员之间的和谐共处,取决于每个人在打扫卫生、饮食起居等事务上付出的劳动是否同等。如果有朋友在我们搬家的时候帮了忙,那么我们就有责任在他搬家的时候帮助他收拾行李或整理物品。家人之间也会抱有同样的期望,认为孩子应该在家长年迈的时候前来照顾,以此回报孩童时期从父母那里得到的关怀。
当我们收到一份邀请,无论是吃晚餐还是看演出时,随之而来的都还有一份不成文的责任,要求我们以某种方式对这些款待予以回报。如果工作中的一位同事送给你一份包装精美的礼物,你就会记得在她生日之时也回赠一份你的心意。如果有人帮你扶着门把手,或指着自助餐桌上丰盛的美食说“您先请”,很多人会立刻回答“不,您先请”。正是这种彼此之间互惠的责任感,让圣诞节的礼物互赠仪式越来越隆重。互惠行为同样可以在更大规模的人群中出现:商业组织之间可以建立长期的合同责任关系,政府之间会互订条约,等等。
与之相反,我们有时也会对卑劣的行为进行报复。常言道,“以眼还眼,以牙还牙。”这句话引自《出埃及记》(21:24—27),意思是说,在战斗中弄瞎别人眼睛的人,要对他人的损失予以公平的赔偿。古巴比伦国王创立的《汉谟拉比法典》中,用同样的方式对互惠原则进行了规定——“如果一人打瞎了另一人的眼睛,那么他自己的眼睛就要被打瞎,如果一人打掉了另一人的牙齿,那么他自己的牙齿就要被打掉。”我们在“正义之战”中也可以看到“以牙还牙”的逻辑,其中冲突演化的程度与给定的威胁大小成正比。
由于互惠行为在人类生活中具有十分重要的作用,因此成为众多喜剧作品的灵感来源。著名双人喜剧组合斯坦·劳雷尔和哈代利用互相报复的闹剧令影片达到了欢乐的高潮。他们于1935年上映的一部喜剧短片,整体都是围绕相互反击和报复的主题,而且影片还有一个非常恰当的名字——《以牙还牙》。
如此看来,我们有充分的证据证明,这个世界充满了互惠行为。但这并不是说,人生这场游戏中的另一位玩家就一定会采取互惠行为。因为为他人提供帮助是需要付出代价的,合作中总免不了会伴随着被他人盘剥的可能。为什么要与他人分享辛苦换来的劳动成果?为什么要回报他人的帮助?为什么不采取欺诈手段?为什么不让别人去辛苦劳作,然后自己收获他人的成果,再一走了之?简而言之,我们会不嫌麻烦地去帮助他人,究竟是为了什么?
毕竟,自然选择的主要目的就是将基因传给子孙后代,那么在采取背叛行为可以获得丰厚短期回报的情况下,又怎么会形成一种从长远看来颇具“利他主义”色彩的行为呢?在现代社会中,强大的法律和道德秩序能将采取欺诈行为的诱惑保持在可控的程度之内,但在没有权威管理机构的情况下,直接互惠行为是如何发生的呢?在珊瑚礁清洁站的例子中,为什么大鱼不在小鱼完成清洁工作后一口把它吃掉?
关于这一问题的讨论已经持续了几十年之久。但从我所研究的学科角度来看,关于这一问题的正确研究方向是由美国进化生物学家罗伯特·特里弗斯(Robert Trivers)在论文中首次提出的。特里弗斯是位躁郁症患者,他个性十足,由于和黑豹党领袖休伊·牛顿(Huey Newton)的友谊而成为话题人物。现在的他正在新泽西州立大学潜心研究人类的对称性特征,特别是牙买加人。史蒂芬·平克(Steven Pinker)尊称特里弗斯为西方知识史的伟人。
平克之所以给他如此之高的评价,其中一个原因就在于特里弗斯1971年发表于《生物学季评》(Quarterly Review of Biology)上的一篇具有里程碑意义的论文。这篇论文的灵感来自于他在非洲对狒狒进行的研究。在《互惠利他主义的演进》(The Evolution of Reciprocal Altruism)这篇文章中,特里弗斯通过借用博弈论中的著名比喻来突出了欺诈这个谜题。他讲述了囚徒困境如何直接表现出个体利益和集体利益之间的冲突。正如我在上一章中讲到的一样,囚徒困境是一个强大的数学比喻,从中可以看出,背叛行为会如何对合作产生破坏作用。
那时,特里弗斯并没有提到“直接互惠”,但是用到了“互惠利他主义”这个词。在这里,利他主义是指对他人安危的无私关注。虽然利他主义与进化论传统观点中的“自私”行为截然相反,但若揭开其背后的真实动机,就会发现利他行为其实是有许多附加条件的。通过阅读本书,我希望读者能逐渐明白,虽然看似矛盾,但“利他”行为很可能直接源自于理性玩家的“自私”动机。
在所有逃脱囚徒困境魔爪的机制中,最明显的一类,就是我已经提到过的对游戏的简单重复。这也是为什么直接互惠引发的合作在长期存在的群体中起效最为明显。在各种类型的社会中,两个个体可能在村庄的小酒馆、工作场合或珊瑚礁处经常相遇并互动,如果某一方的背叛行为会让同伴在下次相遇的时候也采取背叛行为,那么他(它)就会三思而后行。
特里弗斯是第一位对生物学中重复囚徒困境、或称迭代囚徒困境的重要性予以认可的学者。由此,在动物之间发生的一系列相遇与互动中,就会产生合作行为。他引述了一些例子,诸如负责清洁的小鱼,以及鸟类以警告为目的的鸣叫等。值得注意的是,特里弗斯在此基础上还更进了一步。他讲到,从同情和信任到欺骗和虚伪,“每位人类个体都拥有利他和欺诈的倾向。”
特里弗斯认为,人类情感和体验中的很大一部分,譬如感激、同情、内疚、信任、友谊以及道德败坏,都源于同样简单的互惠逻辑,与大鱼和小鱼清洁工之间的关系如出一辙。这一理论建立在先人对社会行为受到互惠驱动的解释之上。亚里士多德在《尼各马可伦理学》(Nicomachean Ethics)一书中讲到,最理想的友谊建立在平等的关系基础上,而只有真诚的互惠,才能让这样的关系成为可能。在柏拉图的《克里托篇》(Crito)中,苏格拉底认为,市民是否以感恩的责任感去遵守国家法律,和他们对父母生养教育所怀有的感恩之心是相同的。总的说来,一个事实贯穿始终,那就是,互惠指导一切。
重复囚徒困境
囚徒困境理论形成于1950年,至今已出现多种变形和演绎。其他学者也对这场博弈进行过重复性试验,而特里弗斯则将重复囚徒困境用于动物行为的分析,并因此将这一理论推向了新的高度。重复囚徒困境,在吸血蝙蝠群落和鱼儿在珊瑚礁上建立的清洁站中都可能出现,特里弗斯在论文中也对这些动物的行为进行了描述。
但是,一遍遍地重复囚徒困境究竟会发生什么,第一次提出这个问题的时间实际上是先于特里弗斯的分析的。1965年,两位学者共同展开了对这个问题的研究:艾伯特·查玛(Albert Chammah)是从叙利亚来到美国学习工业工程的移民,而阿纳托尔·拉波波特(Anatol Rapoport)是生于俄罗斯的著名数学家兼心理学家,他利用博弈论去探索纯理性思维的边界,后来又投身于全球和平事业。在他们合著的《囚徒困境》(Prisoner’s Dilema)一书中,他们针对这一博弈的多次试验进行了讲解。
就在特里弗斯作出理论贡献的同时,以色列数学家罗伯特·J·奥曼(Robert J. Aumann)也对博弈论提出了重要的见解。奥曼曾于20世纪60年代在冷战军备控制谈判中担任顾问,后来于2005年获得了诺贝尔经济学奖。奥曼对重复相遇的结果进行了分析,并针对不同的情况给出了合作的先决条件。举例来说,这些情况包括当有很多参与者出现时、当互动不频繁时,以及当参与者的行为缺乏透明度时等。
在前文中分析过的囚徒困境回报矩阵中,只进行一轮的博弈,采取背叛的行为是符合逻辑的。但奥曼的研究告诉我们,即使当玩家有着强烈的短期利益冲突时,重复性博弈也能产生和平的合作行为。一位玩家会与另一位玩家合作,因为他知道,如果今天他被对方欺骗了,那么明天他就可以针对这个欺骗行为采取惩罚对方的措施。对复仇性报复行为的规避,似乎为友善的合作铺平了道路。从这个角度来看,从自我利益出发而进行的理性思考的确可以催生合作。奥曼将这一见解称为“无名氏定理”(Folk Theorem),它就像许多民歌一样,被人们口口相传,找不到最初的作者,而且在传播过程中也经过了许多人的修饰和改造。1959年,他又将这一理论发展为多位玩家之间的博弈,其中一些玩家会形成团伙,共同对付另一些玩家。
无名氏定理虽然强大,但并没有告诉你应该在重复性博弈中采取什么样的行动。这一定理实际是说,有一种策略可以引发理性对手的合作行为,但却没有说明什么样的策略是好的,什么样的策略是不好的。因此,举例来看,我们可以说冷酷策略(Grim Strategy)是能够引发合作的,即只要你合作,我就合作,但如果你背叛了一次,我就会永久性地采取背叛行为。然而在现实之中,这样的策略却远非可以激发出长期博弈中合作态度的最佳方法。
博弈策略
冷酷策略 只要对方合作,我就合作,但如果对方背叛了一次,我就会永久地采取背叛行为。
为了找到玩这个游戏的方法,思想家们不得不等待一场新式比赛的打响,并从这样一场比赛中看出重复囚徒困境中的所有细微差别。密歇根大学政治科学家罗伯特·阿克塞尔罗德(Robert Axelrod)发现了其中的奥秘,并将成果写入了《合作的进化》(The Evolution of Cooperation)这一优秀的著作之中。这本著作的第一句话就令人兴趣顿生:“在充满利己主义者又缺乏中央集权的世界中,合作行为会在什么样的情况下产生?”阿克塞尔罗德用直白的语言,清晰地讲述了他所设计的新方法如何理清困境的谜团。
他组织了一场特殊的实验:在计算机上进行一次虚拟比赛。参加比赛的各位“选手”是由众多科学家提交的计算机程序。重复性的囚徒困境循环赛就在这些程序之间展开。当时正值20世纪70年代末期,这样的思想在那个年代看来具有令人震惊的新奇感。为了让大家对这场比赛所处的时代背景有一个更好的把握,我们不妨回忆一下,在同一时期,商业性的投币视频游戏才刚刚问世。阿克塞尔罗德的思想并不是供人娱乐的小把戏。和容易厌倦走神的人类不一样,计算机不仅可以不知疲倦地在彼此之间执行命令和策略,还可以一丝不苟地遵守规则。
全世界的研究人员给阿克塞尔罗德邮寄来了14个不同的计算机程序。他还加上了自己的一个程序,这个程序会随机地采取合作和背叛的行为。之后,他将所有的程序放在一起,相互之间展开循环比赛。成功很容易判定——获胜的策略是在计算机中与所有其他策略进行比赛,并在走了200多步之后得分最高的那一个。在整场比赛中,阿克塞尔罗德一共走出了12万步,进行了24万种选择。
由于计算机允许参加比赛的程序拥有无限的复杂性,有人可能会认为,最大、最“聪明”的程序才会获得胜利。但大小并不能决定一切。事实上,最简单的一位“选手”,反而轻而易举地获得了胜利,这让许多理论家大跌眼镜。最终的冠军,竟然是仅有4行的计算机程序!而这部程序的设计者,就是阿纳托尔·拉波波特。
这部程序的策略被命名为“以牙还牙”,第一步采取合作态度,之后的每一步都重复对方之前的一步。这一策略比冷酷策略要更加宽容。冷酷策略只消对手一步背叛,就会激发出自身永无休止的变节。
博弈策略
以牙还牙 总是怀着对对方充满信任的态度开始博弈,之后便模仿对方上一步的动作,只有当对方背叛时,才会采取背叛行为。
脱离开囚徒困境的限定,很容易就能想明白采取简单策略的优势。如果你太过聪明,你的对手可能就会发现很难读懂你的意图;而如果你表现得太过迟钝、含糊或令人费解,你的对手就不会产生与你合作的动机。同样,如果一个程序(或一个人)可以清楚明确地采取行动并发出信号,让人感觉它(他)不会轻易变卦,那么与其合作就是一个很合理的选择。
令人惊讶的是,这个发现竟然一点儿都不新鲜。参加计算机囚徒困境比赛的选手已经了解到了这一强大的策略。实际上,20世纪70年代初发表的研究成果已经显示出“以牙还牙”策略的优异表现。这一策略让人回想起冷战时期核军备竞赛的情形。当时,每一方都承诺,只要对方不使用原子弹和氢弹,自己就不会使用。许多参赛选手都试图在这一简单策略的基础之上对自己的程序进行提升。“出乎人们的意料,在提交的所有复杂程序中,竟然没有一个能与‘以牙还牙’最初的简单版本相抗衡。”阿克塞尔罗德评论道。
为了找到成功的秘诀,阿克塞尔罗德分别详细研究了高分和低分策略,发现其中一项属性表现出了特别的重要性。“这就是友善的属性,也就是说,永远不做第一个背叛的人。”这一属性很有意思,因为不会在对别人采取报复手段之后还心存芥蒂。由此,两位对手之间就会永远存在恢复“信任”的机会:如果对手进行和解,那么双方都能获得合作带来的好处。
阿克塞尔罗德又组织了第二场比赛,这一次共有6个国家的63个程序参赛,参赛选手中包括一位年仅10岁的计算机小爱好者,还有一群专业方向各异的大学教授。其中一份参赛作品来自于英国生物学家约翰·梅纳德·史密斯(John Maynard Smith),我们之后会对他做详细介绍。梅纳德·史密斯的作品名叫“一牙还两牙”,这一策略是说,除非对手接连两次采取背叛行为,否则就一直保持合作态度。梅纳德·史密斯在他所在的研究领域中广受尊敬,而在这次比赛中却仅排在第24位。
博弈策略
一牙还两牙 “以牙还牙”策略的变种。除非对方接连两次采取背叛行为,否则就一直保持合作态度。
而拉波波特则秉承了英国足球队的座右铭:“永不改变一支获胜的团队。”他再一次提交了“以牙还牙”策略,并再一次获得了胜利。由此可见,遵从这条简单的策略,的确可以有所回报。正是这场比赛,激起了卡尔·西格蒙德研究囚徒困境的兴趣,而他又通过那次山间谈话给了我灵感。罗伯特·阿克塞尔罗德的著作《合作的进化》,如今已实至名归地被公认为这一领域内的经典名著。
阿克塞尔罗德的计算机比赛对现实世界是否存在一些启迪意义呢?答案是肯定的。曼弗雷德·米林斯基(Manfred Milinski)于1987年报告了这类竞赛在现实生活中的一个实例。如今,米林斯基已是位于德国普伦的马克斯—普朗克进化生物学协会(Max Planck Institute for Evolutionary Biology)的主任。当时,米林斯基对棘鱼的行为进行了研究。当梭子鱼等大型掠食性鱼类出现时,棘鱼群中会有几条鱼儿主动接近,探查一下闯入者究竟有多大的危险性。对于这些“侦察兵”来说,“掠食者探查活动”有着极高的风险。但侦察得来的信息,不仅对它们自身有利,而且也能为整个鱼群带来好处。如果闯入者不是掠食类动物,或者刚刚吃饱、没有饿着肚子,那么这些小鱼就不用逃开。这种对逃跑必要性的评估行为,看似有些愚蠢,但实则非常重要,因为在它们天然的栖息地中,常有许多梭子鱼和其他鱼类游来游去,所以一碰到大鱼就逃开并不是最佳的策略——很可能刚从一位掠食者眼前跑掉,就一不小心钻进了另一位掠食者的嘴里。
米林斯基发现,棘鱼在这种高风险的探查活动过程中利用了“以牙还牙”策略。如果附近出现了一条梭子鱼,两条棘鱼往往会一起冲刺,游向掠食者的大嘴,去一探究竟。每一次冲刺,都可以被看作是困境博弈中的一轮。对于参加博弈的两条鱼来说,进行合作对双方都有好处,可以降低被大鱼吃掉的风险。这是因为“掠食者效应”起了作用:梭子鱼在决定首先攻击哪只或哪群猎物的时候,会浪费掉宝贵的时间。这也是“布里丹之驴”悖论在现实中的体现。这一悖论是讲,一头驴不知在两堆干草中如何选择,最后饥饿而死。然而,每只小鱼却都有充分的动机在行进过程中稍微落后一点,将一部分风险转嫁到另一只棘鱼身上。
为了弄明白这些小鱼脑子里在想什么,米林斯基非常有创造力地在实验中用上了镜子。当把镜子置于合适的位置时,就能生成一种幻象,让一条棘鱼感觉有另一条棘鱼在陪伴它一同冲刺。而将镜子稍作倾斜,米林斯基就能让棘鱼感觉,它镜中的“同伴”是合作——与它共同前行,还是背叛——落在后面,就像是打头阵的军官慢慢退到队尾、避开危险的前线。遇到镜中的小鱼“背叛”自己时,领头的小鱼会采取减速或掉头的对策,中途放弃它的侦察任务。如果镜中的小鱼和“侦察兵”保持同样的速度,那么后者就会比独自执行任务时更接近掠食者。
并非有意的背叛
到目前为止,一切都直截了当、易于理解。但“以牙还牙”策略存在一个问题,而这个问题在毫无缺陷的计算机程序互动过程中并不能直接体现出来——人类和其他动物会犯错误。有时脑子会“短路”,有时玩家会分心,有时还会出现情绪起伏,可能有一天事事不顺,心情跌到谷底。毕竟,人无完人。其中一类错误是由于“颤抖的手”:我想要合作,但却因为疏忽而未能做到。另一类错误是由于“糊涂的脑子”:我认定这个人心怀叵测,在上一轮博弈中背叛了我,而事实上却不是这么回事,可能我把这个人错当成别人了。颤抖的手和糊涂的脑子,共同导致了我所谓的有“噪声”的互动。
噪声在合作进化过程中所扮演的重要角色,是由牛津大学的罗伯特·梅在《自然》杂志上发表的一篇论文中首先指出的。梅曾经是一位优秀的物理学家,后来对理论生物学的发展也产生了深远的影响。鲍勃(这位澳大利亚人喜欢被称为“鲍勃”)最著名的成就,就是实现了以数学基础进行生态学分析的跨越。他在论文中讲到,进化生物学家应该对“失误”在重复囚徒困境中产生的影响进行研究。他认识到,从像阿克塞尔罗德竞赛这样天衣无缝的完美博弈中得出的结论,并不一定具有实际意义。
他提出的这一观点十分重要。因为即使是不常出现的错误,也可能产生破坏性的后果。如果博弈双方都采取同样的“以牙还牙”策略,就会引发永无止境的报复行为。这是因为“以牙还牙”策略只会对背叛者进行反击,因此一旦出现干扰信号或疏忽,就可能令“以牙还牙”的行为陷入恶性循环,在博弈双方之间制造出比罗密欧与朱丽叶家族、哈特菲尔德和麦克伊,或科西嘉岛仇杀更加惨重的血海深仇。很明显,结束所有这些残忍复仇恶性循环的办法,就是忘掉过去,既往不咎。举例来说,可以间歇性地采取报复行为,或者靠掷骰子的方法来决定是否进行报复。在鲍勃这一重要观点的启发之下,我对阿克塞尔罗德的开创性工作成果进行了延伸,将噪声的影响考虑进来,让这一理论更加贴近现实生活。
偶尔宽容的魔力
在博士研究生求学期间,我和卡尔一起设计出了一种方法,将困惑、疏忽和失误考虑在内。用术语来说就是,我们利用概率性策略替代了传统的确定性策略,从而使得博弈的结果更加模糊和随机。我们决定对存在噪声的合作进化进行研究,并在阿克塞尔罗德开创性成就的基础上,进行了一场计算机概率性竞赛。我们的想法,是对因突变和自然选择而随机出现的各种策略加以利用。
所有的策略都可能受到偶然性的影响。这些策略会在对方采取合作之后,以某一概率进行合作;而在对方背叛之后,也会以某一概率进行合作。可以这样认为:我们将不同程度的“宽恕”加入到了策略组合的研究之中。有的策略是会在两次背叛行为中宽恕一次;有的策略是会在5次背叛行为中宽恕一次,以此类推;而有些策略则是毫不通融的——这些“旧约全书”式的策略会采取永不宽恕的态度,就像“冷漠策略”一样,在对方背叛一次之后永远不再合作。
为了研究合作的演进,我们将各种各样的策略与自然选择的过程调配在一起,如此一来,获胜的策略就能成倍增加,而失败的竞争对手则会被淘汰。得分最高的策略将获得子孙后代作为奖励——出现更多和它们一样的策略版本,而这些版本也要参加接下来的博弈。同样,那些表现欠佳的策略就会被消灭。为了进一步体现真实性,我们进行了编排,让繁殖的过程带有一些不完美的因素。有时,突变也可能产生新的策略。
卡尔和我坐下来,观察着我们创造出的这些策略在一代又一代的繁衍过程中不断兴衰、变化。我们热切盼望能看到一个策略最终成为胜利者。虽然没有一条进化轨迹会出现重复,但我们却观察到了总体上的规律性和连贯性。
竞赛总是从一种“原始的混沌状态”开始的。也就是说,初始之时仅有随机策略的存在。在这种混乱状态下,“永远背叛”策略总是会在早期占据领先位置:就像许多好莱坞电影中的情节一样,坏蛋一开始总是一幅自鸣得意的样子。到了100代左右的时候,“永远背叛”策略在我们的竞赛中占据了支配地位。生命的剧情似乎有着令人沮丧的序幕,而大自然则冷眼旁观,不予合作。但这一切之中,却存在着一线希望。面对这个冷酷的敌人,一小群被围困的“以牙还牙”策略玩家死死坚守在灭绝的边缘。还是像好莱坞式的英雄一样,属于他们的胜利终将会到来——当盘剥者将所有人盘剥一空之后,当全部的弱者都被清扫干净之时,博弈的进展方向突然出现了转折。卡尔和我满心欢喜地看着“永远背叛”策略的玩家逐渐被削弱并最终消失,为合作的成功兴起扫平了道路。
博弈策略
永远背叛 不论对手策略如何,总是采取背叛行为。
无条件合作 不论对手策略如何,总是与其进行合作。
当遭遇死硬派背叛者的抵抗之时,孤立的“以牙还牙”策略玩家的表现会比永远背叛的无赖要差一些,因为“以牙还牙”总是要在输掉第一轮之后才能尝到血的教训,转换到复仇状态。但当与其他“以牙还牙”策略玩家对战时,则会比“永远背叛”策略玩家和其他强硬派的表现好出很多。在由“永远背叛”和“以牙还牙”策略玩家组成的混合群体中,虽然后者占少数,但“友善”的态度会开始繁殖,并很快在博弈中居于支配地位。通常情况下,背叛者的表现十分糟糕,并最终销声匿迹,留下一群全部秉承“以牙还牙”策略的玩家。
但卡尔和我却满心期待着惊喜的出现。在我们的计算机竞赛中,“以牙还牙”策略玩家最终并没有获得胜利,而是输给了它们更加友善的表兄弟。这位表兄弟利用了“以牙还牙”的致命缺陷——对偶尔出现的失误不够宽容。在几代之后,进化过程就会垂青另一个策略,也就是我们所称的“宽宏以牙还牙”。此时,自然选择过程转向了最优的宽容程度:永远以合作的态度来回报对方的合作,而当遇到背叛时,在每三次背叛中采取一次合作(具体细节取决于所运用的回报价值)。你不能让对方知道你什么时候会表现出友善的态度,如果让对方知道了,就是犯了一个重大的错误(约翰·史密斯的“一牙还二牙”策略就会轻而易举地被交替性合作与背叛者所利用)。因此,为了不让对方知道,宽容与坚守行为是呈概率性的。这样一来,在对方作出背叛举动之后,我方是否采用既往不咎的态度,就要看运气,而并非必然。可以这样理解“宽宏以牙还牙”:永远不会忘记对方的好意,但会偶尔谅解对方的恶行。
博弈策略
宽宏以牙还牙 “以牙还牙”策略的变种。永远以合作的态度来回报对方的合作。当遇到背叛时,以某一概率与对方进行合作。
“宽宏以牙还牙”可以很轻松地取代“以牙还牙”,保护自身不受背叛者的盘剥,并且在很长一段时间内都处于支配地位。但由于竞赛的随机性,这一策略无法永远处于不可动摇的位置。我们观察到,一批“宽宏以牙还牙”策略玩家开始以几乎无法觉察的缓慢速度出现变化,并朝向更加仁慈的策略转移。最终,全体玩家表现出了一致的友善:全部采取合作态度。原因就在于,当每一个人都试图表现出友善的时候,宽容与谅解就会得到优厚的回报。玩家之间永远存在更快采取宽容态度的动机,因为最高的奖励来自于许多富有成效的(也就是合作性的)互动。现在,在适当的突变帮助下,背叛者们仍有再次崛起的可能。由永远合作的友善玩家组成的统一群体,在任何残留或新近出现的背叛者燃起的入侵火焰面前,就像枯草一般不堪一击。新的轮回便由此开始。
这些概率性博弈虽然在细节上多少有些差异,但总体上却遵循着同样的规律。卡尔和我发现,一些策略会逐渐壮大声势,而另一些则慢慢销声匿迹。总体来讲,这些周期与轮回的进化过程是可以预测的:从一成不变的“永远背叛”到“以牙还牙”,再到“宽宏以牙还牙”,之后会演变成为全部合作。最终,在一次毁灭性事件的作用之下,群体成员又再一次回到受卑鄙背叛者所支配的状态之中。
值得庆幸的是,在整场竞赛中,相对较为友善的策略占据主导的情况更多一些。当我们观察整场游戏的进展,并计算所有策略的平均出现时长时发现,最为常见的一种策略就是“宽宏以牙还牙”。而令人惋惜的是,在现实世界中,这种轮回可能会长达几年、几十年甚至几百年。无数事实告诉我们,人类历史也不乏这样的轮回:朝代不断更替;帝国兴衰更迭;公司崛起、占领市场之后,又在强大而富有创新精神的竞争对手面前土崩瓦解。
正如这些策略中任何一个都不会在竞赛中取得完胜一样,人类社会也将永远是合作者(守法公民)和背叛者(犯罪分子)的混合体。信仰也是同样的道理,某一种信仰的崛起必然伴随着另一种信仰的衰退。而正是这样的现实,激发了奥古斯汀(Augustine)的灵感,在罗马于公元410年被西哥特人洗劫之后,创作出了《上帝之城》(De civitate Dei)这部神学巨著。奥古斯汀希望能推翻罗马是因为接纳基督教而被削弱的说法,正如我们的计算机竞赛所证实的一样,伟大的帝国终将衰落。这就是那句名言“我虽跌倒,仍要再起”所要告诉我们的,“盛极而衰”也是同样的道理。
在过去几十年的发展过程中,我们可以看到,经济生活中同样存在着周期循环。虽然政府加强了监管,但人们还是能够随着时间的发展,想出妙计来加以规避。一段充满艰苦和辛劳的岁月过后,总会迎来舒适懒散的生活,人们便会在这时开始懈怠、偷懒,占尽体制的便宜。合作与背叛的轮回,是人生的主旋律。而我们的计算机模拟,是否能在无意之间发现对这一切的数学解释呢?
投奔牛津大学的鲍勃·梅
经过一年多的协作并发表了4篇论文之后,卡尔告诉我,我已经完成了所需要的研究,可以开始着手整理关于合作进化的博士论文了。于是,我立即开始整理工作成果。几天之后,我将论文递到他手里。他举起论文,从侧面仔细端详着这摞文件,摇摇头说:“博士论文必须要再厚一些。”第二天,我将同样一份论文交给了他,只不过将字号调大了一些,改成了双倍行间距。卡尔一眼便看穿了我的伎俩,但他毕竟是一位实用主义者。他看了看我的论文,说道:“就这么着吧。”
之后,卡尔建议我向领域内的领军人物——牛津大学的鲍勃·梅申请一个职位。当时,鲍勃十分出名,因为他将数学的严谨注入到了生物学研究领域,以此来揭示生物世界中的深层秩序。针对稳定性是否是生态系统多样性的原因,以及反过来的多样性是否是稳定性的原因这两个课题,鲍勃进行了深入研究(研究发现,在生态系统中注入各种不同类型的生命体,并不能自动带来稳定性)。他还对昆虫及其寄生虫之间的关系进行了制图分析。利用数学模型,他揭示出了物种之间的联系如何引发个体数量的波动。通过这种方式,鲍勃将混沌概念引入生物学,并揭示出,看似随机而复杂的行为,其背后的规则其实很简单。我在家里写作这一段内容的时候,正坐在鲍勃提出这一发现时所用过的办公桌旁。这是他在帮我置办第一处房子家具时送来的礼物。
卡尔认为,我得到牛津大学工作机会的胜算并不大,因此我又申请了伯克利和哥廷根。我未来的人生、事业和一切,似乎都仰仗于这几封不太可靠的航空邮件。就在这些邮件飞向世界各地之时,我自身也陷入了浪漫而伤感的境地。当时,我即将与厄休拉完婚,我们在维也纳的时光就要告一段落。即将离家的忧愁与就要展开新旅程的兴奋混杂在一起,百感交集。我们两个人谁也不知道,哪里会是我们的归宿。
卡尔最初的判断显然是英明的。鲍勃拒绝了我,说他并没有打算建立一个团队,而且也很少与博士后学生合作。我再次给他写信,告诉他我可以自己带资金过来,是埃尔温·薛定谔(Erwin Schr?dinger)研究基金。那时,卡尔也在跟鲍勃为我争取机会。最终,我万分欣喜地接到了他的允诺。从某种程度上讲,我职业生涯的下一步规划终于明朗了,但我却完全不知道将会在牛津大学遇到些什么人、经历些什么事。
厄休拉和我在动身前往牛津之前的一个月于维也纳完婚。我们在婚礼结束后向众亲友道了别,之后便回到各自父母家中,直到我们踏上火车,离开家乡。没有想到,我们1989年这一走,便是长达9年的时光。离家时,我们俩拖着7个行李箱和两辆自行车。那一天刮着凛冽的冷风,天空是阴郁的灰色,一场汹涌的暴风雨即将来临。当晚,家人一直送我们到维也纳西站,依依不舍地道别。一位朋友还特意郑重地站在我面前,握着我的手。“别给我们丢脸。”他挤出一个笑容。火车徐徐开动,淹没在夜色之中,我的新娘也流下了忍耐已久的伤感的泪水。
第二天,渡轮将我们载到了海峡的另一端,那是我第一次将英国的景象收入眼底。这里并不像威廉·布莱克(William Blake)笔下描写的绿色田园一样景色宜人,而是泥土龟裂,干燥荒凉。地上的草和树上的叶子都已枯黄,整个英国当时正处于严重的旱灾之中。水库已经干涸,政府颁布了浇水管禁令,如果发现有人洗车,还会处以罚款。在普利茅斯,人们甚至在用处理过的污水浇灌花坛。在一处动物园中,人们用企鹅池中的脏水喷洒高尔夫球场焦干的草地。在我们的火车停车等候时,正有一群消防队员在前方的铁轨上扑救火灾。
当我最终走进新的办公地址——位于南公园路的牛津大学动物学系,看着这座毫无可爱之处的水泥建筑时,发觉现实再一次给我心中的期望以严重的打击。走廊上贴有鸟类和其他动物的海报,却四处也看不见等式或图表。不会找错地方了吧?我心中暗自疑虑。没有错,而且后来我还发现,自己能够来到这里是十分幸运的。在这里做学问,既不需要严格的礼节,也不用十分拘谨。这里和等级分明的奥地利学术体系完全不同。在奥地利,年轻的学子根本无法接近工作繁忙的教授先生们;而在这里,我可以边喝咖啡或下午茶,边与许多富有影响力的学术权威谈天说地,从开创了合作理论研究的伟大的比尔·汉密尔顿(Bill Hamilton),到理查德·索思伍德爵士(Sir Richard Southwood)、理查德·道金斯(Richard Dawkins)、保罗·哈维(Paul Harvey),还有约翰·克雷布斯(John Krebs)。这里有着美妙而浓厚的学术气氛。我逐渐对这里产生了深深的好感。
鲍勃·梅有时会跟大家一起踢足球——所有的学生和教授都像我一样对“游戏”十分痴迷。但这一点也有些令人担忧,因为他十分争强好胜。在英国的传统理念中,游戏的输赢并不重要,若是把足球的输赢看得太重,就会遭到人们的指摘。但这位肌肉紧实、动作灵敏的澳大利亚人可不管这一套。而对于我们其他人来说,幸运的是,他的球技十分一般。只有在天时地利人和的情况下,幸运女神才会偶尔对他笑一笑。记得我们初识没多久的时候,有一次踢球,比分7比7平,我是鲍勃对手一方的守门员。鲍勃在比赛最后一分钟凌空一脚,将球抽射入我的大门。他兴高采烈地喊道:“马丁,这对你的事业发展很有好处!”
鲍勃和我性格迥异,我们是一对颇为古怪的组合。他身材健壮,头发卷曲,俏皮话连篇,对宗教不屑一顾。我比他高出很多,是个秃头的天主教徒,有着施瓦辛格般的英国口音,而这样的天赋在录制电话留言时颇为有用——“我现在不在,但我会回来的!”。鲍勃个性鲜明,他对精确性情有独钟,总是满口脏话,揶揄自己的研究领域和同行——“生物学家,就是想做科学家,又做不了物理学家的一群人”。从数学游戏到体育竞技,我们俩人都非常热爱博弈,也都非常好胜。记得有一次我对他说,我脑子里的德语词汇中,压根儿就没有“不可战胜”这个词,他听后着实困惑了许久。
我们之间的友谊与默契,对我的工作产生了强大的助推力。在诺贝尔奖获得者、德国学者曼弗雷德·艾根(Manfred Eigen)于瑞士克洛斯特斯组织的一次学术聚会中,我想出了一个点子。之后,我便在牛津大学的第一个研究项目中,顺着这个思路展开了工作。在那次聚会中,比尔·哈兹尔廷(Bill Haseltine)发表了关于人类免疫缺陷病毒(HIV)的讲话,那时我意识到,艾滋病患者的体内一定有一大群紧密相关、不断复制的病毒。这样的想法让我想起了与彼得·舒斯特共同在数学生物学领域进行的研究。
一天,我突然意识到,我应该开发出一个病毒感染的数学模型。但当时,我在解决这一问题时遇到了太多困难,几乎令我的努力前功尽弃。我很幸运,当时鲍勃已经与另一位同事罗伊·安德森(Roy Anderson)就这种病毒展开了研究。他们分析了病毒是如何在人与人之间传播的。不过,我却想另辟蹊径。我希望能建立一个模型,从不幸感染病毒的人类个体“内部”着手,分析病毒的发展情况。这就需要对病毒在面临身体免疫系统攻击的情况下如何在细胞间实现扩散进行解释。为了搞清楚HIV在人体内的一番遭遇,我需要利用与卡尔进行模拟程序竞赛类似的一种数学手段。
在感染HIV和出现艾滋病症状之间,通常存在着较长时间的潜伏期,而潜伏期长短在不同的患者身上也表现出巨大的差异,短则两年,长则十几年。我发现,我可以对这一令人迷惑的时间延迟及差异进行解释。有幸的是,我不需要对动物和患者重新做实验,而可以直接利用现成的数据来得出结论。我所需要的全部,就是计算机那强大的数据计算能力,并利用这一计算能力,探索出病毒在人体内部繁殖、突变的方式。
这一研究成果令鲍勃感到非常兴奋,他坚持要我将新发现展示给罗伊·安德森。没想到,当时在帝国理工学院(Imperial College London)工作的安德森也感到非常惊喜。我于1990年将研究成果首次发表于《艾滋病》(AIDS)杂志。一年之后,其他学者在我的理论基础之上进行了扩展,总结出了临床测试数据,并发表在《科学》杂志上。我还与巴里·布伦伯格(Barry Blumberg)一起,共同对乙肝病毒进行了研究。布伦伯格是牛津大学贝利奥尔学院(Balliol College)的研究生,因发现这种病毒并开发出病毒疫苗而获得诺贝尔奖。这些研究成果为一门新学科的诞生奠定了基础,这门新学科就是“病毒动力学”,其特点就是通过数学模型研究病毒在感染宿主体内的发展过程。
“宽宏以牙还牙”和“赢定输移”
还有许多类型的博弈尚待卡尔和我去展开,太多的变体和潜在的结果亟待我们去研究。1992年,我们针对“宽宏以牙还牙”策略的研究成果发表于英国《自然》杂志上。这部杂志和美国的《科学》杂志一样,都是科学家最希望占有一席之地的权威刊物。卡尔和我都对进一步的研究工作有着许多新想法。因此,在来到牛津之后的第二个暑假,我便再一次回到奥地利,重新开展我们对囚徒困境的探索工作。
在我们之前进行的策略计算中,玩家决策仅仅依赖于对手的上一步举动。而这些计算,也仅仅揭示出了所有可能发生的结果中的一部分。现在,我们希望能在策略中加入对玩家自身举动的考虑。我来举个例子,以便人们能更准确地理解我的意思。请你将自己想象成竞赛中的一名选手。如果你选择了背叛,那么你就会比较容易理解并接受另一位玩家的背叛行为。同样,如果你选择了合作,就会对另一位玩家的背叛行为感到更加愤怒。
为了研究这样的假设是否会影响到获胜的策略,我带着新的笔记本电脑,和卡尔一起来到了罗森伯格城堡——位于风景优美的奥地利南部的中世纪建筑群,还有一处曾作竞技场之用的拱廊庭院。我之所以来到这处童话世界工作,是因为我必须要和卡尔在一起。而卡尔来到这里,是因为他要和他妻子在一起。他的妻子当时正在罗森伯格进行古建筑研究。
虽然并不知道新的计算机实验会出现何种结果,但我却心里有数。“宽宏以牙还牙”会再次获胜,就是这么简单。我跟卡尔二人观察着博弈的进展,想要证明事实的确如此。那时,只有一件事会让我们分心。城堡内有各种各样的猛禽,在特定的时间段,这些猛禽会来到宽敞的庭院进行表演。身着文艺复兴时期服饰的训练师会引诱这些猛禽掠过观众的头顶,作出精彩的俯冲动作。随着这些大鸟上下翻飞,卡尔和我的目光也完全集中在了它们身上。
我们一遍又一遍地进行着模拟运算,不时停下手来去观赏猛禽的精彩表演,惊叹于金雕作出的千尺俯冲。不得不说,这些神奇的鸟儿对我们来说是个难能可贵的调剂,因为我们的工作遇到了棘手的问题。我的最爱——“宽宏以牙还牙”策略,竟然在笔记本电脑上的角斗竞赛中遭遇连番打击。由于我一直以来非常自信地认为这一策略可以独占鳌头,这样的结果着实令人感到苦闷。那个时候的我,特别希望能有更多的鸟儿出现,将我的注意力从工作上移开。我编写的程序中一定存在漏洞和问题。我检查了一遍又一遍,却什么问题也没有找到。我一直对自己的能力抱有十足的自信,并为自己找了个永远站得住脚的理由:“漏洞永远存在于你没有看到的地方。”一番周折之后我才恍然大悟,原来这次不是漏洞的问题。
“宽宏以牙还牙”的衰落趋势向我透露了一些十分重要的信息,只不过那个时候我没有太在意。我找到了一种可以让问题消失的办法,但我没有办法拯救“以牙还牙”。几天之后,我不得不承认,结果是真实无误的。于是我潜心研究,终于发现了能保持获胜记录的新策略。这种新策略包括以下指令,乍一看不禁感觉有些古怪:
如果我们在上一轮中都保持合作态度,那么我会再次进行合作。
如果我们都采取了背叛,那么我会(以某一概率)进行合作。
如果你合作,我背叛,那么我会再次背叛。
如果你背叛,我合作,那么我也会背叛。
总体来看,这一策略是说,只要我们采取同样的行为,那么我就会合作;只要我们采取了不同的行为,那么我就会背叛。换句话说,这一获胜策略会作出这样的事情:如果我做得好,我就会重复我上一步的行为;如果我做得不好,我就会改变之前的行为。经过这样一番分析,我逐渐产生了兴趣,心情也大为好转。
回到牛津之后,我在动物学系的走廊上碰巧遇到著名生物学家约翰·克雷布斯,并将这一获胜策略讲给他听。他立刻进行了指认:“这听起来很像是‘赢定输移’(Win Stay, Lose Shift)策略,是动物行为学家的研究课题。”鸽子、鼠类和猴类非常善于利用这一策略。人们也会用这样的策略来训练马匹。其研究历史已经长达一个世纪。对“合作”进行的简单而理想化的计算机模拟,竟然能进化出这样的策略,令克雷布斯感到十分吃惊。听完他的讲述,我也有同样的感受。
博弈策略
赢定输移 如果我们在上一轮中都采取合作行为,那么我会再次选择合作。如果我们在上一轮中都采取背叛行为,那么我会以某一概率与对方合作。如果我们在上一轮中采取了不同的行为,那么我会选择背叛。
现在,我必须要弄明白,为什么“赢定输移”策略比“以牙还牙”和“宽宏以牙还牙”策略更好。通过仔细研究计算机模拟中合作与背叛的轮回,我找到了答案。以前,我们可以依据无条件合作者的大批出现,来判定一个轮回的结束和另一个轮回的开始。只要在群体中加入随机突变,就总是会出现一位背叛者,来统治这群温顺的良民。于是,一场新的轮回就这样上演了。我发现,“赢定输移”的秘密就潜藏在这一阶段中——存在于合作达到巅峰,友善策略非常充裕的时候。原来,无条件合作者能够逐渐摧毁“以牙还牙”和“宽宏以牙还牙”,却无法击败“赢定输移”。
在具有现实随机性的博弈之中,“赢定输移”策略可以对无心或无条件的合作者加以盘剥。理由很简单:任何小错误都能揭示出这样的事实,合作者总是会继续在丑恶行为面前保持友善态度。而且,就像这一策略的名称一样,“赢定输移”会在不受到复仇行为惩罚的情况下,不断对其他玩家加以盘剥。或者用卡尔和我的说法就是,这一策略无法被心软的玩家所颠覆。而这一特征,正是其取得成功的关键原因。
“赢定输移”策略的成功还告诉我们一个更加深刻的道理:在直截了当的确定性博弈中,看似平淡无奇的玩家,一旦碰到现实随机性,就可能获得完胜。我们在翻阅现有研究成果的时候发现,已经有其他研究人员针对这一策略展开了工作,只是叫法不同而已。伟大的拉波波特曾对这一策略表示不解,称其为“傻瓜策略”。因为它看起来的确很蠢——在遇到背叛者的时候,这一策略会在合作与背叛行为之间轮换。他分析说,只有愚蠢的策略才会在遇到背叛者时每隔一步采取一次合作行为。
但事实上,这一策略与“傻瓜”之称相距甚远。我们的研究显示,现实随机性也是它取得成功的关键所在。当遇到背叛者时,这一策略会以某一给定概率,用无法预测的方式采取合作。这样就可以实现自我保护,免遭机会主义者的盘剥。同样的策略,被杜克大学和北卡罗来纳州梅瑞狄斯学院的大卫和薇薇安·克雷恩斯(David and Vivian Kraines)称为“巴普洛夫”策略。他们认为,这样的策略可以是有效的。而且,著名美国经济学家埃里克·马斯金(Eric Maskin)和朱·弗登伯格(Drew Fudenberg)的研究也表明,这样的策略可以在大约半数的囚徒困境中,实现一定程度的进化稳定性。但是,他们研究的对象都是确定性(非随机性)版本的“赢定输移”策略,而我们罗森伯格竞赛的赢家,却是在概率性环境中脱颖而出的。
在进化这场伟大的博弈中,卡尔和我发现,“赢定输移”是全胜的赢家。它虽然不是大举进攻背叛主导型社会的第一个合作策略,但只要建立了一定程度的合作基础,这一策略就能站稳脚跟。不过它也不会永远存在。就像“宽宏以牙还牙”一样,“赢定输移”最终还是会被削弱和取代。进化的过程中,永远存在着无尽的轮回。
许多人依然认为,重复囚徒困境中最为显著的策略当属“以牙还牙”,但从成功的角度衡量,“赢定输移”却更胜一筹。“赢定输移”甚至比“宽宏以牙还牙”更简单一些:只要做得好,就坚持目前的选择,否则就采取行为转?换,并不需要理解并记住对手的行为。这一策略只关注自身的得失,以确保自己在博弈中占得先机。因此,人们就会很自然地认为,由于这一策略需要更少的认知技能,它就会更加普遍地存在。而事实上,与“以牙还牙”相比,“赢定输移”的确更适合用来分析米林斯基的棘鱼行为。
在囚徒困境的博弈中,我们是按照下面的逻辑进行思考的。如果你背叛,对方合作,那么你得到的收益就会很高。你非常开心,于是就重复了之前的行为,在下一轮中再次背叛。但是,如果你合作,对方背叛,那么你就被对方利用了。你很郁闷,于是转换到另一种行为方式上。你以前曾经合作过,但现在你决定要背叛。我们之前的实验显示,“以牙还牙”是合作演进的催化剂,而现在我们看到,“赢定输移”才是最终的发展结果。
这是否意味着我们已经彻底解决了囚徒困境这一难题呢?当然不是,我们还相距甚远。卡尔和我在1994年意识到,这一最为微妙的简单博弈中,还存在着我们不曾留意的另一面。所有的研究成果都建立在一个想当然的假设之上:当两位玩家在决定合作或是背叛的时候,他们会同时采取行动。我的意思是说,传统意义上的囚徒困境与孩子们常玩的“石头剪子布”有些相似——两位玩家会精准地在同一时刻作出选择。
卡尔和我认为,这样的限制多少有些牵强。我们可以思考一些例子,譬如吸血蝙蝠为饥饿的同伴贡献出富余的血液、黑猩猩互相梳理毛发等,在这些情况下,合作并不是同时发生的,伙伴之间要轮换着采取行动。于是,我们决定要实践一场囚徒困境的变体,我们称之为“交替型囚徒困境”,来看看这样的改变是否会产生影响,并导致不一样的效果。
我们所进行的交替型博弈,进一步确认了我们之前判断的正确性:进化的过程的确有朝向合作发展的趋势。我们也观察到了曾经出现在同步博弈中的合作主导型与背叛主导型社会的兴衰轮回。与过去一样,合作再次兴起,但一个重要的变化出现了。我们惊奇地发现,曾经在同步博弈中击败所有对手的“赢定输移”策略,如今却从胜者的宝座上退了下来。接替它掌握统治大权的,是“宽宏以牙还牙”策略。
朱·弗登伯格在多年之后向我指出,可以将交替型博弈与同步博弈当成是现实生活中有着不同限制的两种情形。如今,他也成为了我在哈佛的同事。在交替型博弈中,你先走,我后走。我在作出下一步决定之前,可以得到关于你的行动的所有相关信息,反之亦然。但是,在同步博弈中,双方谁也不知道在这一轮中对方会采取什么样的行动。而在我们的日常生活中,现实情况通常介于上述两者之间——我们总能得到一些关于对方意图的信息(他是否愿意采取配合态度等),但这样的信息并不一定是完整可靠的。
人们是如何应用这些策略的呢?曼弗雷德·米林斯基对此进行了研究。在瑞士波恩进行的一项针对大一生物学专业学生的实验中,合作行为主宰了同步和交替型囚徒困境。他发现,玩家坚持一种策略的倾向与博弈时间长短无关,总会有大约30%的玩家采用类似“宽宏以牙还牙”的策略,70%的玩家采用“赢定输移”。正如我们在模拟博弈中所看到的一样,后一种策略在同步博弈中更为成功,而类似“宽宏以牙还牙”策略的玩家则在交替型博弈中获得了更高的分数。在人类合作的生态世界里,两种策略都占有一定比重。
背叛与合作的轮回
直到今天,重复囚徒困境依然吸引着众多科研工作者的好奇心。我们已经了解到,直接互惠是解决困境并促进合作的一种机制。整个过程中,两位玩家之间会产生重复接触,玩家可以是人,也可以是机构、公司或国家。一开始,“以牙还牙”策略似乎很容易获胜,在多数情况下还会导致玩家的获胜机会均等。但为了模仿失误带来的影响而加入一些随机性之后,我们发现,“以牙还牙”似乎太过严厉,有欠宽容,会引发血腥的复仇行为。
我们需要拥有一点点宽容的态度,才能和平相处。在“赢定输移”和“宽宏以牙还牙”策略中,我们找到了需要的东西,后者总能让我想起鲍勃·梅曾经给我的忠告:“你永远不会因为太过宽容而输掉游戏。”这样的观点令我感触颇深,因为他对输赢问题的思考和理解程度,比我认识的所有人都要更加深刻。而同时,争当第一对他来说又非常重要。他的妻子有一次曾开玩笑说,“他在家里和宠物狗玩耍的时候,也要赢过它才肯作罢。”
让我们来对比一下“以牙还牙”和“赢定输移”这两个成功策略。在上一轮博弈中,如果双方都采取合作态度,那么下一步也会继续合作。如此看来,两种策略都不会主动蓄意地背叛。只有出现错误、误解或心情不好的时候,才会引发第一次背叛。当这种情况出现时,如果对方也选择了背叛,那么我就被占了便宜,之后,两种策略都指导我要在下一步行动中选择背叛;另一方面,如果我选择背叛,而对方采取合作,那么我就会在“以牙还牙”策略的指导下转移到合作上来,或者在“赢定输移”策略的指导下继续背叛。
我们可以这样解释“以牙还牙”的思想过程:我现在有些后悔,希望能补偿上一轮作出的背叛行为。而“赢定输移”的思想过程则更加“人性化”:如果我在这一轮占到了他人的便宜,那么就会在接下来的几轮中继续这样做。这两种策略还存在另一点不同之处。如果两位玩家都背叛,那么“以牙还牙”只会背叛,而且不会尝试重新建立友好的关系;而“赢定输移”则会采取合作态度,并尝试恢复到更好的关系上来。
两种选择各有道理,但如果我们希望在所处关系中重新达成合作,那么“赢定输移”相比之下就显得更加现实可行。总体来看,“赢定输移”更能适应错误的发生,因为这一策略会主动寻找更好的结果,在双方均采取背叛行为之后,还能试图恢复合作的模式,虽然也会盘剥无条件合作者。相反,“以牙还牙”则不会盘剥无条件合作者,但在对方背叛之后,也不会试图恢复合作关系。
如果我们站在更高的角度,纵览囚徒困境多年以来的研究发展过程,就会发现,其中一项关键进展就是对概率性策略影响的研究。在这样的策略指导下,玩家会以某一种方式、在某一个时间采取行动,但不会在每种情况下都保持同样的反应。其中我们还加入了另一种真实元素,通过观察玩家相互交替采取行动的程度和理解对方行为的程度,我们可以认识到,现实生活中的情形介于同步型和交替型博弈两者之间。
这些更加真实的博弈也会产生轮回,其中的策略会从“永远背叛”发展到“以牙还牙”,再到“宽宏以牙还牙”,最后到无条件合作,然后又不可避免地回到最初的状态,经历背叛行为的死灰复燃。虽然“赢定输移”可以增加一个轮回中的合作时长,但我们发现,这样的策略最终也会土崩瓦解,为背叛者的复苏留出空间。
我们在竞赛中观察到的轮回,与强调稳定均衡关系的传统博弈论理论存在着很大的差别。用不着深入研究细节内容,我们就可以从古典进化与经济博弈论所使用的语言中略知一二,例如其中经常提到的理论就包括进化稳定策略和纳什均衡等。
我们已经从传统的“进化静力学”进入到“进化动力学”多姿多彩的世界。在过去,人们认为生命会逐步进化到一种稳定不变的状态;而如今,这样的想法则被一种更富动态的理论所颠覆。没有一种策略是真正稳定的,也没有一种策略能获得永生。一切周而复始,循环往复。幸运女神不会永远向一个人招手,合作的天堂终究会被充满背叛的地狱所取代。合作的成功不仅取决于合作行为能维持多久,还要看多长时间才能出现合作的再次繁荣。原来,合作与生命的进化,竟经历着如此美轮美奂而跌宕起伏的发展过程。
还有太多的未知等待我们去探索。迄今为止,我们仅研究了博弈中的一小部分,还有着许多尚待研究的变体。博弈论那巨大的蛮荒秘境在眼前一望无垠。虽然关于重复囚徒困境的研究文献有成千上万,但直接互惠模型和象棋一样,依然存在着各种各样的数学可能性,这跟井字游戏(tic-tac-toe)中封闭式的有限策略大不相同。关于如何解开困境这个谜题,我们的分析永远也不会完结。这一困境没有边界。