第2章 纳什(两人)讨价还价解
2.1 从囚徒困境说起
我们先研究一个典型的非合作博弈,那就是著名的“囚徒困境”问题。
在一个案件中,两个嫌疑犯被警方抓获,按照惯例他们被关在不同的房子里接受审讯,检察官向他们分别交代了有关政策。在互不知晓对方任何动作的情况下,他们各自有两个策略可供选择:与同伙合作(对于警方来说,这意味着“抗拒”)或者背叛对方(从警方的角度,这就是“坦白”)。如果双方都取策略“合作”而拒绝坦白,那么由于证据不足,他们将在一个月的拘留期满之后获得释放;倘若双方都背叛对方,采用坦白全部作案事实的策略,那么按照法律,案情将使他们各自被关8个月;如果两人中有一人抗拒,另一人坦白,那么“坦白从宽,抗拒从严”,坦白的人立即释放回家,抗拒者将在牢狱中苦度15个月。在大家所熟悉的博弈理论中,对这样的完全信息静态博弈常常通过一个效用(或者盈利)矩阵来描述。下列矩阵的每个格子中有两个数字,左边的表示局中人1的效用,右边的另一个数则代表局中人2的效用。(非合作)博弈理论的基本假设是,局中人都是理性的,理性的局中人所采取的行动应该使得自己的效用(或者盈利)达到最大化。根据这个假设,在囚徒困境中,由于“背叛”是每个局中人的占优策略,因此博弈的纳什均衡解为(背叛,背叛),其结局是双方各自被关8个月。这正是纳什均衡最令人吃惊的地方,因为对于每个局中人来说,(背叛,背叛)引起的结局并不是他最偏好的。从局中人的偏好顺序来看,(背叛,背叛)在四个可能的结局中只列第三位;而从双方的共同利益来看,(背叛,背叛)比起(合作,合作),其效用差得更远。(见图2.1)
图2.1 囚徒困境的效用矩阵
众所周知,纳什均衡科学合理地预测了(非合作)博弈的结局,但是作为纳什均衡的(背叛,背叛),远不是双方非常满意的结果。事实上,在不少时候,纳什均衡可能使博弈的双方处于一个十分尴尬的场面。因此,尽管纳什均衡是一个比较合理的预测,但是它并非如某些人所误解地那样做到“双赢”,之所以无法保证达到“双赢”,是因为在博弈中,理性的局中人为了使自己的效用极大化而采取了“不合作”的策略和行动。他们之间玩的是一场非合作的游戏。
囚徒困境中,最接近“双赢”的无疑是(合作,合作)。在非合作博弈的理论中,只要不是无限次地重复囚徒困境,相互合作的结局几乎是不现实的,因为(背叛,背叛)是唯一的纳什均衡解。但是,(-8, -8)比起(-1, -1)来,实在使博弈的双方都觉得难以接受(-8, -8),真正理性的局中人也许会产生一种强烈的愿望,“咱们为什么要互相背叛呢?为什么两个人不走互相合作的路呢?毕竟互相合作要比互相背叛对双方都要好得多!”这样的理性既“利己”又“利人”,比起非合作博弈中纯粹只考虑自己的理性来,似乎更理性一些。然而这样的“理性”要冒被对手背叛的风险。既要达到合作的良好愿望,又想避免被背叛的风险,最好的办法是事前通过某些通信手段来引导结局,或者签订协议(简单地说,就是订立攻守同盟),双方互相承诺共同采取“抗拒”策略。当然,这些承诺和协议都带有一定的约束力。通过上述手段,原先非合作的囚徒困境很自然地转变为合作博弈。
我们称这样的通信、签订协议和互相之间的承诺,相当于对非合作的囚徒困境进行了一次“合作变换”。通过此类合作变换,可以把一个策略型(或展开型)博弈转化为策略型(或展开型)的合作博弈。在合作博弈中,局中人除了在原先博弈中的行动选择之外,还增加了如何去合作以及为实施这些合作行动进行“讨价还价”(对于承诺的约束)的各种选择。
在第1章里,我们曾经谈到过,纳什认为,合作行动实际上就是“合作的”局中人之间某种讨价还价过程的结果,并且在这个讨价还价过程中,可以预期每个局中人都应该按照某个讨价还价策略采取行动,以使个人效用达到最大化。从这个观点出发,纳什在事实上指出了,研究局中人之间的合作问题,可以利用纳什均衡这个(非合作)博弈论中最基本的概念。按照纳什提出的理论,合作变换后得到的博弈,其纳什均衡就是该合作博弈的一个合作解,也就是所谓的纳什方案(Nash's program)。
例2.1 美苏在军备竞争问题上的“囚徒困境”
一些国家之间的军备竞争问题可以建模为“囚徒困境”,尤其是前苏联与美国在20世纪50年代卷入的核军备竞争。有人说,兰德公司接受了美国政府的委托对美苏之间的核扩展竞争进行了研究,在兰德公司提出的研究报告的第一部分就构建了“囚徒困境”模型,也有人认为没有迹象表明美国政府的核策略受到了当时博弈理论研究的影响。不管怎么说,囚徒困境的确反映了当时美苏两国在核军备方面的“窘境”。这个问题的效用矩阵如图2.2所示:
图2.2 美苏之间核军备竞赛的“囚徒困境”
矩阵中的数字是假设的,如果双方都选择扩充核军备,那么各自为此多付出3000亿美元,倘若采取裁减核军备的策略,则可省下这笔钱。但是如果有一方裁减核军备而另一方扩充核军备,很可能的结果是,扩充一方轻而易举地打败对方,从而有可观的收益(假定为10000亿美元),而失败的一方承受无限的损失。博弈的纳什均衡是双方都扩充核军备。这反映了20世纪50年代之后的一段时期内军备竞赛越演越烈的场面。
双方裁军对大家都有好处,这表示“合作”使双方有着更大的期待利益,两国政府肯定能意识到这一点,只是单方面裁军可能会招致严重的后果,要说服对手一起裁军(即双方合作)就需要进行谈判。合作的利益和愿望促使了谈判的展开,然而为了达成一个双方都能接受的方案,必然在两国之间进行着长时期的讨价还价,这是在20世纪60年代以后发生的众所周知的事实,也是合作博弈的一个经典案例。双方达成的协议主要规定了什么时候各自裁减多少军备,同时制定了互相监督的机制等条例,因此这是一个具有约束力的合作协议。
例2.2 分蛋糕
两人分享一块蛋糕,每个人提出自己希望得到的份额,譬如,甲提出要求p,乙提出要求q,其中p和q均为[0,1]上的任意一个数。如果p+q=1,说明双方默契地达成合作,那么就按照他们各自的意愿分割蛋糕,否则大家一无所有。人人都希望合作成功,所以需要通过谈判来解决分配问题,但是人人又都是理性人,希望自己的份额越多越好,从而在讨价还价过程中出现非合作的现象。讨价还价的谈判是为了“合作”这个目的,达成的协议就必须有所约束,否则会“鸡飞蛋打”。
例2.3 两家保险公司之间的风险互换
保险公司1拥有一笔均值为5(单位从略)和方差为4的保险金业务,保险公司2的保险业务量其均值为10,方差为8。两家公司决定一起探索并缔结一项风险互换协议的可能性。这里,仅考虑线性风险互换,即公司1从自己接受的保险业务中拿出一部分给公司2经营,同样,公司2也从自己接受的保险业务中拿出一部分给公司1。记x1与x2分别为公司1和公司2在互换之前的业务量,y1和y2是互换之后的保险业务量。所谓线性风险互换是指实施如下交换公式:
y1=(1-α)x1+βx2+K
y2=αx1+(1-β)x2-K
其中0≤α, β≤1,K是一个固定的(可能为正也可能为负)货币量。对于给定的α和β,只要适当地选择K,就可以保证两家公司互换前后的期望收益不变,在本例中,取K=5α-10β,容易计算得到E(y1)=E(x1)=5和E(y2)=E(x2)=10。业务的交换必须满足这一点,因为在正常的情况下,它不应该影响每家公司原来的期望收益。而在“不正常”的情况,也就是说很有可能发生风险的情况,互换带来了降低风险的好处。这是因为两笔保险同时失败的可能性小于单笔保险失败的可能性。所以,这样的业务交换是在保证期望收益不变的前提下有效地降低了保险本身存在的风险。在本例中,我们用方差来评估公司的风险与状况(其实,在许多情况中,也常常用方差来评估风险)。假如我们取α=0.2,β=0.3,那么就有Var(y1)=3.28<4和Var(y2)=4.08<8。即如果取这样的α和β,两家保险公司的风险与状况都会得到明显的改善。随着α,β发生变化,它们状况的改善会随之发生变化。显然,每家公司都有合作的愿望,既保证期望收益又降低风险,何乐而不为?但是,在合作的过程中,各个公司又都希望能选择对自己最有利的α和β,于是就要探索α与β的“最优解”——使得双方都能接受或者觉得满意的(α,β)配置,并就这个问题进行讨价还价。