3.1 Rubinstein讨价还价模型_合作博弈引论-武侠网

书名：合作博弈引论
作者名：施锡铨
本章字数：4689字
更新时间：2025-04-13 16:02:39

3.1 Rubinstein讨价还价模型

在一般情况下，人们遇到的两人讨价还价问题是：两个局中人通过交替报价（即每个人交替地提出自己的分配方案），从而达到分配两人因为合作所得到盈利的目的。这件事相当于两个人分一块蛋糕，在时刻1,3,5, …（奇数时刻）由局中人1提出一个分配方案（x,1-x）（这里0≤x≤1，可看做一块蛋糕的某个比例），对于这个方案，局中人2可以接受也可以拒绝。如果局中人2接受，则博弈结束。如果局中人2拒绝，那么他在时刻2, 4,6, …（偶数时刻）可以提出自己的一个分配方案。对于局中人2所提出的分配方案，局中人1也有接受或者拒绝两种选择，接受的话，博弈到此结束。否则，局中人1再次提出自己的方案（可以坚持原先的主张，也可以提出一个新的方案），这样继续下去，形成了双方交替地报价直到博弈结束为止。斯塔尔（Sta˚hl）在1972年研究了有限轮次的讨价还价，由于轮次是有限的，我们可以通过后退归纳法求得博弈的子博弈完美均衡，相应的盈利分配可以作为讨价还价解。众所周知，这个解与讨价还价轮次的次数以及最后一个轮次由谁报价有关。然而，在实际生活中，很少出现有人或者有某种规则指定在哪个时刻必须停止讨价还价，绝大多数的情况是，我们无法断定博弈在什么时刻结束，或者可以说，结束的“时刻”是随机的，因此在预测讨价还价的结果或者在求博弈的解时，不存在一个可以实施后退归纳的出发点，我们称这样的讨价还价过程为“无限水平”的。将博弈从有限水平推广到无限水平的工作由鲁宾斯坦（Rubinstein）于1982年进行。在鲁宾斯坦的模型中，由于讨价还价可以是无限次地进行的，所以会涉及“时间延迟成本”问题，通常人们用贴现因子来解决，就是说，下一时刻得到的整块蛋糕只相当于这个时刻的一块蛋糕的δ（0＜δ＜1）份额。现在，不妨假设局中人1与2的贴现因子分别为δ1与δ2，这两个因子当然满足条件0＜δ1＜1和0＜δ2＜1。

这个博弈有许多个纳什均衡，最特殊的一个是如下的策略剖面：“局中人1总是要求得到整块蛋糕（x=1），而拒绝任何其他的分配方案；局中人2总是提议（1,0），即让对方获得整块蛋糕，然而，对于任何（x,1-x）,（0＜x＜1）的方案，他当然都会欣然接受。”之所以说这个策略剖面是纳什均衡，是因为在任何一个局中人的策略给定的情况下，另外一个局中人如果偏离这个策略剖面不会给自己带来额外的好处。但是，这个策略剖面显然不是子博弈完美均衡。设想如果局中人2拒绝局中人1第一次提出的得到整块蛋糕的要求，在他提出的反建议中给予局中人1的份额为1＞x＞δ1，相信局中人1会接受这个建议，因为局中人1一旦拒绝这个建议，即使他在下一次得到了整块蛋糕，那么也只相当于这一次的δ1份额，还不如在这一次就接受局中人2提出的x（＞δ1）来得好。根据一步偏离准则该准则的正确证明请见本书作者于2000年编著的《博弈论》（由上海财经大学出版社出版），因为我们已经发现国外学者关于这个准则的证明，在逻辑上存在一些问题，我们用“拓广”的数学归纳法解决了这个证明。，这个策略剖面一定不是子博弈完美均衡。为了得到无限水平的讨价还价问题的理想的解，我们试图寻求它的子博弈完美均衡。

容易验证，无限水平的讨价还价博弈至少存在一个子博弈完美均衡，其策略剖面的描述如下：“任何一个局中人i，在轮到自己报价时，总是提出自己得到的份额为，提供给另外一个局中人j的份额为；而局中人i总是接受任何大于或等于的份额，但拒绝比这更小的份额。”为了说明这个策略剖面是子博弈完美均衡，还得利用“一步偏离准则”，即，需要说明任何一个局中人在任何一步不会发生偏离，偏离只会给他自己带来不利。首先证明轮到报价的局中人不会偏离这个策略剖面，因为倘若轮到局中人i报价，他留给自己的份额肯定不愿意低于，否则对方肯定接受，这下局中人i可要吃大亏，因为明明可以为自己多留一些，却因为自己的“高风格”而遭到损失；同时，局中人i也不会为自己提出更高的份额，因为按照剖面中的策略，对方肯定拒绝这个过分的要求，而对方在接下来的时刻提出的分给局中人i的份额（并考虑到下一时刻的贴现因子）为

显然这个份额对局中人i更为不利。另一方面，考虑“由对方报价而由局中人i决定是否接受”的时刻，“接受任何大于或等于的份额，拒绝比这更小的份额”是局中人i的最优决策，因为此时如果局中人i拒绝的话，在下一时刻他自己成为报价人，按照策略剖面的规定，届时他将得到，把贴现因子计算在内，就是。因此，在这一时刻分给他的份额，只要不小于，他当然会接受。

这个子博弈完美均衡实际上提出了，如果没有理由规定讨价还价的过程必须在某个时刻停止，那么在第一时刻报价的局中人i应该提出“蛋糕”的如下分配方案：

（其中第一个份额是分配给提出报价的局中人i的）。这个方案被另一个局中人j接受，讨价还价过程结束，式（3.2）就是讨价还价解。

问题在于，在无限水平的讨价还价问题中，是否只有这一个子博弈完美均衡呢？如果还有其他的子博弈完美均衡，那么就会出现其他的讨价还价解，讨价还价解个数的过多将使问题复杂化。回答这个问题的答案是令人满意的，只要讨价还价问题是无限水平的，并且存在考虑贴现因子为延迟成本，那么子博弈完美均衡是唯一的。

我们现在证明子博弈完美均衡的唯一性。

不难明白，只要局中人总是拒绝对方的报价，博弈在理论上就是“无限水平”的，因此博弈存在着无穷多个子博弈。原博弈就是其中最特殊的子博弈，不妨记它为G1。根据我们的假设，G1是由局中人1报价作为开始的子博弈。局中人1报价的时刻是1,3,5, …，从相应的这些时刻开始的子博弈分别记为G1, G3, G5, …。显然这些子博弈有着完全相同的结构，也就是说，除了贴现因子之外，它们完全是一模一样的，因而它们有相同的子博弈完美均衡。（它的存在性是不成问题的，因为我们在前面至少已经给出了一个！）类似地，G2, G4, …是一系列由局中人2报价开始的子博弈，它们也有着完全相同的结构，因此也有相同的子博弈完美均衡。令Q1表示局中人1在G1（类型）的所有子博弈完美均衡中所能得到的“后续效益”的上确界，q1表示局中人1在G1（类型）的所有子博弈完美均衡中所能得到的“后续效益”的下确界，注意，由于两人讨价还价问题（F, v）中的可行配置集F是有界而且是闭凸的，因此上确界和下确界能在F内达到。为了叙述的方便起见，我们干脆称它们为最大值和最小值。再令Q2和q2分别表示局中人2在G2（类型）的所有子博弈完美均衡中所能得到的“后续效益”的最大值和最小值。

要证明上述子博弈完美均衡是唯一的，无非是需要证明。

考虑在G1中局中人1的报价x，局中人2接受这个报价，是当他觉得接受这个报价之后自己所得的1-x不会少于在下一时刻自己可能的最高收益的δ2倍（因为要考虑到相差一个时刻的贴现因子），即δ2Q2。这样，为了保证局中人2接受自己的报价，局中人1留给自己的份额（最多）为1-δ2Q2，这个量不管有多大，它总是不会小于子博弈完美均衡中局中人1的“后续效益”的最小值q1，因此我们有

（注意，在博弈论的研究中，等号意味着局中人的态度是“无所谓”或者他觉得两者之间“无差别”。）对称地，如果考虑G2，我们有

再考虑在G1中的局中人2在什么情况肯定会拒绝局中人1的报价x，这应当发生在“局中人2得到的1-x少于他在下一时刻的最小收益的δ2倍”的时候。此时1-x≤δ2q2。所以要使局中人2愿意接受，至少应该有x≤1-δ2q2。由假设，局中人1在G1中的最高收益为Q1，因此局中人1的报价x至多应该为Q1。这样，Q1也应当满足上述x所需要的条件：

最后，Q1还必须符合一个最基本的逻辑：如果局中人2拒绝了他的报价，在下一时刻局中人2的报价使局中人1能得到的最大可能收益δ1（1-q2）必须不应该超过Q1。如果δ1（1-q2）超过Q1，那么局中人2宁可接受局中人1最大的报价x=Q1。因此，Q1实际上应该满足如下限制：

但是，局中人2既然拒绝局中人1在第一时刻的报价，表明他不同意局中人1能得到Q1，于是局中人2在第二时刻不会分给局中人1超过Q1的量，这意味着，δ1（1-q2）≤δ1Q1，于是，如果式（3.6）成立，必定有Q1≤δ1（1-q2）≤δ1Q1，由于0＜δ1＜1，故Q1≤0，这显然是不可能的。所以式（3.6）应该回到式（3.5）。即，Q1≤1-δ2q2。对称地，我们也有

结合式（3.3）和式（3.7），得到

式（3.8）可改写为

再结合式（3.5）和式（3.4），得到

式（3.10）可改写为

Q1≥q1是显然的，结合式（3.9）和式（3.11），立即可得。同理可得

同样的逻辑推理可以得到，在G1（类型）的所有子博弈完美均衡中局中人2得到的唯一的“后续效益”为；在G2（类型）的所有子博弈完美均衡中局中人1得到的唯一的“后续效益”为。

以上证明说明了子博弈完美均衡的“后续效益”是唯一的，因此在子博弈完美均衡的策略剖面中，只要首先行动的局中人1（或者2）报价，他必须提出（或者x=，而完美均衡则要求另外一个局中人2（或者1）接受。

我们不妨用定理的形式来总结一下鲁宾斯坦的上述结果：

定理3.1假定两个局中人1与2，关于一块“蛋糕”（盈余）的分配通过轮流报价的办法进行讨价还价。报价次数没有任何限制，两个局中人的延迟成本分别体现在贴现因子0＜δ1＜1与0＜δ2＜1上。当局中人关于接受或者拒绝某个报价表现出无所谓态度时，则认为该局中人会接受此报价。这个博弈有唯一的子博弈完美均衡：如果局中人1首先报价，他立即提出把盈余的部分分给局中人2，而自己得到盈余的部分，局中人2接受这个分配方案。如果局中人2首先报价，那么他在报价的第一时刻，提出给予局中人1有关盈余的部分，留给自己，局中人1接受这个分配方案。

对于无限水平的讨价还价（分蛋糕）博弈，根据它的子博弈完美均衡的策略剖面，如果固定δ2不变，令δ1→1，易见，局中人1几乎获得整块蛋糕；反过来，若δ1不变，令δ2→1，那么局中人2几乎获得整块蛋糕。这说明，讨价还价的双方，谁更有耐心，谁就会笑到最后。如果局中人2极无耐心到一刻都不能等待，那就是δ2=0，那么首先报价的局中人1提出，得到整块蛋糕。但是，如果首先报价的局中人1极无耐心，即δ1=0，局中人2仍然不能得到整块蛋糕而只能得到δ2块蛋糕，极无耐心的局中人1还是可以得到一个大于0的量，这主要得益于他“具有先动优势”。具有先动优势的局中人1沾光的地方不仅仅体现在他极无耐心的时候，即使他与局中人2具有同样大小程度的耐心：δ1=δ2=δ，按照子博弈完美均衡的策略剖面，局中人1提出的，充分体现了他的得益优势。如果令δ→1，就有。我们惊奇地发现，这个结果趋向于分蛋糕的讨价还价问题中的纳什讨价还价解。

在无限水平的讨价还价模型中，唯一的子博弈完美均衡中两个局中人的所得，看来依赖于两个因素：

①贴现因子δ1和δ2；

②哪个局中人先报价。

通常的情况下，一个有耐心的局中人可能获得比较优厚的回报。这两个因素之间存在一定的关联，譬如，如果取δ1=0.70, δ2=0.75，看来局中人2比局中人1更有耐心，按照子博弈完美均衡的策略剖面，计算表明，先报价的局中人1预期得到蛋糕的53%，比局中人2略多一些，其原因在于局中人1享有先动优势。先动优势是否一定优于耐心对结果的影响？这倒也未必。如果我们所取的每个时刻之间的间隔可以任意地短，先动优势将可能随之消失。不用数学也可以理解这一点，因为任意短的间隔的“极限状态”就是没有间隔，没有间隔就意味着没有人先动，也就没有什么先动优势。不过，我们还是从数学的角度给予比较严格的证明：

不妨设间隔长度为Δ，设δ1=exp（-r1Δ）与δ2=exp（-r2Δ）。设想Δ非常接近于0，于是可以将δ1和δ2近似地表示为δ1≈1-r1Δ和δ2≈1-r2Δ。当Δ→0时，我们有

显然，局中人的相对耐心程度决定了他们的蛋糕分享。如果两个人有相同的耐心程度，即δ1=δ2，从而r1=r2，那么讨价还价的结果是他们平分蛋糕。这种场合就好比两个局中人的地位相同：意见不一致点为（0,0），耐心程度一样，又Δ→0意味着两人没有先后顺序。于是，形成了一个完全信息的静态的纳什讨价还价模型，所以，讨价还价的结果就是纳什讨价还价解。