博弈论——完全信息动态博弈.docx

上传人:小飞机 文档编号:5077400 上传时间:2023-06-02 格式:DOCX 页数:32 大小:588.01KB
返回 下载 相关 举报
博弈论——完全信息动态博弈.docx_第1页
第1页 / 共32页
博弈论——完全信息动态博弈.docx_第2页
第2页 / 共32页
博弈论——完全信息动态博弈.docx_第3页
第3页 / 共32页
博弈论——完全信息动态博弈.docx_第4页
第4页 / 共32页
博弈论——完全信息动态博弈.docx_第5页
第5页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《博弈论——完全信息动态博弈.docx》由会员分享,可在线阅读,更多相关《博弈论——完全信息动态博弈.docx(32页珍藏版)》请在三一办公上搜索。

1、2完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与人在不同的时间选择行动。完全信息动态博弈指的是各博弈方先后行动,后行动者知道 先行动者的具体行动是什么且各博弈方对博弈中各种策略组合 下所有参与人相应的得益都完全了解的博弈静态博弈习惯用战略式(Strategic form representation)表述, 动态博弈习惯用扩展式(Extensive form representation)表述。战略式表述的三要素:参与人集合、每个参与人的战略集合、由 战略组合决定的每个参与人的支付。扩展式表述的要素包括:参 与人集合、参与人的行动顺序、参与人的行动空

2、间、参与人的信 息集、参与人的支付函数、外生事件(自然的选择)的概率分布。n人有限战略博弈的扩展式表述用博弈树来表示结:包括决策结和终点结。决策结是参与人采取行动的 时点,终点结是博弈行动路径的终点。第一个行动选择对应的 决策结为“初始结”,用空心圆表示,其它决策结用实心圆表示。 X表示结的集合,x X表示某个特定的结。7表示终点结,Z表 示终点结集合。表示结之间的顺序关系,x-;x表示x在x 之前。x之前所有结的集合称为x的前列集,x之后所有结的集 合称为x的后续集。以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是 全排序的。在以上两个假设之下,每个终点结都完全决定了博

3、 弈树的某个路径。 枝:博弈树上,枝是从一个决策结到其直接后续结的连 线,每一个枝代表参与人的一个行动选择。在每一个枝旁标注 该具体行动的代号。一般地,每个决策结下有多个枝,给出每 次行动时参与人的行动空间,即此时有哪些行动可供选择。 信息集(information sets):博弈树中某一决策者在某一 行动阶段具有相同信息的所有决策结集合称为一个信息集。博 弈树上的所有决策结分割成不同的信息集。每一个信息集是决 策结集合的一个子集(信息集是由决策结构成的集合),该子集包 括所有满足下列条件的决策结:(1)每一个决策结都是同一个参 与人的决策结。(2)该参与人知道博弈进入该集合的某个决策结,

4、但不知道自己究竟处于哪一个决策结。弓|入信息集的目的是为 了描述当一个参与人要作出决策时他可能不知道“之前”发生 的所有事情。(之前加引号是因为,博弈树中的决策结的排序并 不一定与行动的时间顺序相一致)H表示信息集集合,h表示一个特定的信息集。h (x)表 示包含决策结x的信息集。h (x)是一个信息集,意味着在x 决策的参与人不确定他处在x结点还是其它x h(x)结点。 这同时意味着一个决策结只能属于一个信息集。信息集满足的条件:1、任何一个决策结不能是属于同一信 息集的其它决策结的前列结或后续结。2、同一信息集的所有结 都是同一参与人的决策结,即参与人不会将自己行动的结与他 人行动的结混淆

5、。3、一个参与人在属于同一信息集的每一个决 策结的行动空间应该是相同的。一个静态博弈的扩展式表述一个信息集可能包含多个决策结,也可能只包含一个决策结。只包含一个决策结的信息集称为单结信息集;如果博弈树的所有信息集 都是单结的(如果有虚拟参与人自然,则所有的参与人都知道自然的行动),该博弈称为完美信息博弈(Game of perfect information);否 则就是不完美信息博弈。完美信息(perfect information):在博弈的每次行动的参与人完全 知道博弈的历史,即每个信息集只有一个决策结。完美信息博弈意味 着博弈中没有任何两个参与人同时行动,而且所有后行动者都能确切 知道

6、先行动者选择的行动,所有参与人都知道自然的行动。完全信息(complete information):参与人完全了解对手特征, 既没有事前的不确定性。不完全信息意味着不完美信息,但逆定理不成立。在博弈论中,自然的信息集一般假定为单结的。因为自然是随机 行动的,自然在参与人决策之后行动等价于自然在参与人决策之前行 动但参与人不能观测到自然的行动。因此,博弈树上是否出现连接不 同决策结的虚线取决于我们如何安排决策结的顺序。决策结的顺序:如果知道前决策者的选择,后决策者必须出现在后 面,如果不知道前决策者的选择,后决策者可以出现在后面,也可以 出现在前面。相同的博弈可以不同的博弈树表示,但同一个参与

7、人在代表同一博弈一般假定满足完美回忆的要求,完美回忆是指没有参与人会忘记 自己以前知道的事情,所有参与人都知道自己以前的选择。确保博弈具有完美回忆的要求:如果n和xi属于同一信息集;尤是xi的前列结;x和xi都是同一个参与人的决策结;那么,存在 一个x(可能是X本身)满足:X和X属于同一信息集;T 是X2的前列结;从X至U达X1的行动和Xr到达X2的行动是一样的。 即必须满足“同一行动”和“同一信息集”假设。当博弈涉及到外生不确定性事件时,我们假定“自然”以某种概率选 择某个特定事件,所有参与人对于自然的选择具有相同的先验概率。 即所谓的“海萨尼公理”。A进入尸、不进入B、B默许/斗争默许/斗

8、争(40,50)(-10,0)(0,300) (0,300)默讦、默讦斗争、斗争默讦、斗争斗争、默讦进入40,50-10, 40,50-10, 0不进入0,3000,3000,3000,300在位者进入者纳什均衡:(进入、(默许、默许) (不进入、(斗争、斗争)(进入、(默许、斗争) (不进入、(斗争、默许)均衡结果有三个(进入,默许)、(不进入,斗争)、(不进入、默许) 定理:一个有限完美信息博弈有一个纯战略纳什均衡(zermelo,1913; kuhn,1953)。策略的可置信性问题:策略是博弈方自己预先设定的,在各个博弈阶 段针对各种情况所作的相应行为选择的计划,本身没有强制力,且实 施

9、起来有一个过程。在该过程中,根据自己的利益需要,他完全可以 改变这个计划,从而存在“相机选择”,产生策略的可置信性问题。2.1. A子博弈精炼纳什均衡、逆向归纳法“子博弈精炼纳什均衡 (subgame perfect Nash equilibrium, selten, 1965),用于区分动态博弈中的“合理纳什均衡”与“不合理 纳什均衡”,将纳什均衡中包含有不可置信威胁策略的均衡剔除出去, 就是说,使最后的均衡中不再包含有不可置信威胁策略的存在。子博弈:一个扩展式表示博弈的子博弈g是由一个单结信息集x 开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博 弈的原博弈的一部分。要求:6是

10、一个单结信息集;子博弈的信 息集和支付向量都直接继承自原博弈;子博弈不能切割原博弈的信 息集。任何博弈本身称为其自身的子博弈。扩展式博弈的战略组合s*=($*,.,$*”.,$*)是一个子博弈精 炼纳什均衡,如果:(1)它是原博弈的纳什均衡;(2)它在每一个子 博弈上给出纳什均衡。简单的讲,一个战略组合是子博弈精炼纳什均 衡,当且仅当他在每一个子博弈(包括原博弈)上都构成一个纳什均 衡。如果整个博弈是唯一的子博弈,那么纳什均衡与子博弈精炼纳什 均衡相同,如果有其它子博弈,则有些纳什均衡可能不构成子博弈精 炼纳什均衡。开发秫商A开发科发-3,-3-3,-3 =-=0,0 ,。瞬瓶睥,不开发E;腆

11、开发啊切也Jw(开发,不开发,开发)是唯一一个子博弈精炼纳什均衡 均衡路径(equilibrium path):纳什均衡所在的路径。其它的路径都 是该纳什均衡的非均衡路径(off-equilibrium path)。构成子博弈精炼纳什均衡的战略不仅在均衡路径上是最优的,而且在 非均衡路径上也是最优的。这是纳什均衡与子博弈精炼纳什均衡的实 质区别。只有当一个战略规定的行动规则在所有可能的情况下都是最优的时, 它才是一个合理的、可置信的战略。序贯理性(sequential rationality):不论过去发生了什么,参与人应 该在博弈的每一个时点上最优化自己的决策。子博弈精炼纳什均衡求法一一逆向

12、归纳法求解对于我们现在所讨论的有限完美信息动态博弈,逆向归纳法是求解子 博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时,从 最后一个子博弈开始逆推上去,这就是逆向归纳法。所以逆向归纳法 就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒 推以求解动态博弈均衡的方法。逆向归纳法是重复剔出劣战略方法在 扩展式博弈中的应用。逆向归纳法不适合于无限博弈和不完美信息博弈。简单的完全和完美信息博弈:1. 参与人1选择行动a12. 参与人2观察“,然后选择a23. 收益是 u1(a 1, a2)和 u2(a1, a2)求解博弈:逆向归纳法(backward induction)1. 求解

13、第二个阶段,对于,求a2max U2(a1,a2)弓以?其解:a2= 2(a1) -反应函数2. 求解第一个阶段max %(a1,R2(a1)气人1其解:a*1逆向归纳解(ou tcome): (a*1, R2(a*1)注意:在动态博弈中,行动与战略是不同的概念;逆向归纳解与纳什均衡是不同的概念。用逆向归纳法:第3步:参与人1选择L”;第2步:参与人2选择L;第1步:参与人1选择L逆向归纳解:L(在第一个阶段结束)。如果博弈在第一个阶段中不结束,可能原因是什么?甲在开采一价值4万元的金矿时缺1万元资金,而乙正好有1万 元资金可以投资。甲希望乙能将1万元资金借给自己用于开矿,并许1A2 A1 A

14、2 A1 A2 A4Dp1Df1DriD卜 1DFD(1,1)(0,3)(98,98) (97,100)(99,99) (98,101)关于逆向归纳法的理性假定:所有参与人是理性的是所有参与人 的共同知识(100,1002.1. B Stackelberg 模型(1934)二个企业,生产产量:务,q2市场需求:P = a - Q,其中Q = q1 + q2成本:C. (q.) = cq, i = 1, 2.利润:叫(qp q2) = Pqi - C, (qi) = (a - (q1 + q2)qi - cq,博弈的顺序:(1) 企业1选择q1 0;(2) 企业2观察q1然后选择q2 0;(3)

15、 收益:兀i(qi, qj) = qt P(Q) -c,其中 P(Q) = a - Q, Q = q1 + q2求逆向归纳解(1)阶段2,企业2在观察q1后选择q2满足max q2 (a 一 (q1 + q2) 一 c)q誉解出 q2 = R2 (q1) = a - qi - c阶段1,企业1预测到R2 (q1),求q1max q1 (a - (q1 + R2 (q1)- c)q1 0=max q1 - qi - C qi02解出q * = a c. q * = a c n *= (a* 丸 *= (a* q1 q2 T,12与Cournot模型比较q * = q * = az , n *=n

16、 *=(a 一 c)2123129结果:先进入市场者有更多的利润。即所谓的先动优势 (first-mover advantage),如果企业选择的是价格而不是产量,得到 的将是后动优势(s econd-mover advantage)。同时,该例还说明,拥有信息优势可能使局中人处于劣势(后动 者拥有更多信息),而这在单人决策论中是不可能的。企业2处于劣 势是因为它在行动前已知企业1的产量,而企业1在开始行动时也知 如此。但若企业2不知企业1的产量且企业1也知如此,则即使企业 1先行动,博弈也是古诺均衡的而非Stackelberg均衡的,企业2反 而获益,企业1的先动优势就不存在了。企业1先生产

17、产量就是一种承诺行动,生产出来的产量是沉淀成 本,从而使企业2不得不认为它的威胁是可置信的。如果企业1只是宣布它将生产q*= M。企业2不会相信它的威胁,因若企业2相信i 2它的威胁而选q =二,给定此q,企业1的最优选择是q =迎M而& 4218不是,广专q1Stackelberg均衡与古诂均衡的比较承诺行动:一个博弈模型的均衡与博弈模型中各个局中人的战略空间或行 动空间有关,当我们改变博弈模型中一些局中人的战略空间或行动空 间时,也就改变了博弈的均衡。在一个博弈中,倘若某局中人希望一 个本属含有不可置信威胁或承诺的行动的非精炼均衡能真正发生,他 可以通过改变其行动空间(通常是减小其行动空间

18、或战略空间)使其 威胁或承诺变得可置信,从而将原本非精炼的均衡变成精炼的均衡, 这类局中人改变其行动或战略空间的行为被称为“承诺行动”(Commitment action)。破釜沉舟完全承诺不完全承诺2.1. C工会与企业的工资和就业经济学家Leontief于1946年提出的工会模型描写了工会与厂商 就工资进行谈判的机理,并就均衡的非帕累托最优性和谈判结果的不 稳定性作出解释,它解释了人们所观察到的工会与厂商就工资水平所 进行的经常性谈判是如何发生的(Leonfief, 1946)。一个企业和一个工会,关于工资w和就业数量L的决定。局中人1工会:战略空间为提出工资水平w局中人2厂商:战略空间为

19、决定工人雇用量乙工会收益:U(w, L);假设竺 0,竺 0,dwdL企业收益:丸(w, L) = R(L) -wL,R(0) = 8,R(8)= 0,假设r(l) 是l的增函数且为凹函数博弈的顺序:(1)工会选择工资w; (2)企业观察w且选择L.工会的无差异曲线求逆向归纳解(1)阶段2企业对收,选择L求max R(L) - wL一阶条件R(L) - w = 0,因为,R(0) = 8 , R3) = 0,即 R0一阶条件:Uw+ UlL (w)=0 或& = L(w)Lw-工会无差异曲线L*( w)L*( w*)LL*(w)曲线与无差异曲线的切点决定均衡点逆向归纳解(w*, i*y)wL此

20、结果是非最优的(inefficient)。帕累托最优的条件:裳=R (L) -w - U兀L U此条件是下列最优化问题的解:MaXU顷L)RL)- wL) s.t L 0, w 02.1. D序贯谈判:讨价还价博弈假设两人就如何分配1万元现金进行谈判,规则是这样,首先由 甲提出一个分割比例,对甲提出的比例乙可以接受也可以不接受;如 果乙不接受则他应提出另一个方案,让甲选择接受与否。假设该 博弈为三阶段讨价还价博弈,即第三回合甲的方案具有强制约束力。CD出S1跖2,5 (10000- S2)&S,5 2(10000- S)第三回合、甲的方案是自己得S=10000o第二回合,乙出价S2满足:甲:5

21、S =52S,即S =5S 22乙:5( 10000S? = 5(100005S) =100005-52S 1000052-52S第一回合,甲出价S1满足: 满足乙:10000*=100005 -52S即甲的得益:*= 10000 -100005 +5 2S当0.55 1时,5越大,甲的得益越大,乙的得益越小当05 8s参与人1将会接受s2。取 s2 = Ss,则 1 -s2 8(1 -s)。结果:参与人2将会提议s*2 = 8s,参与人1将会接受。(2)在阶段1如果 1-$8(1 -s*2)即 s1 8s*2结果:参与人1将会提出s* = 1 - 8(1 - s* ) = 1 - 8(1 -

22、8s)12参与人2将会接受1-s*r逆向递归解为1 - 8(1 -8s),匈讨价还价模型与Rubinstein定理当讨价还价博弈是无限次进行时,逆向归纳法不能直接使用,但 我们可以运用逆向归纳法的思想以及博弈树在自身结构上的自相似 性(即每一个子博弈在结构上相似于原博弈)解出其唯一的子博弈精 炼均衡,这就是著名的Rubinstein(1982)定理。若r *,则轮流出价的讨价还价博弈有唯一的子博弈精炼纳什 均衡,其均衡结果为1 -81 8 当8广82=8时,x* =上假定在t 3由1出价且1能得到的最大份额为M。1在t得到的M对1来说等价于他在t -1得到81M故2在一1出价七5 1 M时,1

23、必接受,而2不会出比8 1 M更多的 给1,故2在一 1出价x2 =5 1 M对2是最优的,2获得1 5 1M。在t 2,2的最大支付贴现值为5 (1 5 M),1在t 2出价 211 -X1 52(1 5 1M)时,2会接受,而1不会出比此更多的给2,故1出 价1-x1 =52(1 5 1 M),1 的最大获取为 1 52(151M)。因为从t - 2开始的博弈与从t开始的博弈完全相同,故1在t - 2能 得到的最大份额一定与其在t能得到的最大份额相同,所以M = 1 5 (1 5 M)21得再设1在t能得到的最小份额为血,类似推理可得1 5 m =-r-1 5 5因总有 m x 0, k

24、1其中兀为通胀率,y为自然失业率下的均衡产量,y是实际产量。 k 1的经济含义是由于市场扭曲(来自于工资刚性和市场的不完全竞 争等)使自然失业率下的产量低于政府偏好的理想水平(即政府认为 自然失业率过高),以及政府受到选民的压力而不得不寻求将产量提 高到高于自然失业率产量的水平。该效用函数表明,尽管政府并不喜 欢通胀,但若通胀能使产量提高到政府希望的水平ky,政府也会容忍 某种程度的通胀。产出与通胀之间的关系由含有通胀率预期的短期菲利普斯曲线 决定。设定为y = y + P (兀-兀 e ), P 0其中兀e是公众预期的通胀率。这种phillips曲线又称为“意外产出函数”,即只有未被公众预

25、期到的通胀才会影响实际产出,其原因在于交易费用使得企业不可能 随时调整工资率(以及工会的力量抵制工资向下调整)。设政府在给定公众通胀预期下选择货币政策,则政府的优化决策 为:max M (兀,y) =c兀 2 - (y - ky)2s -1 y = y + P (兀-兀 e )将y = y + P (兀一兀e )代入目标函数M = c兀2 (y + g兀一g兀e ky)2一阶条件2c兀一 2 g (y + g兀 一 g兀 e ky) = 0(2c 2 g 2)兀一2 g g兀 e + (1 k) y = 0ggs +(k-1)y(c + g 2)”是政府短期最优通胀率。(k -1)可被理解为(

26、政府认为的)扭曲程度。上式表明:政府选择的通胀率是公众预期通胀率的函数,它 就是政府的反应函数。现假定公众有“理性预期,则兀ef。代入反应函数,得到。兀 * + (k -1)刃p 2 兀 *p (k - 1) j=+(C + 2)C + 2 C + 2p (k-1) j故 丸* c + p 2p(k-1)j兀 e 兀 * =p 2 c1 C + p 2下图表明理性预期兀e K *由反应函数兀* (兀e )与450线的交点决定。由兀兀e =P (k1)j知,愈大(产出对未预料到的通胀率愈敏C感),扭曲愈严重(k -1)愈大),则理性预期通胀率(也是博弈均衡 通胀率)就愈高。当政府愈不喜欢通胀(C

27、愈大时,(。是目标函数M中兀的权数), 均衡通胀率就愈低(与直观一致)。此时,因政府选择的通胀率被公众正确预期到(”兀e ),故 实际产出水平将独立于通胀(即j = j )。政府一方面忍受着通胀之苦, 另一方面又无法享受产出增加之益(减少失业带来选票的增加)。将兀*代入效用函数并用Phillips曲线消去j,得到政府短期效用 水平为M =c。伉_ 1)y 2 _ly + p(兀_兀e)-ky2Sc_ P 2=-(k -l)2y 2 1 +C 2若政府选零通胀战略,则效用水平为M =-c - 0-ly +P (0 - 0) - kyP =-(k -1)2 y 2(设公众也预测到零通胀率)这里下标

28、p表示政府事前承诺零通胀率。显然有Ms Mp,故政府无积极性兑现自己的许诺。即给定公众相信通胀率为零,则政府一定会选大于零的通胀率。因公众是理性的,且知政府是理性的(故预料到政府会如此干), 故公众不会预期通胀率为政府所许诺的那样为零。因而有理性预期,效用只能为MS而非MP ( Ms)。这样,政府因无法使公众相信零通胀率而自受其苦,即“聪明反 被聪明误”。货币主义的代表人物弗里德曼建议,可实行“单一的”货币政策, 即以法律形式规定一个固定的货币增长率。注意,这是一个承诺行动, 即将不可置信承诺的零通胀率变为可置信的。因为这种法律规定限制 了政府行动的自由(减小了政府的行动空间),它等价于一个可

29、置信 的承诺行动,但政府却反而受益(得到支付M p)。政府对自身声誉的考虑也是约束政府机会主义行动的一个重要 因素(即考虑长期效用),因政府与公众之间的博弈实际上是一个重 复博弈。如果有一个不制造通胀的强政府声誉,政府会长期受益的。类似的例子还有:政府税收政策也存在动态不一致。如为了鼓励 外资进入,有些发展中国家常许诺对外资的税收优惠政策。但在给定 外资已进入情况下,政府又常常通过提高税率甚至没收外资企业的办 法来增加财政收入。因此,除非有很好的法律制度保证政府言而有信, 否则,投资者不会被政府的许诺所诱惑。在这个例子中,若双方都预期和选择零通胀,则达到帕累托最优。 但正如“囚徒困境”中的“(

30、抵赖,抵赖)”一样,这并不是一个纳什 均衡。当政府承诺零通胀时,若公众预期零通胀,则政府的零通胀政 策就不是最优的了,不是一个子博弈精炼均衡。2.2重复博弈重复博弈中每个阶段中的博弈方、可选策略、规则和得益都是相 同的-是特殊的动态博弈;基本特征:(1)前一阶段的博弈不改变后阶段的博弈结构;(2)所有参与人都能观测到博弈过去的历史;(3)参与人的总损益是所有 阶段损益的贴现值之和。形式上是基本博弈的重复进行,但博弈方的行为和博弈结果不一 定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发送变化,从而使他们在重复博弈过程不同阶 段的行为选择受到影响。策略:博弈方

31、的一个策略就是在每个阶段(即每次重复)针对每 种情况(以前阶段的结果)如何行动的计划。以逆推归纳法(逆向归纳法)为核心的子博弈精炼纳什均衡分析 及相关结论,可以推广到重复博弈中。重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。因 为对应前一阶段的每种结果,下一阶段都有原博弈全部策略组合数那 么多种可能的结果。原博弈有m种策略组合,那么重复两次就有皿 条博弈路径,重复t次就有mt条博弈路径。有限次重复博弈:给定一个基本博弈G (可以是静态博弈,也可 以是动态博弈),重复进行T次G,并且在每次重复G之前各博弈方 都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博 弈”,记为G(T)

32、。而G则称为G(T)的“原博弈”。G(T)中的每次重复 称为G(T)的一个“阶段”。无限次重复博弈:一个基本博弈G 一直重复博弈下去的博弈, 记为G(8)。重复博弈的次数虽然有限,但重复的次数或博弈结束的时间不确 定,这种重复博弈中博弈方的行为选择与有确定结束时间的有限次重 复博弈很不同,与无限次重复博弈很相似,甚至可以通过某种方式与 无限次重复博弈统一起来。这种重复博弈可以称为“随机结束的重复博弈乙任何博弈博弈方策略选择依据都是支付的大小。重复博弈中计算 的是“总支付”。由于时间有先后,因此需引入贴现系数。有限次重复博弈的总支付丸=丸+5k +82丸+. + 5t-ikm123Ttt=l无限

33、次重复博弈的总支付丸=丸+5k +62丸+. + 5t-ik +.=尤&m 123Ttt=l平均支付有限次重复博弈丸 1-OTtt=i无限次重复博弈丸=(1-6)若 t平均支付有两个优点。其一,它话除了时间的因素,因而可直接进行支付比较。其二是平均支付是现值支付的16倍,因而平均支付 最大化与现值支付最大化是等价的。2.2. A理论:有限次重复博弈连锁店悖论一个垄断的百货销售集团在20个地区都设有连锁店,另外一家 公司打算在这20个地区也设立20个连锁店销售同类产品与前一公司 竞争。A(40,50) (-10,0)(0,300) (0,300)现在的博弈问题是:当进入者进入每一个地区时,在位者

34、都有两 种战略即斗争或默许;而进入者在每一个地区也都有两种战略即进入 还是不进入。而重复博弈就是两家公司在这20个地区不断重复的市 场进入及阻挠博弈,假设进入者依次从第1,第2,,到第20个 地区进行进入决策博弈。从直观上看,在第1个地区的博弈中,在位者为了使进入者不敢 在别的地区开店,它会选择打击,但实际上这种威胁是不可置信的。 我们用逆向归纳法的逻辑来分析:考虑第20个地区的博弈。因这是最后一个地区,打击对在位者 无意义,其最优选择是“默许”,进入者进入。再看第19个地区,因进入者和第20个地区上的博弈结果必是在 位者默认,它进入,结果是确定的,不受这次博弈的影响,故知在位 者必选“默许”

35、,“打击”的威胁是不可置信的,故它必进入。连锁店博弈显然,如此倒推,知每一个地区的阶段博弈均衡必是(进入,默 许),上图中的逆向归纳法求解表明这是唯一的子博弈精炼均衡。由此,我们有如下定理。令G是阶段博弈,G(T)是G重复T次的有限次重复博弈(Tv 8), 则当G有唯一的子博弈精炼纳什均衡时,重复博弈G(T)的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次的结果。局中人的总支付等于各阶段博弈的支付贴现值之和,而局中人的 战略由局中人在各阶段博弈中的战略组成。因此,给定其他局中人的 战略,也就给定了其他局中人在各阶段博弈中的战略。当其他局中人 的战略由他在各阶段博弈中的子博弈精炼纳什均

36、衡战略组成时,当且 仅当该局中人的战略为各阶段博弈中的子博弈精炼均衡战略,该局中 人的总支付达到最大。因该局中人是任一位局中人,因而我们就证明 当单阶段博弈的子博弈精炼纳什均衡重复T次时,就构成整个重复博 弈的一个纳什均衡。在有限次重复博弈中,如果原博弈存在唯一的纯策略纳什均衡策 略组合,则有限次重复博弈的唯一的均衡解即各博弈方在每阶段中都 采用原博弈的纳什均衡;由于在这样的双方策略下,均衡路径中的每 个阶段都不存在任何不可信的威胁或许诺,因此这种均衡是子博弈完 美纳什均衡。在一个博弈中的每个博弈方的所有得益上各自加上相同 的数值不会改变博弈原来的均衡设原博弈G有惟一的纯策略纳什均衡,则对任意

37、正整数T,重 复博弈G(T)有惟一的子博弈完美纳什均衡,即各博弈方每个阶段都 采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益 的T倍,平均得益等于原博弈G中的得益。2.2.B理论:无限重复博弈无限重复博弈:G3, 5):博弈G重复无限次。折现因子:5 = 1/(1 +尸)v 1,无限收益序列的现值/ = u+瞄汕/ = t &-1%无限次与有限次重复博弈的区别:有限次:(1)存在最后一次博弈正是破坏重复博弈中博弈方利益和行为的相互制约关系,使重复博弈无法实现更高效率均衡的关键;(2)不一定考虑贴现问题。无限次:(1)没有最后一次;(2)对博弈方选择和博弈均衡的分 析必须以平均得

38、益或总得益的现值为依据。无限次重复的囚徒困境问题:对于阶段博弈8 80 1010 01 1坦白1不坦白囚徒2坦白 不坦白考虑触发战略(trigger strategy),触发战略又称冷酷战略,因为任何参与人的一次不合作将触发永久的不合作。在囚徒困境中考虑如下冷酷战略:当t=1时,选择不坦白(合作);在t1阶段,如前面t-1个阶段中 出现的行动组合都是(不坦白,不坦白),仍选择不坦白,否则,选择 坦白(不合作)。可以证明,当5充分大时,两个局中人的触发策略组 合是子博弈精炼纳什均衡。在该战略中,一方自己一旦选了 “坦白” 他之后也永远选“坦白”。若甲采取了触发策略乙也采取触发策略。甲、乙的行动组

39、合序 列均为(不坦白不坦白)各自的支付均为T 55 2 = ?(1-5)给定囚徒B选冷酷战略可证A选冷酷战略是最优的。若之前没有人选“坦白”(包括在博弈开始时)A若选“坦白” 该阶段得0单位支付但此举将触发B之后永远的报复8会在之后永远选“坦白”,故之后A每阶段支付最多为一8,其总支付至多为c c- 880 + (-8)8 + (-8)8 2 +=-1 + 8T12.k -1kk+1k+2 .甲不坦白不坦白不坦白不坦白坦白坦白乙不坦白不坦白.不坦白坦白坦白坦白乙的收益-1-1.-10-8-8.当 -88 1时,A选冷酷战略是最优的。8这时,若B采取触发策略,A也会采取触发策略。反之,若A 采取

40、触发策略,B也不会偏离触发策略。故两个局中人的触发策略组 合构成纳什均衡。前述古诺博弈均衡产量qc=qc=三,均衡利润兀c =兀c =(a 一 C)2,123129而完全垄断生产的产量为qM =工,垄断利润兀M = (a 一 c)2 ;当两企24业只相遇一次时,则古诺博弈均衡是唯一的纳什均衡。但若博弈重复 无限次,则某种形式的默契合谋就可能作为均衡结果出现。冷酷战略为:第i个企业首先选生产产量qi =虬,继续选qi =竺直到有一方选22了 qj丰竺,然后永远选qc,i = 1,2。2i即从合作开始,若中途有任何一方不合作,则转入生产古诺均衡 产量。给定企业j选了冷酷战略,若企业i选合作,其每期

41、利润为兰二;若i选短期最优产量q =3(。),当期利润为28i 8=Lq - )2 (。 5,但随后阶段利润流为(。5 V(。一 5。i 648i 98类似于囚徒困境无限次重复博弈中的证明,当色-)2 1- 9 (a-)2 + (a 一 )2 891 -8818 64即:6弟,默契合作(合谋)就是一个精炼均衡结果。可行支付设博弈有个n局中人,称v = (v,.,vn)为可行支付向量,当v为阶段 博弈G的纯策略支付的凸组合,即G若共有m个纯策略组合支付向量 gg2,,gm,有v =工Xg,其中人 。也人=1,所有可行的支付向量用V i=1i=1表示。两个人,两个纯战略(L,R)uf1=k1u1(L,L)+k2u1(L,R)+k3u1(R,L)+k4u1(R,R)Uf2=klU2(L,L)+k2U2(L,R)+k3U2(R,L)+k4U2(R,R) 其中 k1+k2+k3+k4=1(0,5)(4, 4)(L1)(5,0)无名氏定理(Friedman 1971)在重复博弈中,只要博弈人具有足够的耐心(贴现因子足够大),那么在满足博弈人个人理性约束的前提下,博弈人之间就总有多种可 能达成合作均衡。无名氏定理之所以得名,是由于重复博弈促进合作 的思想,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号