《博弈论第7讲ppt课件.ppt》由会员分享,可在线阅读,更多相关《博弈论第7讲ppt课件.ppt(80页珍藏版)》请在三一办公上搜索。
1、上次内容回顾,动态博弈的概念完美信息和完全信息(信息集)扩展式表示(博弈树)动态博弈的策略式表示逆向归纳法(Back Induction)承诺的置信(反国家分裂法)子博弈完美均衡斯塔克博格(Stackelberg)模型,1,子博弈完美均衡与BI,2,先动优势?后动优势,NIMStep or throw,3,4,讨价还价实例,假设两人就冰激凌的分配讨价还价。冰激凌会随时间而融化。假设冰激凌重量为100克,每一回合融化10克(即10个回合全部融化)。假设甲先提议,然后是乙。,5,讨价还价实例,两回合谈判的均衡结果推导过程:第二回合乙提议之后博弈结束,因此相当于他面临独裁博弈。此时,他会将全部冰激凌
2、分给自己(比例为1)。由于已经化掉1/10,因此,尽管乙得到了全部,但实际上是90克;甲什么也没得到。再回溯到第一回合,为了不使乙反对,甲必须使得乙所获得的冰激凌实际额不低于其第二回合的数量。因此,均衡结果是甲10克,乙90克,6,讨价还价实例,三回合谈判的均衡结果推导过程:第三回合甲提议之后博弈结束,因此相当于他面临独裁博弈。此时,他会将全部冰激凌分给自己(比例为1)。由于已经化掉2/10,因此,尽管甲得到了全部,但实际上是80克;第二回合中,为了不使甲反对,乙必须使得甲所获得的冰激凌实际额不低于其第三回合的数量,即甲80克,乙10克;再回溯到第一回合,为了不使乙反对,甲必须使得乙所获得的冰
3、激凌实际额不低于其第二回合的数量,即乙10克,甲90克。因此,均衡结果是甲90克,乙10克,7,讨价还价实例,同学们可以自己推导一下,第9回合和第十回合的均衡结果是多少?,8,讨价还价实例,第9回合,甲60克,乙40克;第10回合,甲乙各50克。推导过程9和10回合.doc,9,讨价还价实例,结论:1,低于10回合外,谁最后提议,谁有优势。2,谈判的回合越多,两人的利益分享额越接近平均分配。3,回合足够多得话,平均分配合作利益。,10,经典案例(2):讨价还价博弈,讨价还价(bargaining)是市场中最常见、普通的事情。也是博弈论中典型的动态博弈问题。讨价还价模型还可以推广到谈判问题。这里
4、介绍的是讨价还价最为经典的模型。,11,经典案例(2):讨价还价博弈,假设有两个人分割一块蛋糕,参与人1先出价(offer),参与人2可以选择接受(accept)或拒绝(reject);如果参与人2接受,博弈结束,蛋糕按参与人1的方案分配。如果参与人2拒绝,参与人2出价,参与人1决定接受或拒绝;如果参与人1接受,博弈结束,蛋糕按参与人2的方案分配。如果参与人1拒绝,参与人1再出价,12,经典案例(2):讨价还价博弈,上述过程反复进行,直到一个参与人的出价被另一个参与人接受为止。这是一个无限期完美信息博弈,参与人1在1, 3, 5,出价,参与人2在时期2,4,6,出价。,13,经典案例(2):讨
5、价还价博弈,若用x表示参与人1的份额,(1-x)表示参与人2的份额,x1和(1-x1)分别是参与人1出价时参与人1和参与人2的份额,x2和1-x2分别是参与人2出价时参与人1和参与人2的份额。假定参与人1和参与人2的贴现因子分别为1和2,如果博弈在时期t结束,t是参与人i的出价阶段,则参与人1支付的贴现值是1= 1t-1xi,参与人2支付的贴现值是2= 2t-1(1-xi),14,经典案例(2):讨价还价博弈,结合切蛋糕问题,贴现值既可以理解为资金的时间价值由于蛋糕由于未被分割出去所造成的自然缩减。双方的耐心程度。,15,经典案例(2):讨价还价博弈,问题分析由于该博弈是无限期博弈,因此,不能
6、直接采用逆推归纳法。为分析上述问题,先考虑阶段数有限的情形。,16,经典案例(2):讨价还价博弈,有限阶段讨价还价问题假定博弈只进行两个时期,在T=2,参与人2出价,如果他提出x2=0,参与人1会接受(假定参与人在接受和拒绝之间无差异时,我们假定他选择接受)。因为博弈在T=2时,参与人1再没有讨价还价的机会。,17,经典案例(2):讨价还价博弈,参与人2在T=2时得到的1单位等价于在t=1时的2单位,因此,如果参与人1在t=1时出价1-x1 2,参与人2会接受;因为参与人1没有必要给参与人2多于他会接受的最低份额,博弈均衡结果是参与人1得到x=x1=1- 2,参与人2得到1-x =2,18,(
7、a) T=1时参与人1出价情况 (b)T=2时参与人2出价情况 图2-18 两阶段讨价还价示意,2,1-2,经典案例(2):讨价还价博弈,19,经典案例(2):讨价还价博弈,再假定T=3在最后阶段,参与人1出价,他可以得到的最大份额是x1=1;因为参与人1在T=3时1单位等价于T =2时的1单位,因此,如果参与人2在T=2时出价x2=1,参与人1将会接受;因为参与人2在T=2的(1-1)单位等价于T=1时的2(1-1),因此,如果参与人1在T=1时出价1-x1= 2(1-1),参与人2将会接受。因此,子博弈精炼均衡结果是x=1- 2(1-1),20,当T=4, 5, 等有限整数值时,仿照前述方
8、法,可以推导出任何给定的T的子博弈精炼纳什均衡。如果1=2=0,不论T为多少,子博弈精炼均衡的结果是 x =1;就是说,如果两个参与人都是绝对无耐心的,第一个出价的人得到整个蛋糕;如果2=0,不论1为多少,子博弈精炼均衡结果仍然是x=1;如果1=0, 20, 子博弈精炼均衡结果是x=1-2,经典案例(2):讨价还价博弈,21,经典案例(2):讨价还价博弈,如果1=2=1, 即双方都有无限耐心,那么,如果T=1,3,5,均衡结果是x=1;如果T=2,4,6,,均衡结果是x=0。这里的结果可以称之为“后动优势”(last-mover advantage),22,经典案例(2):讨价还价博弈,一般说
9、来,如果0i1, i=1,2,均衡结果不仅依赖于贴现因子的相对比率,而且还依赖于博弈时期T和谁在最后阶段出价。然而,这种依存关系随着T的变大而变小当T趋于无穷时,我们得到“先动优势”:如果1=2=,唯一的纳什均衡结果为x=1/(1+),23,无限阶段讨价还价问题罗宾斯坦恩(Rubinstein, 1982):在无限期轮流出价博弈中,唯一的子博弈精炼纳什均衡结果是,经典案例(2):讨价还价博弈,24,无限阶段讨价还价问题罗宾斯坦恩(Rubinstein, 1982):在无限期轮流出价博弈中,唯一的子博弈精炼纳什均衡结果是如果1=2=,则,经典案例(2):讨价还价博弈,25,经典案例(2):讨价还
10、价博弈,上述定理的证明由于T=,博弈没有最后阶段,不可能使用逆推归纳法。但根据Shaked, Sutton(1984),因为从参与人1出价的任何一个阶段开始的子博弈等价于从T=1开始的整个博弈,因此可转换为有限阶段讨价还价问题。见图2-19。,26,从任一阶段开始的子博弈(t为奇数),图2-19 无限阶段讨价还价问题,从t=1阶段开始的整个博弈,经典案例(2):讨价还价博弈,27,假定在时期t3时参与人1出价,参与人1能得到的最大份额是M;对参与人1而言,t期的M等价于t-1期的1M,参与人2知道在t-1时期的任何x21M的出价将被参与人1接受,因此参与人出价x2= 1M,自己获得1- 1M;
11、对于参与人2而言,t-1期的1- 1M等价于t-2期的2 (1- 1M),参与人知道在t-2期的任何x1=1- 2 (1- 1M)出价将被参与人2接受,因此参与人1出价x1=1- 2 (1- 1M),t=1,t=2,t=k,t=3,x=M,x=1M,x=1- 2 (1- 1M),经典案例(2):讨价还价博弈,28,因此有x=1- 2 (1- 1M)=M进而求得,t=1,t=2,t=k,t=3,x=M,x=1M,x=1- 2 (1- 1M),经典案例(2):讨价还价博弈,29,与此类似,可求出参与人1能够获得的最小份额m,为,经典案例(2):讨价还价博弈,由于参与人1能得到的最大份额和最小份额相
12、同,均衡结果是唯一的,为,30,多阶段静态博弈,该类模型中至少在某个阶段参与人同时选择其决策。,31,多阶段静态博弈,模型一例博弈中有四个参与人,分别用参与人14表示。第一阶段是参与人1与2的决策选择阶段,他们同时在各自的策略集A1和A2中分别选择a1和a2。第二阶段是参与人3与4决策选择阶段,他们看到参与人1和2的决策a1和a2后,同时在各自的策略集A3, A4中分别选择a3和a4。各参与人的支付函数是参与人的策略a1, a2, a3, a4的函数,记为ui = ui (a1, a2, a3, a4),32,多阶段静态博弈,有同时选择的动态博弈问题如国际竞争中最优关税博弈问题,两个制定关税的
13、国家可看成标准模型中的参与人1与2;两国各自的一个相互进行产量竞争的企业就是模型中的参与人3于4。上述标准模型的变形,如某个阶段只有一个参与人;第二阶段的参与人3于4与第一阶段的参与人1与2相同等,也属于同时选择的动态博弈问题。,33,多阶段静态博弈,这类模型实质上就是完美信息动态博弈,因此仍然可以采用逆推归纳法进行分析。因为存在同时选择,因此每个阶段不再是单人优化问题,而是一个静态博弈。,34,多阶段静态博弈简例:挤兑博弈,问题描述:银行信贷对社会经济发展的作用无可估量,但它在带来巨大利益的同时也蕴含着一定的风险。设一家银行为了给一个企业贷放一笔20000元的贷款,以20%的年利率吸引客户存
14、款。若两个客户各有10000元资金,如果他们把资金作为1年期定期存款存入该银行,那么银行就可以向企业贷款。如果两客户都不愿存款或只有一个客户存款,那么银行就无法给上述企业贷款,这时候客户的本金可以保全。,35,多阶段静态博弈简例:挤兑博弈,在两个客户都存款,从而银行给上述企业提供贷款的情况下,如果银行满1年收回贷款,企业就能完成一笔生意,银行可收回贷款本息,并可支付存款客户的存款本息。如果在不到1年的时候,其中任何一个客户单独或同时要求提前取出存款,银行就不得不提前收回贷款。假设银行只能收回80%的本钱。若只有一个客户要求提前取款,则银行会偿还其全部本金,余款则属于另一客户;若两客户同时要求提
15、前取款,则平分回收的资金。,36,多阶段静态博弈简例:挤兑博弈,根据上述假设,可以用图2-20的两个矩阵表示该问题。,客户2,客户1,图2-20 银行挤兑风险,客户2,客户1,第一阶段,第二阶段,37,多阶段静态博弈简例:挤兑博弈,用逆推归纳法来分析该博弈。在第二个阶段的博弈。这是一个二人完全信息静态博弈,可以得出该博弈有两个纯策略纳什均衡(提前,提前)和(到期,到期)。对应的支付情况分别为(0.8,0.8)和(1.2,1.2)。分别为风险占优均衡和帕雷托占优均衡。,客户2,客户1,第二阶段,38,多阶段静态博弈简例:挤兑博弈,其中,风险占优均衡就是“挤兑”现象,而帕雷托占优则是金融健康的经济
16、现象。若采用风险占优策略的客户比例较大,超出了银行承受能力,就可能会造成金融危机。,客户2,客户1,第二阶段,39,如果第二个阶段博弈结果是比较理想的(到期,到期)纳什均衡,那么这时候第一阶段的博弈相当于图2-21的支付矩阵(完全信息静态博弈)。,第一阶段,40,如果第二个阶段博弈结果是比较理想的(到期,到期)纳什均衡,那么这时候第一阶段的博弈相当于图2-21的支付矩阵(完全信息静态博弈)。,多阶段静态博弈简例:挤兑博弈,图2-21 第一阶段等价博弈(1),41,此时也有两个纯战略纳什均衡,为(不存,不存),(存款,存款),且后一个均衡策略帕雷托优于前一个,同时也是风险占优均衡。因此,两客户都
17、会选择存款给银行。这是银行融资信用很好起的作用。,多阶段静态博弈简例:挤兑博弈,图2-21 第一阶段等价博弈(1),42,如果第二个阶段博弈结果是不甚理想的(提前,提前)纳什均衡,那么这时候第一阶段的博弈支付如图2-22的矩阵。此时(不存,不存)是两客户的纳什均衡,也是占优均衡。因此,两客户都会选择“不存”,这相当于客户不再信任银行的情况。但这时候不会引起银行挤兑现象及金融危机。因为没有人存钱给银行。,多阶段静态博弈简例:挤兑博弈,图2-22 第一阶段等价博弈(2),43,多阶段静态博弈简例:挤兑博弈,由该模型,可将由于挤兑导致的金融危机解释为:在金融稳定时期,社会闲散资金会选择银行;企业多数
18、从银行贷款进行发展,但若从事的项目风险较大,有些企业可能到期不能偿还贷款;社会储户由于上述信息引起恐慌,引发挤兑现象;挤兑现象达到一定程度,引发一些银行倒闭;金融危机由此产生。,44,前向归纳法,前面已经说明,完美信息动态博弈的经典求解方法为逆序归纳法。还有一种分析方式,就是前向归纳法(forward induction)。前向归纳法由科尔博格和莫顿斯(1986)提出。这里不进行严格的数学描述,仅通过一个例题进行说明。,45,前向归纳法一例:烧钱博弈,回顾博弈论的经典问题,性别战博弈,图2-23 性别战博弈,PLAYER l,46,前向归纳法一例:烧钱博弈,该博弈有两个纯策略均衡(T, L),
19、 (B, R)以及一个混合策略均衡。,图2-23 性别战博弈,PLAYER l,47,前向归纳法一例:烧钱博弈,现对博弈进行稍微修改,见图2-24,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,48,前向归纳法一例:烧钱博弈,这时博弈的合理结果是什么?,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,49,前向归纳法一例:烧钱博弈,如果博弈到达第2阶段,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,50,前向归纳法一例:烧钱博弈,说明参与人1放弃了第一阶段获取2单位效用的机会,图2-24 修改的性别战,T,B,L,R,1,I
20、n,Out,2, 2,51,前向归纳法一例:烧钱博弈,如果参与人是理性的,必然在第二阶段追求更好( 2)的结局。,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,52,前向归纳法一例:烧钱博弈,因此,在第二阶段,参与人1必然要选取策略T.,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,53,前向归纳法一例:烧钱博弈,预见到上述情况,参与人2将选择策略L,图2-24 修改的性别战,T,B,L,R,1,In,Out,2, 2,54,前向归纳法一例:烧钱博弈,因此,按照前向归纳法逻辑,合理结局是,图2-24 修改的性别战,T,B,L,R,1,In,Out
21、,2, 2,55,重复博弈和无名氏定理,重复博弈(repeated game)的定义指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈(stage game)”。如两个多次犯罪的“囚徒问题”。由于动态博弈是相机行动,反映到重复博弈中,就是可以使自己在某个阶段的博弈选择依赖于其他参与人过去的行动历史。,56,重复博弈和无名氏定理,如囚徒困境的重复博弈的一个策略可以是:“如果这次你选择了坦白,我下次将选择坦白;如果你这次选择了抵赖,我下次将选择抵赖” 。因此,参与人在重复博弈中的战略空间远远大于和复杂于在每个阶段博弈中的战略空间。,57,重复博弈和无名氏定理,影响重复博弈均衡结果的主要因素是博
22、弈重复次数和信息的完备性(completeness)。重复次数对参与人可能会有的影响是:参与人为了获得长远利益而牺牲眼前利益的策略成为可能。关于完备性,简单地说,但一个参与人的支付函数不为其他参与人所知时,该参与人可能有积极性建立一个“好”的声誉(reputation)以换取长远利益。在社会行为中,经常可以看到本质不好的人在相当长的时期内干好事的原因。,58,重复博弈和无名氏定理,有限次重复博弈:连锁店悖论考虑如图2-25所示的市场进入博弈。如果进入者先行动,则可表示为完全信息动态博弈的博弈树形式,见图2-26。图中A表示进入者,B表示在位者。,图2-25 市场进入博弈,在位者,进入者,59,
23、该博弈唯一的子博弈精炼纳什均衡结果是进入者进入,在位者默许,分别得到40和50的支付。,不进入,进入,斗争,默许,(0,300),(0,300),图2-26 市场进入博弈,A,B,B,(40,50),(-10,0),默许,斗争,重复博弈和无名氏定理,60,重复博弈和无名氏定理,现在假定同样的市场有20个(可以理解为在位者有20个连锁店),进入者每次进入一个市场,博弈就变成了20次重复博弈。假定进入者先进入第1个市场,在位者应该作如何反应?按照一般的认识,在位者应该坚决进行斗争,即便是损失该市场,但可以阻止其他19个市场的进入者的进入。但按照子博弈精练纳什均衡分析方法,却与上述结论相左。,61,
24、重复博弈和无名氏定理,分析过程如下:设想前19个市场已被进入,进入者现在进入第20个市场。因为在最后阶段,选择斗争已没有任何威慑意义,在位者最优选择是默许,进入者将选择进入。现在考虑第19个市场。因为无论在位者选择什么行动,第20个市场上的均衡结果不受影响(因为进入者知道第20各市场上在位者将选择默许),在位者最优选择仍然是默许。,62,重复博弈和无名氏定理,如此一直倒推回去,我们得到这个博弈的唯一子博弈精炼均衡是在位者在每一个市场上都选择默许,进入者在每一个市场上选择进入。这就是所谓的“连锁店悖论”(chain-store paradox, Selten,1978),63,重复博弈和无名氏定
25、理,囚徒困境问题与市场进入博弈类似,只要博弈的重复次数是有限的,最后阶段博弈的唯一纳什均衡是两个囚徒都选择坦白,且“总是坦白”是唯一的子博弈精炼均衡。上述结果可以一般化为下述定理。定理:令G是阶段博弈,G(T)是G重复T次的重复博弈(T)。那么,如果G有唯一的纳什均衡,重复博弈G(T)的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。,64,重复博弈和无名氏定理,上述定理说明,只要博弈的重复次数是有限的,重复本身并不改变囚徒困境的均衡结果。上述定理中“唯一性”是一个重要条件。如果纳什均衡不是唯一的,上述结论就不一定成立。当博弈有多个纳什
26、均衡时,参与人可以使用不同的纳什均衡惩罚前面阶段的不合作行为或奖励第一阶段的合作行为。,65,重复博弈和无名氏定理,前述连锁店悖论的一个解释是引入信息的不完全性。在不完全信息动态博弈中,可以看到这一点。这里先给出一个解释模型,即当博弈重复无穷多次而不是有限次时,存在着完全不同于一次博弈的子博弈精炼均衡。以囚徒问题为例,对此进行说明。,66,重复博弈和无名氏定理,为便于讨论,将囚徒问题复制于此,见图2-27。可以证明,如果参与人有足够的耐心,(抵赖,抵赖)是一个子博弈精炼纳什均衡结果。,图2-27 囚徒困境问题,囚徒2,囚徒1,67,考虑下列所谓的“冷酷战略”(grim strategies):
27、开始时选择抵赖;选择抵赖直到有一方选择了坦白,然后永远选择坦白。,重复博弈和无名氏定理,图2-27 囚徒困境问题,囚徒2,囚徒1,68,重复博弈和无名氏定理,首先证明冷酷战略是一个纳什均衡回顾一下,所谓纳什均衡,就是这样的一个状态,对于任意一个参与人,给定其他参与人选择纳什均衡策略,该参与人都无法偏离纳什均衡策略使自己受益。因此,证明囚徒问题中冷酷战略是一个纳什均衡的方法是:给定其中任意一个参与人坚持“冷酷战略”,另外一个参与人的最优选择也是坚持冷酷战略。,69,重复博弈和无名氏定理,设a为贴现因子(假定两人贴现因子相同)。如果i在博弈的某个阶段首先选择了坦白,在该阶段得到0单位的支付,优于选
28、择抵赖得到的-1。但这个机会主义行为将触发他的伙伴选择“永远坦白”的惩罚,因此i随后每个阶段的支付都是-8。因此,如果下列条件满足,给定对手没有选择坦白,i将不会选择坦白,即,70,重复博弈和无名氏定理,该式可以化简为a 1/8同样道理,若对手首先选择了坦白,不论a的值为多少,参与人i都有积极性坚持冷酷战略。因此,冷酷战略是一个纳什均衡。,71,重复博弈和无名氏定理,该战略是否是子博弈精炼均衡?因为博弈重复无限次,从任何一个阶段开始的子博弈与这个博弈的结构完全相同。在冷酷战略均衡下,子博弈可以分为两类:在类型a,没有任何参与人曾经坦白;在类型b,至少有一个参与人曾经坦白。,72,重复博弈和无名
29、氏定理,在类型a中,我们已经证明,冷酷战略在a类型子博弈中构成纳什均衡;在b类子博弈中,根据冷酷战略,参与人只是重复单阶段博弈的纳什均衡,因此也是子博弈的纳什均衡。因此,如果a 1/8,冷酷战略是无限次囚徒博弈的一个子博弈精炼纳什均衡。,73,重复博弈和无名氏定理,该博弈还有许多其他子博弈精炼均衡。各期都坦白,是另一个子博弈精炼纳什均衡子博弈精炼均衡的多重性是无限次重复博弈的普遍问题。,74,重复博弈和无名氏定理,无名氏定理(Friedman,1971):令G为一个n人阶段博弈,a*是G的一个纳什均衡(纯策略或混合策略),e=(e1, e2, , en)是a*决定的支付向量,v= (v1, v
30、2,vn)是一个任意可行的支付向量,V是可行支付向量集合。那么,对于任何满足 vi ei的v (in V),存在一个贴现因子 *1,使得对于所有的 *, v=(v1,v2,vn)是一个特定的子博弈精炼纳什均衡结果。,75,重复博弈和无名氏定理,简单地说,无名氏定理说的是,在无限次重复博弈中,如果参与人有足够的耐心(足够大),那么,任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精炼均衡得到。在无名氏定理中,阶段博弈的纳什均衡a*及其支付向量e=(e1,e2,en)是达到任何精炼均衡结果v的惩罚点(或称为纳什威胁点,Nash Threat Point)。,76,重复博弈和无名氏定理,以
31、囚徒困境问题为例,a*=(坦白,坦白),e=(-8,-8)。正是由于害怕触发阶段博弈纳什均衡,参与人才有积极性保持合作。,77,重复博弈和无名氏定理,无名氏定理中的可行支付集合V可用未来支付的贴现值之和代表支付函数,如同前面的证明中使用的那样。也可用平均支付(average-payoffs)表示支付函数。,78,重复博弈和无名氏定理,无名氏定理中的可行支付集合V可用未来支付的贴现值之和代表支付函数,如同前面的证明中使用的那样。也可用平均支付(average-payoffs)表示支付函数。无名氏定理中的支付指的是平均支付。V=(v1,v2,vn)是可行支付向量,如果它是阶段博弈G的纯战略支付的凸组合。所有可行支付向量构成可行支付集合V。,79,以囚徒问题为例,红线围成的区域即为囚徒困境问题的可行支付集合。四个角点是纯战略组合下的支付,由四个角点构成的闭区域为有混合策略组合下可能的支付向量。纳什威胁点为e=(-8,-8)。无名氏定理的含义即为:如果足够接近于1,由点(-8,-8)两条垂直线围成的可行集合上的任意一点都可以是子博弈精炼纳什均衡结果。,-10, 0,-1, -1,-8, -8,图2-28 囚徒困境问题的可行支付集合,-10, 0,重复博弈和无名氏定理,找出全部子博弈;求解子博弈精练纳什均衡和博弈的结果。,80,