第三章完全信息动态博弈ppt课件.ppt

资源描述

《第三章完全信息动态博弈ppt课件.ppt》由会员分享，可在线阅读，更多相关《第三章完全信息动态博弈ppt课件.ppt（43页珍藏版）》请在三一办公上搜索。

1、“同时”是一个信息概念,而不是一个时间概念。,一、动态博弈与静态博弈的区别静态博弈：所有局中人同时行动；或行动虽有先后，但没有人在自己行动之前观测到别人的行动。动态博弈：局中人分先后行动；后行动者的决策依赖于先行动者，先行动者的决策要考虑对后行动者的影响；动态博弈例子：下棋；商业大战，各商家轮流出新招；商业谈判、讨价还价；,1 动态博弈及其表示,第三章完全信息动态博弈,二、静态博弈的Nash均衡的缺陷（1）可能存在多个解，如何选择？（2）Nash均衡，不考虑自己的选择如何影响对手的策略。但事实上，有些问题局中人行动有先后：一人行动在先，另一人在后，则后者会根据前者的行动调整自

2、己的策略，而前者自然会理性的预期到这一点，故不可能不考虑自己的选择如何影响对手的策略。（3） Nash均衡允许了不可置信威胁的存在。例如，姑娘、小伙子谈对象，女方父亲不同意的“断绝父女关系”的威胁。,例：市场进入阻挠一个垄断企业已在市场上（称为“在位者”），另一个企业虎视眈眈想进入（称为“进入者”）。若按静态博弈分析方法：,思考：若进入者真的进入，在位者的最优行动是“默许”。所以“斗争”是一种不可置信的威胁（即使在位企业摆出一副“你进入我就斗争”的架势，进入企业不应被吓到）。而静态博弈承认这种不可置信的威胁，使（不进入，斗争）成为一个Nash均衡。动态博弈解决方案：剔除不可置信的威胁策略,扩

3、展阅读：不可置信的威胁策略引出信息经济学重要的概念承诺行动(Commitment)。承诺行动使不可置信威胁可信威胁，否则，当事人将为自己的“失信”付出成本。例如，该例中，在位者与某第三者打赌，如果进入者进入后他不斗争，他就付给后者3，这时，斗争成为可置信的威胁。因为如果进入后，选择默许，收益更小。注意：有了这个赌，进入者就不敢进入了，实际上，在位者无需支付赌注。承诺行动在军事博弈中有广泛应用。例如，项羽的“破釜沉舟”、韩信赵国之战，“置之死地而后生”。,进入者,在位者,例房地产开发博弈有两个房地产开发商（分别为局中人1,记为A和局中人2,记为B）在某地开发房地产, (1) 开发商1先行动

4、, 选择开发或不开发;(2) 开发商2在观测到1的决策和市场的需求后, 再决定开发或不开发。,三、动态博弈的相关概念,（1）行动（actions）：局中人在博弈的某个时间点的决策变量。记为ai。 Ai =ai表示局中人 i的行动集合。 n个局中人的行动的有序组a=ai , ,an称为行动组合。与行动相关的一个重要问题是行动顺序。同样的局中人，同样的行动集合，行动顺序不同，博弈的结果就不同。,三、动态博弈的相关概念,（2）信息（information）：局中人有关博弈的知识，特别是有关“自然”的选择、其他局中人的特征和行动的知识。信息集：一个局中人无法准确知道的变量的全体。例如，已

5、知某市场自然状态有“大”和“小”两种可能。如果A不知道市场需求是大还是小，而B知道；那么，A的信息集为大，小，而B的信息集为大或小。又如，上例中，如果进入者先行动，而在位者在行动前能准确知道前者的行动，那么在位者的信息集为进入或不进入。反之，若在位者先行动，则在位者的信息集为进入，不进入。,三、动态博弈的相关概念,（3）完美信息（Perfect information）：一个局中人在行动时，对之前博弈进程有准确了解，即每一个信息集只包含一个值，则称该局中人具有完美信息。如果动态博弈的所有局中人都有完美信息，则称为完美信息的动态博弈。如果动态博弈中，存在部分局中人具有不完美信息，称

6、为不完美信息的动态博弈。注：若所有局中人都只有一次性行为选择，且都具有不完美信息，则可看成静态博弈。完全信息（Complete information）：各局中人都完全了解所有局中人各种情况下得益，称为完全信息博弈。否则，至少部分局中人不完全了解其他局中人得益情况，称为不完全信息博弈（非对称信息）。,三、动态博弈的相关概念,（4）策略（strategy）：局中人在给定信息集情况下的行动规则，它规定局中人在何时选择合行动。房地产开发例中，如果A先行动，B后行动，则A有两个策略 SA=开发，不开发，B有四个策略 SB=（开发，开发）, （开发，不开发）, （不开发，开发），（不开发，不

7、开发），其中每个策略（x,y)中的x表示A选择“开发”时，B的行动； y表示A选择“不开发”时，B的行动。,注：静态博弈中，策略和行动是相同的。动态博弈中，二者不同：策略是行动的规则，而非行动本身。例如，房地产开发中，“开发”和“不开发”是两种行动，而策略要说明什么时候采取什么行动。再如“人不犯我我不犯人，人若犯我我必犯人”是一种策略，而行动只有“犯”和“不犯”。,四、动态博弈的扩展式表达,动态博弈的扩展式表达的要素：局中人的集合,记为 i=1, 2, , n; 行动的次序, 即谁在什么时候行动; 局中人的行动空间,即轮到某局中人行动时,他从该时刻的纯策略空间中选取什么策略; 当局中人作

8、出他们的行动决策时,他所观测到或他所了解到的信息,即他在此时获得的信息集合; 局中人的得益(支付或效用), 它们是已知行动的函数; 外生事件（即自然的选择）的概率分布。（完全信息条件下，无需该要素。）,回顾：静态博弈的“策略式”表达，包括三个要素：局中人、策略集、赢得函数。动态博弈在此基础上，需扩充行动时间点、历史信息等要素。,动态博弈的扩展式表达博弈树,博弈树的优点：可描述多人对策问题（赢得矩阵只能表示二人对策） ; 便于描述行动的次序;博弈树的缺点：只能描述有限策略集对策。,例如：市场进入阻挠问题,A,B,B,进入不进入,默许斗争,(5, 5) (-2, 3),(1,10),

9、例房地产开发博弈有两个房地产开发商(分别为A和B) 在某地开发房地产, (1) 开发商A先行动, 选择开发或不开发;(2) 开发商B在观测到A的决策后, 再决定开发或不开发。博弈树如下图。,注：所有n个局中人的一个纯策略组合决定了博弈树上的一条路径。但每条路径可由不同的策略组合决定。例如，（开发,(不开发,开发)）决定了 A - 开发 - B - 不开发 - (1,0) 该路径还可由（开发,(不开发,不开发)）决定。事实上，该问题共有4条路径，8种策略组合。,对于动态博弈，Nash均衡可能并不是一个合理的预测。如房地产博弈:,的策略式表示为:,( 开, 开) ( 开, 不

10、) ( 不, 开) ( 不, 不),开 -3,-3 -3,-3 1,0 1,0,不 0,1 0,0 0,1 0,0,局中人B,局中人A,2 子博弈精炼纳什均衡,由划线法法可得三个纯策略Nash 均衡:,( 开, 开) ( 开, 不) ( 不, 开) ( 不, 不),开 -3,-3 -3,-3 1,0 1,0,不 0,1 0,0 0,1 0,0,参与人B,参与人A,但（不开发, (开发，开发)）是不合理的,这个威胁是不可置信的; （开发,(不开发,不开发)）也不合理, 因为若A不开发,B显然应该开发; 只有（开发,(不开发,开发)）是一个合理的均衡。,有子博弈: 和

11、子博弈:,例房地产博弈,一、子博弈的定义给定历史，从每一个行动选择开始至博弈结束又构成一个博弈，称为子博弈。,二、子博弈精炼纳什均衡定义扩展式博弈的策略组合s*=(s1*, , si*, , sn*) 是一个子博弈精炼Nash均衡, 如果满足:(1)它是原博弈的Nash均衡;(2)它在每一个子博弈上给出Nash均衡。,房地产开发中，子博弈I和属于单人博弈，子博弈I中，B的最优选择是不开发，子博弈中，B的最优选择是开发，因此：（1）（不开发, (开发，开发)）在子博弈I上不构成Nash均衡；（2）（开发,(不开发,不开发)）在子博弈上不构成Nash均衡；（3）（

12、开发,(不开发,开发)）在所有子博弈上都构成Nash均衡，是子博弈精炼Nash均衡。,I,例 (Selten),1,2,(2,2),(3,1) (0,0),U D,L R,L R,U 2,2 2,2,D 3,1 0,0,该博弈有两个Nash 均衡：（U，R）和（D，L),但Nash均衡(U,R)从动态博弈的观点来看是不合理的,因为它依赖于局中人2取R这一“空头威胁”。,三、逆向归纳法求解子博弈精炼Nash均衡从动态博弈的最后一个阶段局中人的行为开始分析，逐步倒推回前一个阶段相应局中人的行为选择，一直到第一个阶段。逆推归纳到某个阶段，可以用不包括该阶段与其后所有阶段博弈的等价博弈来简化原博弈

13、。逆向归纳法是动态博弈分析最重要、基本的方法。,例：用逆向归纳法，求解房地产开发问题，可得（开发,(不开发,开发)）子博弈精炼Nash均衡。,例用逆向归纳法求下列博弈的子博弈精炼Nash 均衡：,1,2,2,1,L R,A B C D,E F,(2,0) (1,1) (0,1/2),(3,1) (2,2),h1,h1,h2,h2,解为(R,E), D,经典的动态博弈模型 Stackelberg 寡头竞争模型,该模型可以看作是子博弈精炼Nash均衡的最早版本。其中企业1(称为领头企业)先选择产量q1Q1=0,), 企业2(称为尾随企业)观测到q1后选择自己的产量q

14、2Q2=0,)。企业1的策略：选择产量q1；企业2的策略：从Q1到Q2一个函数:S2:Q1Q2；均衡结果：产出向量(q1,s2(q1)；支付函数:ui(q1,s2(q1)。由于产量是一个连续变量,故不能作出博弈树。,假定逆需求函数为P(Q)=aq1q2,两个企业有相同的不变单位成本c0,则利润函数为:i(q1,q2)=qi(Pc),i=1,2 。可用逆向归纳法求解这个博弈的子博弈精炼Nash均衡。假定q1已经选定, 企业2的问题是: max 2(q1,q2)=q2(aq1q2c) 最优化一阶条件为:s2(q1)=0.5(aq1c) 因为企业1预测到企业2将根据s2(q1)选择q2,企业

15、1在第一阶段的问题是:Max 1(q1,s2(q1)=q1(aq1s2(q1)c) 解一阶条件得: q1*=0.5(ac) 将q1*代入s2(q1)得:q2*=s2(q1*)=0.25(ac).( 企业1有先动优势),与古诺模型的结果对比：古诺模型: q1*= q2*= 1/3 (ac); 1*= 2*=1/9 (ac)2; 总利润：*=2/9 (ac)2Stackelberg模型： q1*=0.5(ac), 1*=1/8 (ac)2; q2*=0.25(ac), 2*=1/16 (ac)2; 总利润：*=3/16 (ac)2合作情形：总产量Q*=0.5(ac)；总利润：*=1/4 (

16、ac)2,说明：(1) Stackelberg模型总产量大于古诺模型，价格低于古诺模型，总利润小于古诺模型（对消费者有利）。合作情形总利润最大。（对消费者不利。）（2）企业1有先动优势，企业1利润古诺利润企业2利润。这说明，在信息不对称的博弈中，信息较多的局中人不一定能得到较多的利益。,练习：两个寡头企业进行价格竞争博弈，企业1的利润函数是1= - (paq + c)2+q，企业2的利润函数是2= - (qb)2+p；其中p是企业1的价格，q是企业2的价格。求：（1）两个企业同时决策的Nash均衡；（2）企业1先决策的子博弈精练Nash均衡；（3）企业2先决策的子博弈精练Nash均衡；（4）是

17、否存在参数a、b、c的范围，使两个企业都希望自己先决策？,一、重复博弈的相关基本概念（1）定义：相同结构的博弈G重复多次，且在每次重复G之前，所有局中人都能观测到以前的结果（即历史），称为重复博弈。其中的每次博弈称为“阶段博弈”。在每个阶段博弈，可以是静态博弈，也可是动态博弈。（2）为什么要研究重复博弈人们之间的长期关系与短期关系之间有重要的性质差别,人们在对待与其有长期关系的人与对待那些以后不再交往的人可能会有非常不同的行为。重复博弈中，局中人可能会为了长远利益，而牺牲眼前利益。,3 重复博弈（Repeated Games）,一、重复博弈的相关基本概念（3）重复博弈的分类,

18、有限次重复博弈：记为G(T)，其中T为重复次数，G称为G(T)博弈的原博弈,无限次重复博弈：记为G() 。,一、重复博弈的相关基本概念（4）策略与子博弈,策略：在每个阶段（即每次重复），针对每种情况（以前阶段的结果），某局中人的行动规则。重复博弈中，局中人的策略集远远大于和复杂于原博弈的策略集。子博弈：从某个阶段开始，包括此后所有阶段的重复博弈部分。,二、重复博弈的得益评价平均得益,考虑收益的时间价值，设利率为，则,系数。某一均衡下，设各阶段得益分别为1,2, ，则重复博弈的总得益为,为贴现,有限次重复博弈,平均得益：,无限次重复博弈,令每阶段得益均为平均得益,平均得益：,注：平均

19、得益作为评价指标，便于与阶段博弈的收益对比。,三、有限次重复博弈的求解,G(T)重复次数较少时，可暂不考虑贴现问题。,（1）零和博弈问题由于不可能合作，因此，最优策略即为原博弈G的均衡解重复T次。如齐王赛马的重复博弈。,分析思路：在重复博弈的长期关系中，有可能形成默契或合作关系，或通过报复、制裁的威胁相互约束行为。因此，重复博弈中，人们在考虑当前利益的同时，要兼顾未来利益。,（2）非零和博弈问题考虑有限次重复的囚犯困境问题。设T=2:,用逆向归纳法求解1)先考虑第二阶段。此时无后续阶段，因此双方均以自身利益最大化为决策原则，得到唯一Nash均衡（坦白，坦白）。,2)再考虑第一阶段。理性的

20、双方均预测到，无论该阶段选择什么策略，均无法影响后一阶段的结果（坦白，坦白），因此，双方仍类似于一次博弈，选择（坦白，坦白）。,上述方法可以推广至T=3、4、n的情形。,定理如果阶段博弈G有唯一的Nash均衡，那么对任意有限次重复博弈G(T)有唯一的子博弈精炼Nash均衡结果：G的Nash均衡重复T次。,例连锁店悖论(Selten)考虑市场进入阻挠博弈,假定同样的市场有20个(可以理解为在位者有20个联锁店), 进入者每次进人一个市场,博弈就成了20次的重复博弈。人们也许会猜想，尽管从一个市场看，在位者的最优选择是默许，但因为有20个市场要保护，为了防止进入者进入其他19个市场，应该选择斗

21、争，但子博弈精练的结果进入者在每一市场选择进入，而在位者总是选择默许。,四、无限次重复博弈的求解,将囚犯困境一般化：,其中，TRPS， R(T+S)/2（交替的背叛和被背叛不如合作好）,问题：如何走出“囚犯困境”？,方法：引入重复博弈。常见策略有“冷酷战略”和“针锋相对”,冷酷战略（也叫“触发策略” ）,(1) 开始选择抵赖（合作）；(2)选择抵赖（合作）一直到有一方选择坦白（不合作）, 然后永远选择坦白（不合作）,下面证明，只要每个人有足够的耐心，该策略是精炼Nash均衡,设贴现因子为。对于某个局中人i :,总是合作的期望收益：,i首先不合作的期望收益：,令1 2可得：,（1）足够大，

22、如果对方不坦白， i 就没有积极性坦白,例如，囚犯困境中，,（2）如果对方坦白， i 必须坦白,结论：如果博弈重复无穷次，且每个人有足够的耐心，任何短期的机会主义行为的所得都是微不足道的，参与人有积极性为自己建立一个乐于合作的声誉，同时也有积极性惩罚对方的机会主义行为。,反映了人们对未来收益的看法,越大,说明未来收益越重要。也表示了博弈双方再次相遇的可能性,这种可能性越大,越大。也可代表耐心程度， =0没有耐心。,冷酷策略的评价：缺点：参与人没有改正的机会，很冷酷；优点：冷酷的结果是双方都没有背叛对方的积极性，因而是友善的。,2. 无限次重复博弈的民间定理,相关概念：可行支付向量：阶段博弈

23、G的纯策略支付的凸组合。可行支付集合V：所有可行支付向量的集合。,例如：两寡头削价竞争博弈,该博弈一次性博弈均衡是都采用低价，是囚犯困境型博弈,Nash均衡,子博弈精炼均衡结果,可行支付向量集合,练习：画出囚犯困境问题的可行支付向量集和子博弈精练均衡结果集。,例：合谋的持久性：价格战的发生机制,考虑价格战。首先介绍伯川德（Bertrand）寡头模型,价格竞争寡头的博弈模型前提假设：产品有一定差别，即产品之间有很强的替代性，但又不是完全替代，即价格不同时，价格较高的不会完全销不出去。,设两个厂商的需求函数分别为：,d1,d2为产品的替代系数,则它们的利润函数分别为：,从而可得它们的反应函数分别为：,解出,设贴现因子为。pi(t)表示企业i 在t期的价格，,表示企业价格，则其利润现值为：,令,：企业i 的合谋利润；,：企业i 的Bertrand竞争利润；,：企业j遵守合谋定价，企业i 违背时的利润；,则有：,（参考“囚犯困境”，相当于0-1-8）,下面分析企业i 何时背离，何时合谋？,考虑企业i在时期背离，企业j 随之进行Bertrand竞争以惩罚i ，于是企业i的最佳反应也是进行Bertrand竞争。则其利润现值为：,企业i一直合谋的利润现值为：,结论：当时冷酷战略促使合谋得以维持。,

展开阅读全文

第三章 完全信息动态博弈ppt课件.ppt

第三章完全信息动态博弈ppt课件.ppt