第三章 完全信息动态博弈ppt课件.ppt

上传人:小飞机 文档编号:1430016 上传时间:2022-11-23 格式:PPT 页数:43 大小:282KB
返回 下载 相关 举报
第三章 完全信息动态博弈ppt课件.ppt_第1页
第1页 / 共43页
第三章 完全信息动态博弈ppt课件.ppt_第2页
第2页 / 共43页
第三章 完全信息动态博弈ppt课件.ppt_第3页
第3页 / 共43页
第三章 完全信息动态博弈ppt课件.ppt_第4页
第4页 / 共43页
第三章 完全信息动态博弈ppt课件.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《第三章 完全信息动态博弈ppt课件.ppt》由会员分享,可在线阅读,更多相关《第三章 完全信息动态博弈ppt课件.ppt(43页珍藏版)》请在三一办公上搜索。

1、“同时”是一个信息概念,而不是一个时间概念。,一、 动态博弈与静态博弈的区别 静态博弈:所有局中人同时行动;或行动虽有先后,但没有人在自己行动之前观测到别人的行动。 动态博弈:局中人分先后行动;后行动者的决策依赖于先行动者,先行动者的决策要考虑对后行动者的影响; 动态博弈例子: 下棋; 商业大战,各商家轮流出新招; 商业谈判、讨价还价;,1 动态博弈及其表示,第三章 完全信息动态博弈,二、 静态博弈的Nash均衡的缺陷(1)可能存在多个解,如何选择?(2)Nash均衡,不考虑自己的选择如何影响对手的策略。但事实上,有些问题局中人行动有先后:一人行动在先,另一人在后,则后者会根据前者的行动调整自

2、己的策略,而前者自然会理性的预期到这一点,故不可能不考虑自己的选择如何影响对手的策略。(3) Nash均衡允许了不可置信威胁的存在。 例如,姑娘、小伙子谈对象,女方父亲不同意的“断绝父女关系”的威胁。,例:市场进入阻挠一个垄断企业已在市场上(称为“在位者”),另一个企业虎视眈眈想进入(称为“进入者”)。若按静态博弈分析方法:,思考:若进入者真的进入,在位者的最优行动是“默许”。所以“斗争”是一种不可置信的威胁(即使在位企业摆出一副“你进入我就斗争”的架势,进入企业不应被吓到)。而静态博弈承认这种不可置信的威胁,使(不进入,斗争)成为一个Nash均衡。动态博弈解决方案:剔除不可置信的威胁策略,扩

3、展阅读:不可置信的威胁策略引出信息经济学重要的概念承诺行动(Commitment)。承诺行动使 不可置信威胁可信威胁,否则,当事人将为自己的“失信”付出成本。例如,该例中,在位者与某第三者打赌,如果进入者进入后他不斗争,他就付给后者3,这时,斗争成为可置信的威胁。因为如果进入后,选择默许,收益更小。注意:有了这个赌,进入者就不敢进入了,实际上,在位者无需支付赌注。承诺行动在军事博弈中有广泛应用。例如,项羽的“破釜沉舟”、 韩信赵国之战,“置之死地而后生”。,进入者,在位者,例 房地产开发博弈有两个房地产开发商(分别为局中人1,记为A和局中人2,记为B)在某地开发房地产, (1) 开发商1先行动

4、, 选择开发或不开发;(2) 开发商2在 观测到1的决策和市场的需求后, 再决定开发 或不开发。,三、 动态博弈的相关概念,(1)行动(actions):局中人在博弈的某个时间点的决策变量。记为ai。 Ai =ai表示局中人 i的行动集合。 n个局中人的行动的有序组a=ai , ,an称为行动组合。 与行动相关的一个重要问题是行动顺序。同样的局中人,同样的行动集合,行动顺序不同,博弈的结果就不同。,三、 动态博弈的相关概念,(2)信息(information):局中人有关博弈的知识,特别是有关“自然”的选择、其他局中人的特征和行动的知识。 信息集:一个局中人无法准确知道的变量的全体。 例如,已

5、知某市场自然状态有“大”和“小”两种可能。如果A不知道市场需求是大还是小,而B知道;那么,A的信息集为大,小,而B的信息集为大或小。 又如,上例中,如果进入者先行动,而在位者在行动前能准确知道前者的行动,那么在位者的信息集为 进入或不进入。 反之,若在位者先行动,则在位者的信息集为进入,不进入。,三、 动态博弈的相关概念,(3) 完美信息(Perfect information):一个局中人在行动时,对之前博弈进程有准确了解,即每一个信息集只包含一个值,则称该局中人具有完美信息。 如果动态博弈的所有局中人都有完美信息,则称为完美信息的动态博弈。 如果动态博弈中,存在部分局中人具有不完美信息,称

6、为不完美信息的动态博弈。 注:若所有局中人都只有一次性行为选择,且都具有不完 美信息,则可看成静态博弈。 完全信息(Complete information):各局中人都完全了解所有局中人各种情况下得益,称为完全信息博弈。 否则,至少部分局中人不完全了解其他局中人得益情况,称为不完全信息博弈(非对称信息)。,三、 动态博弈的相关概念,(4)策略(strategy):局中人在给定信息集情况下的行动规则,它规定局中人在何时选择合行动。房地产开发例中,如果A先行动,B后行动,则A有两个策略 SA=开发,不开发,B有四个策略 SB=(开发,开发), (开发,不开发), (不开发,开发), (不开发,不

7、开发),其中每个策略(x,y)中的x表示A选择“开发”时,B的行动; y表示A选择“不开发”时,B的行动。,注:静态博弈中,策略和行动是相同的。 动态博弈中,二者不同:策略是行动的规则,而非行动本身。例如,房地产开发中,“开发”和“不开发”是两种行动,而策略要说明什么时候采取什么行动。再如“人不犯我我不犯人,人若犯我我必犯人”是一种策略,而行动只有“犯”和“不犯”。,四、 动态博弈的扩展式表达,动态博弈的扩展式表达的要素: 局中人的集合,记为 i=1, 2, , n; 行动的次序, 即谁在什么时候行动; 局中人的行动空间,即轮到某局中人行动时,他从该时刻的纯策略空间中选取什么策略; 当局中人作

8、出他们的行动决策时,他所观测到 或他所了解到的信息,即他在此时获得的信息 集合; 局中人的得益(支付或效用), 它们是已知行动的函数; 外生事件(即自然的选择)的概率分布。(完全信息条件下,无需该要素。),回顾:静态博弈的“策略式”表达,包括三个要素:局中人、策略集、赢得函数。 动态博弈在此基础上,需扩充行动时间点、历史信息等要素。,动态博弈的扩展式表达博弈树,博弈树的优点: 可描述多人对策问题(赢得矩阵只能表示二人对策) ; 便于描述行动的次序;博弈树的缺点: 只能描述有限策略集对策。,例如:市场进入阻挠问题,A,B,B,进入 不进入,默许 斗争,(5, 5) (-2, 3),(1,10),

9、例 房地产开发博弈 有两个房地产开发商(分别为A和B) 在某地开发房地产, (1) 开发商A先行动, 选择开发或不开发;(2) 开发商B在 观测到A的决策后, 再决定开发或不开发。博弈树如下图。,注:所有n个局中人的一个纯策略组合决定了博弈树上的一条路径。但每条路径可由不同的策略组合决定。 例如, (开发,(不开发,开发))决定了 A - 开发 - B - 不开发 - (1,0) 该路径还可由(开发,(不开发,不开发))决定。事实上,该问题共有4条路径,8种策略组合。,对于动态博弈,Nash均衡可能并不是一个合理的预测。如房地产博弈:,的 策 略 式 表 示 为:,( 开, 开) ( 开, 不

10、) ( 不, 开) ( 不, 不),开 -3,-3 -3,-3 1,0 1,0,不 0,1 0,0 0,1 0,0,局中人B,局中人A,2 子博弈精炼纳什均衡,由 划线法法 可 得 三 个 纯 策 略Nash 均 衡:,( 开, 开) ( 开, 不) ( 不, 开) ( 不, 不),开 -3,-3 -3,-3 1,0 1,0,不 0,1 0,0 0,1 0,0,参 与 人B,参 与 人A,但(不开发, (开发,开发))是不合理的,这个威胁是不可置 信的; (开发,(不开发,不开发))也不合理, 因为若A不开发,B显然应该开发; 只有(开发,(不开发,开发))是一 个合理的均衡。,有子博弈: 和

11、子博弈:,例 房 地 产 博 弈,一、子 博 弈的定 义 给定历史,从每一个行动选择开始至博弈结束又构成一个博弈,称为子 博 弈。,二、 子博弈精炼纳什均衡 定义 扩展式博弈的策略组合s*=(s1*, , si*, , sn*) 是一个 子博弈精炼Nash均衡, 如果满足:(1)它 是原博弈的Nash均衡;(2)它在每一个子博弈上 给出Nash均衡。,房地产开发中,子博弈I和属于单人博弈,子博弈I中,B的最优选择是不开发,子博弈中,B的最优选择是开发,因此:(1)(不开发, (开发,开发))在子博弈I上不构成Nash均衡;(2)(开发,(不开发,不开发))在子博弈上不构成Nash均衡;(3)(

12、开发,(不开发,开发))在所有子博弈上都构成Nash均衡,是子博弈精炼Nash均衡。,I,例 (Selten),1,2,(2,2),(3,1) (0,0),U D,L R,L R,U 2,2 2,2,D 3,1 0,0,该博弈有两个Nash 均衡:(U,R)和(D,L),但Nash均衡(U,R)从动态博弈的观点来看是不合理的,因为它依赖于局中人2取R这一“空头威胁”。,三、 逆向归纳法求解子博弈精炼Nash均衡从动态博弈的最后一个阶段局中人的行为开始分析,逐步倒推回前一个阶段相应局中人的行为选择,一直到第一个阶段。 逆推归纳到某个阶段,可以用不包括该阶段与其后所有阶段博弈的等价博弈来简化原博弈

13、。 逆向归纳法是动态博弈分析最重要、基本的方法。,例:用逆向归纳法,求解房地产开发问题,可得(开发,(不开发,开发))子博弈精炼Nash均衡。,例用逆向归纳法求下列博弈的子博弈精炼Nash 均衡:,1,2,2,1,L R,A B C D,E F,(2,0) (1,1) (0,1/2),(3,1) (2,2),h1,h1,h2,h2,解为(R,E), D,经 典 的动 态 博 弈 模 型 Stackelberg 寡 头 竞 争 模 型,该模型可以看作 是子博弈精炼Nash均衡的最早版本。其中企业1(称为领头企业)先选择产 量q1Q1=0,), 企业2(称为尾随企业)观测 到q1后选择自己的产量q

14、2Q2=0,)。企业1的策略:选择产量q1;企业2的策略:从Q1到Q2一个函数:S2:Q1Q2;均衡结果:产出向量(q1,s2(q1);支付函数:ui(q1,s2(q1)。由于产量是一个连续变量,故不能作出博弈树。,假定逆需求函数为P(Q)=aq1q2,两个企业有相 同的不变单位成本c0,则利润函数为:i(q1,q2)=qi(Pc),i=1,2 。可用逆向 归纳法求解这个博弈的子博弈精炼Nash均衡。 假定q1已经选定, 企业2的问题是: max 2(q1,q2)=q2(aq1q2c) 最优化一阶条件为:s2(q1)=0.5(aq1c) 因为企业1预测到企业2将根据s2(q1)选择q2,企 业

15、1在第一阶段的问题是:Max 1(q1,s2(q1)=q1(aq1s2(q1)c) 解一阶条件得: q1*=0.5(ac) 将q1*代入s2(q1)得:q2*=s2(q1*)=0.25(ac).( 企业1有先 动 优 势),与古诺模型的结果对比:古诺模型: q1*= q2*= 1/3 (ac); 1*= 2*=1/9 (ac)2; 总利润:*=2/9 (ac)2Stackelberg模型: q1*=0.5(ac), 1*=1/8 (ac)2; q2*=0.25(ac), 2*=1/16 (ac)2; 总利润:*=3/16 (ac)2合作情形:总产量Q*=0.5(ac); 总利润:*=1/4 (

16、ac)2,说明:(1) Stackelberg模型总产量大于古诺模型,价格低于古诺模型,总利润小于古诺模型(对消费者有利)。合作情形总利润最大。(对消费者不利。)(2)企业1有先动优势,企业1利润古诺利润企业2利润。这说明,在信息不对称的博弈中,信息较多的局中人不一定能得到较多的利益。,练习:两个寡头企业进行价格竞争博弈,企业1的利润函数是1= - (paq + c)2+q,企业2的利润函数是2= - (qb)2+p;其中p是企业1的价格,q是企业2的价格。求:(1)两个企业同时决策的Nash均衡;(2)企业1先决策的子博弈精练Nash均衡;(3)企业2先决策的子博弈精练Nash均衡;(4)是

17、否存在参数a、b、c的范围,使两个企业都希望自己先决策?,一、 重复博弈的相关基本概念(1)定义:相同结构的博弈G重复多次,且在每次重复G之前,所有局中人都能观测到以前的结果(即历史),称为重复博弈。其中的每次博弈称为“阶段博弈”。 在每个阶段博弈,可以是静态博弈,也可是动态博弈。(2) 为什么要研究重复博弈 人们之间的长期关系与短期关系之间有重要 的性质差别,人们在对待与其有长期关系的 人与对待那些以后不再交往的人可能会有非 常不同的行为。 重复博弈中,局中人可能会为了长远利益,而牺牲眼前利益。,3 重复博弈(Repeated Games),一、 重复博弈的相关基本概念(3)重复博弈的分类,

18、有限次重复博弈: 记为G(T),其中T为重复次数,G称为G(T)博弈的原博弈,无限次重复博弈: 记为G() 。,一、 重复博弈的相关基本概念(4)策略与子博弈,策略:在每个阶段(即每次重复),针对每种情况(以前阶段的结果),某局中人的行动规则。 重复博弈中,局中人的策略集远远大于和复杂于原博弈的策略集。 子博弈:从某个阶段开始,包括此后所有阶段的重复博弈部分。,二、 重复博弈的得益评价平均得益,考虑收益的时间价值,设利率为,则,系数。某一均衡下,设各阶段得益分别为1,2, ,则重复博弈的总得益为,为贴现,有限次重复博弈,平均得益:,无限次重复博弈,令每阶段得益均为平均得益,平均得益:,注:平均

19、得益作为评价指标,便于与阶段博弈的收益对比。,三、 有限次重复博弈的求解,G(T)重复次数较少时,可暂不考虑贴现问题。,(1)零和博弈问题 由于不可能合作,因此,最优策略即为原博弈G的均衡解重复T次。如齐王赛马的重复博弈。,分析思路:在重复博弈的长期关系中,有可能形成默契或合作关系,或通过报复、制裁的威胁相互约束行为。因此,重复博弈中,人们在考虑当前利益的同时,要兼顾未来利益。,(2)非零和博弈问题 考虑有限次重复的囚犯困境问题。设T=2:,用逆向归纳法求解1)先考虑第二阶段。此时无后续阶段,因此双方均以自身利益最大化为决策原则,得到唯一Nash均衡(坦白,坦白)。,2)再考虑第一阶段。理性的

20、双方均预测到,无论该阶段选择什么策略,均无法影响后一阶段的结果(坦白,坦白),因此,双方仍类似于一次博弈,选择(坦白,坦白)。,上述方法可以推广至T=3、4、n的情形。,定理 如果阶段博弈G有唯一的Nash均衡,那么对任意有限次重复博弈G(T)有唯一的子博弈精炼Nash均衡结果:G的Nash均衡重复T次。,例 连锁店悖论(Selten)考虑市场进入阻挠博弈,假定同样的市场有20个(可以理解为在位者有20个联锁店), 进入者每次进人一个市场,博弈就成了20次的重复博弈。人们也许会猜想,尽管从一个市场看,在位者的最优选择是默许,但因为有20个市场要保护,为了防止进入者进入其他19个市场,应该选择斗

21、争,但子博弈精练的结果进入者在每一市场选择进入,而在位者总是选择默许。,四、 无限次重复博弈的求解,将囚犯困境一般化:,其中,TRPS, R(T+S)/2(交替的背叛和被背叛不如合作好),问题:如何走出“囚犯困境”?,方法:引入重复博弈。常见策略有“冷酷战略”和“针锋相对”,冷酷战略( 也叫“触发策略” ),(1) 开始选择抵赖(合作);(2)选择抵赖(合作)一直到有一方选择坦白(不合作), 然后永远选择坦白(不合作),下面证明,只要每个人有足够的耐心,该策略是精炼Nash均衡,设贴现因子为。对于某个局中人i :,总是合作的期望收益:,i首先不合作的期望收益:,令1 2可得:,(1) 足够大,

22、如果对方不坦白, i 就没有积极性坦白,例如,囚犯困境中,,(2) 如果对方坦白, i 必须坦白,结论:如果博弈重复无穷次,且每个人有足够的耐心,任何短期的机会主义行为的所得都是微不足道的,参与人有积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚对方的机会主义行为。,反映了人们对未来收益的看法,越大,说明未来收益越重要。也表示了博弈双方再次相遇的可能性,这种可能性越大,越大。 也可代表耐心程度, =0没有耐心。,冷酷策略的评价:缺点:参与人没有改正的机会,很冷酷;优点:冷酷的结果是双方都没有背叛对方的积极性,因而是友善的。,2. 无限次重复博弈的民间定理,相关概念:可行支付向量:阶段博弈

23、G的纯策略支付的凸组合。可行支付集合V:所有可行支付向量的集合。,例如:两寡头削价竞争博弈,该博弈一次性博弈均衡是都采用低价,是囚犯困境型博弈,Nash均衡,子博弈精炼均衡结果,可行支付向量集合,练习:画出囚犯困境问题的可行支付向量集和子博弈精练均衡结果集。,例:合谋的持久性:价格战的发生机制,考虑价格战。首先介绍伯川德(Bertrand)寡头模型,价格竞争寡头的博弈模型 前提假设:产品有一定差别,即产品之间有很强的替代性,但又不是完全替代,即价格不同时,价格较高的不会完全销不出去。,设两个厂商的需求函数分别为:,d1,d2为产品的替代系数,则它们的利润函数分别为:,从而可得它们的反应函数分别为:,解出,设贴现因子为。pi(t)表示企业i 在t期的价格,,表示企业价格,则其利润现值为:,令,:企业i 的合谋利润;,:企业i 的Bertrand竞争利润;,:企业j遵守合谋定价,企业i 违背时的利润;,则有:,(参考“囚犯困境”,相当于0-1-8),下面分析企业i 何时背离,何时合谋?,考虑企业i在 时期背离,企业j 随之进行Bertrand竞争以惩罚i ,于是企业i的最佳反应也是进行Bertrand竞争。则其利润现值为:,企业i一直合谋的利润现值为:,结论:当 时冷酷战略促使合谋得以维持。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号