微观经济学博弈论及应用ppt课件.ppt

上传人:牧羊曲112 文档编号:2048605 上传时间:2023-01-03 格式:PPT 页数:71 大小:849.50KB
返回 下载 相关 举报
微观经济学博弈论及应用ppt课件.ppt_第1页
第1页 / 共71页
微观经济学博弈论及应用ppt课件.ppt_第2页
第2页 / 共71页
微观经济学博弈论及应用ppt课件.ppt_第3页
第3页 / 共71页
微观经济学博弈论及应用ppt课件.ppt_第4页
第4页 / 共71页
微观经济学博弈论及应用ppt课件.ppt_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《微观经济学博弈论及应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《微观经济学博弈论及应用ppt课件.ppt(71页珍藏版)》请在三一办公上搜索。

1、第28章 博弈论,博弈论关注的是对策略互动的一般性分析。,第十讲 博弈论及应用,28.1 博弈的收益矩阵,对于双人的简单博弈,我们用收益矩阵来描述博弈。此处的简单博弈指参与者的策略数量有限,且只进行一次的博弈。,假设两人进行简单的博弈。参与人A有两个策略:“上”或“下”。参与人B有两个策略:“左”或“右”。当两个人同时行动后,二人的收益情况由收益矩阵反映,该矩阵A、B完全了解。,博弈的收益矩阵,当A上B左时,A得1B得2;,当A下B右时,A得1B得0。,当A下B左时,A得2B得1;,当A上B右时,A得0B得1;,那么在A、B完全了解收益矩阵的情况下,A、B如何确定自己的策略呢?,A的思路如下:

2、如果B选左,我就选下(21);如果B选右,我就选下(10)。因此,A的最优策略“下”与B的策略并没有关系,此时A的最优策略为“下”。,B做同样的思考:如果A选上,我就选左(21);如果A选下,我就选左(10)。因此,B决定采取“左”。,上述分析中,A的“下”、B的“左”被称为占优策略。,占优策略:不论对方采取什么策略,该策略总是最优的。,显然,在博弈中,参与人如果有占优策略,他一定选择占优策略。上述博弈中,A一定选择下,B一定选左。该博弈的结果一定是(2,1)。,此时,我们定义一个占优策略均衡,即双方占优策略的组合(下,左)。运用该定义可以帮助我们寻找存在占优策略博弈的结果。,28.2 纳什均

3、衡(Nash Equilibrium),如果如下表所示,参与人不存在占优策略,那么该如何预测博弈的结果呢?,A的思路如下:如果B选左,我就选上(20);如果B选右,我就选下(10)。因此,A没有占优策略。同样,B也没有占优策略。,如果参与人没有占优策略,那么我们需要借助纳什均衡的概念寻找博弈的结果。,纳什均衡(N.E.):如果给定B的选择,A的选择是最优的,并且给定A的选择,B的选择也是最优的,这样的策略组合称为纳什均衡。,寡头垄断下,古诺均衡实际上就是纳什均衡。即给定A厂商的产量,B实现了利润最大化;给定B厂商的产量,A实现了利润最大化。,在上面收益矩阵描述的博弈中,存在四个策略组合:(上,

4、左)、(上,右)、(下,左)、(下,右)。,根据N.E.的定义,请找出N.E.,借助N.E.预测博弈的结果,往往会遇到两个问题:,1、N.E.不止一个。,2、一些博弈中不存在纳什均衡。如下面收益矩阵描述的博弈:,28.3 混合策略,而现实中,参与人完全可以随机选择策略,例如参与人采取抛硬币的方法确定自己的策略硬币正面朝上就“上”,反面朝上就下。该策略实际就是以50%的概率选择上,以50的概率选择下。这种随机策略称为混合策略。,如果将策略扩展到混合策略,那么对于简单博弈而言,混合策略纳什均衡总是存在的。,迄今为止,参与人的策略均为纯策略。纯策略指参与人以100概率选择的策略。,28.4 囚徒困境

5、,本节通过一个例子说明纳什均衡并不一定会导致帕累托有效率的结果。,囚徒困境:合伙犯罪的两个囚徒被分别关在两个房间接受审讯。每个囚徒可以选择坦白,也可以选择抵赖。如果只有一人坦白,坦白者免刑,抵赖者入狱6个月;如果两人同时坦白,两人将被判入狱3个月;如果两个人都抵赖,证据不足,两人被判入狱1个月。,囚徒B:坦白也是B的占优策略。,囚徒A:如果B坦白,我最好坦白(-3-6);如果B抵赖,我最好坦白(0-1)。因此,不论B做什么,A的最优选择就是坦白。实际上,此处坦白是A的占优策略。,囚徒困境,现实中囚徒困境的例子很多,例如冷战中的美苏争霸。,当参与人具有占优策略时,博弈存在占优策略均衡,此处为(坦

6、白、坦白),博弈结果为(-3,-3)。,该结果有帕累托改进的可能,如果双方达成共识,互相信任,同时抵赖,大家的境况都可以改善。,28.5 重复博弈,上节中囚徒无法摆脱困境,很大程度上源于假定双方是一锤子买卖,如果双方今后还要合作,即双方进行的是重复博弈,那么结果可能会有所改变。,重复博弈分为有限重复博弈和无限重复博弈。,我们从最后一次博弈开始分析,第10次博弈大家将面临永远不再合作的局面,那么A、B均会毫不犹豫地选择坦白,因为这是一次囚徒博弈中的占优策略。,第9次博弈会出现什么情况呢?A清楚地知道对方最后一次肯定选择坦白。如果本次我选抵赖,对方可以选坦白而获利。既然下一次已经没有合作的可能,为

7、避免单独入狱6个月的不幸发生,A决定第9次也选择坦白。当然B也会这样推理,进而选择坦白。,有限博弈:如果囚徒博弈进行10次,那么结果会怎样呢?,第8、7.1次博弈中,第9次的故事反复发生。所以只要博弈重复有限次,囚徒依然无法摆脱困境。,如果,囚徒博弈重复无数次,结果会怎样呢?,当博弈没有最后一次时,双方均意识到无休止地坦白非明智之举。,经济学家证明:“针锋相对”的策略可以使博弈双方境况得到改善。,“针锋相对”的策略:第一局选择抵赖(即表明愿意与对方合作),从第二局开始采用对方上一局的策略。例如,如果对方第一局抵赖,那么我第二局依然抵赖;如果对方第一坦白,那么我第二局坦白。如果对方第二局抵赖,那

8、么我第三局选择抵赖,如此等等。,该策略相当灵活,既可以对对方的背信进行及时惩罚,又体现了宽恕的一面,即对每次背信仅处罚一次。,28.7 序贯博弈,迄今为止,我们考察的博弈均是两个人同时采取行动。本节我们学习一个人首先行动,然后,另一个人再作出反应。第27章描述的斯塔克伯格模型就是这样的例子。,一个序贯博弈的例子:第一阶段,参与人A选择“上”或“下”。参与人B观察到A的选择,再选择“左”或“右”,该博弈的收益矩阵如下所示:,此处介绍一种寻找纳什均衡的简便方法画线法:前者纵向比,大者下面画线;后者横向比,大者下面画线;出现两条线者即纳什均衡。,我们对收益矩阵画线,得到两个纳什均衡:(上,左)(下,

9、右),原因在于收益矩阵在描述序贯博弈时,无法体现参与双方的策略是序贯做出的,因此描述序贯博弈我们采用博弈树或博弈的扩展形式来描述。,而实际上,这两个纳什均衡中有一个是不合理。,A,B,B,1,9,1,9,0,0,2,1,博弈的扩展形式,A,B,B,1,9,1,9,0,0,2,1,序贯博弈中,先行者需要分析跟随者的反应,因此,分析博弈树是由后往前推算。,首先考虑B的选择:,如果A选“下”,,如果A选“上”,,那么B选“左”或“右”无差异;,那么B选“右”比较明智(10)。,A,1,9,2,1,经过上述分析,博弈树可变成如下形式:,然后考虑A的选择,,A,1,9,2,1,如果选“上”,得1;如果选

10、“下”,可得2。因此A的最优选择是“下”。,当先行者A选“下”,B的最优选择是“右”,因此该序贯博弈的均衡为(下,右),在该序贯博弈中,我们依据收益矩阵找到的N.E.(上,左)并不是合理的均衡,因为A选择“上”是愚蠢的。,从博弈的结果看,B非常不幸,最终他只能得到1而非9。面临巨大落差,B极有可能威胁A,声称如果A选“下”,那他就选“左”,让大家一无所获。,A对B的威胁不予理睬,因为A一旦选“下”,B就考虑自己的利益,明智地选“右”而非“左”。,针对B的威胁,A会如何反应?,B为了改善自己的境况,就必须让A相信自己的威胁。B可以跟第三方签一个合约,规定如果A选“下”,B若选“右”,B支付第三方

11、2。,2,1-2=-1,若A知道B签了类似合约,就知道如果自己选“下”,B一定选“左”(0-1),那么为避免一无所获,A就会选“上”。,本章小结,1、纳什均衡的概念及应用,2、纳什均衡应用中的问题(不唯一、不存在、无效率),3、序贯博弈求解应用逆向归纳法。,第29章 博弈论的应用,本章我们考察博弈论中4个非常重要的问题合作问题、竞争问题、共存问题和承诺问题。,首先了解一个重要的分析工具最优反应曲线(反应函数的图像)。,29.1 最优反应曲线,考虑一个双人博弈,假定你是其中的一个参与人。对另外一人的任何选择,你的最优反应就是使你的收益最大化。,B的选择:左,A的选择:上,A的最优反应:上,B的最

12、优反应:左,B的选择:右,A的最优反应:下,B的最优反应:右,A的选择:下,如果行参与人A的可能选择r1(上),r2(下),.,列参与人B的可能选择c1(左),c2(右).。对于行参与人A的每一个选择r,列参与人B的最优反应函数为:,对于行参与人B的每一个选择c,行参与人A的最优反应函数为:,在上例中,列参与人B的最优反应函数:,行参与人A的最优反应函数:,纳什均衡是使得以下两个式子成立的一个策略组合,上例中纳什均衡为(上,左)(下,右),这两个组合满足:,纳什均衡一旦实现,A、B均满意,无人愿意偏离该状态。,最优反应曲线(函数)提供了一种相对简单的求解纳什均衡的方法。,在第27章求解古诺均衡

13、时,实际就是最优反应曲线的应用:,两个厂商的反应函数如下:,联立上述反应函数,得到古诺均衡(也是纳什均衡)。,29.2 混合策略,本节利用最优反应曲线来寻求混合策略纳什均衡和纯策略纳什均衡。,我们令A选择上的概率为r,那么(1-r)就表示选下的概率。c表示B选择左的概率,那么(1-c)就表示选右的概率。当r为0时,表示A选下;c为0时,表示B选右。,参与人面临的是不确定下的选择,因此我们利用期望效用最大化分析双方的选择。,A的期望收益2rc+(1-r)(1-c)=3rc-r-c+1,A的边际期望收益(MR=dR/dr)3c-1,c1/3,MR0,提高r可以使收益增大,r最大为1。,根据以上特点

14、可以画出A的最优反应曲线:,1/3,0,1,A的最优反应曲线,A的边际期望收益(MR=dR/dr)3c-1,c=1/3,MR=0,期望收益达到最大值,r为0,1任意值;,c1/3,MR0,降低r可以使收益增大,r最小为0;,1,B的期望收益1rc+2(1-r)(1-c)=3rc-2r-2c+2,B的边际期望收益(MR=dR/dc)3r-2,根据以上特点可以画出B的最优反应曲线:,1,0,2/3,B的最优反应曲线,B的边际期望收益(MR=dR/dc)3r-2,r=2/3,MR=0,期望收益达到最大值,c为0,1任意值;,r2/3,MR0,降低c可以使收益增大,c最小为0;,r1/3,MR0,提高

15、c可以使收益增大,c最大为1。,将A、B的最优反应曲线放在一个象限中:,三个交点分别对应两个纯策略纳什均衡(下,右)、(上,左)和一个混合策略纳什均衡(A以2/3的概率选上,B以1/3的概率选左)。,两条最优曲线有三个交点:(0,0),(1,1),(2/3,1/3),29.3 合作博弈,本节利用上节介绍的分析工具考察协调博弈。在该类博弈中,当参与人能够协调他们之间的策略时,他们的收益就会实现最大化。,性别战,男女约会看电影,男喜欢动作片,女喜欢文艺片,但他们宁愿看一部电影也不愿单独行动。他们的收益矩阵如下:,我们已经知道,该博弈有三个纳什均衡:(动作片,动作片)、(文艺片,文艺片)、(男孩以2

16、/3的概率选动作片,女孩以1/3的概率选动作片),这取决于有关该博弈的正式描述以外的因素,例如男孩事先已经买好了动作片的票,于是一起看动作片将是最终的选择。,当参与人完全有理由相信,其中的一个均衡相对于其他均衡更为“自然”时,这个均衡称作博弈的聚点。例如,动作片的主演是成龙,上述博弈的结果很有可能是大家不约而同的一起看动作片。,三个纳什均衡到底哪个会发生呢?,囚徒困境,囚徒困境也是一个协调博弈,双方如果可以协调一致,共同抵赖,双方的境况均有明显改观。问题是大家在一次博弈中不会相互合作。,1、无限重复博弈2、缔结合约惩罚不合作的 行为,解决问题的方式有两种:,保证博弈,考虑20世纪50年代美苏的

17、军事竞赛。两个国家都可以选择生产核弹,也可以选择不生产。双方都不生产的收益(4,4);都生产的收益(2,2);一方生产时,生产者得3,不生产者得1。收益矩阵如下:,画线法可知这里有两个纯策略纳什均衡:(不生产,不生产)、(生产,生产),如果一方保证不生产,并给予充分的证据说明确实没有生产的话,可以确信另一方也会停止生产。例如美国保证不生产,那么苏联也会选不生产(43);如果苏联保证不生产,那么美国也会选不生产(32)。,显然(不生产,不生产)对双方均是较好的选择。问题是任何一方均不知道对方的实际选择。,斗鸡博弈,两个年轻人分别从一条街的两头,驾车驶向对方。先躲避的颜面尽失;如果没人躲避,双方车

18、毁人亡,收益矩阵如下:,画线法可知这里有两个纯策略纳什均衡:(A不转向,B转向),(A转向,B不转向)。,问题是哪个纯策略纳什均衡会发生呢?,如果A事先将方向盘锁住,并且让B知道,那么B很可能就选择转向了,毕竟车毁人亡太疯狂了。,如何协调,通过以上的分析,在保证博弈、性别战和斗鸡博弈中某参与人可以事先采取行动,并承诺选择某个策略来实现合作共赢。,囚徒困境中的参与人如果想达成合作,除了事先做出承诺外,关键在于对双方行动的制约,例如签定惩罚合约。,29.4 竞争博弈,与协调相对应的是竞争博弈,也称为零和博弈,即在博弈中,一方的收益即另一方的损失。,实际上,大多数竞技体育项目都是零和博弈。我们通过足

19、球比赛中的罚点球来分析零和博弈。行参与人罚点球,列参与人守门。行参与人可以踢向球门的左方或右方,守门员可能扑向左方或右方。,A踢向左方,B扑向右方,进球概率为80,B扑向左方,进球概率为50;A踢向右方,B扑向左方,进球概率为90,B扑向右方,进球概率为20。收益矩阵如下:,每一方格中的总收益为0,这显示参与人的得分完全相反。,在该博弈中,如果守门员能够知道罚球者的踢球方向,进球的概率大大降低。罚球者为使守门员猜不透自己的意图,很可能有时踢向擅长的一方,有时踢向不擅长的一方,即采取混合策略。,如果罚球者选择踢向左方的概率为p,那么B扑向左方时,A的期望收益=50p+90(1-p)=90-40p

20、;当B扑向右方时,A的期望收益=80p+20(1-p)=20+60p。,当B扑向左方时,A的期望收益500.5900.570当B扑向右方时,A的期望收益800.5200.550,以上推理过程守门员一清二楚,如果罚球者踢向左方的概率为0.5,那守门员会毫不犹豫地扑向右方,因为这样罚球者的期望收益最小。,举例来说,假定罚球者踢向左方的概率为0.5。,罚球者A该如何确定自己的策略呢?,罚球者知道,守门员总是试图最小化他的期望收益。守门员扑向左还是右,取决于罚球者的选择(踢向左的概率p)。,给定p,如果90-40p20+60p(即罚球者在守门员扑向左时期望收益较大),那么守门员一定扑向右,结果罚球者期

21、望收益为20+60p。否则,罚球者期望收益为90-40p。,红色折线即罚球者的期望收益线。,显然,红色线段的最高点位于两条直线的交点处。,50p+90(1-p)=80p+20(1-p),解得p=0.7,当罚球者以70的概率踢向左方时,此时的期望收益=50*0.7+90*0.3=62。,守门员B该如何确定扑向左的概率q?,当A踢向左时,A的期望收益50q+80(1-q)=80-30q;,当A踢向右时,A的期望收益90q+20(1-q)=20+70q。,给定q,如果80-30q20+70p(即罚球者踢向左时期望收益较大),那么A一定踢向左,结果罚球者期望收益为80-30q。否则,罚球者期望收益为2

22、0+70q。,显然,下式成立时蓝色线段达到最低点。,50q+80(1-q)=90q+20(1-q),解得q=0.6。,至此,我们已经计算出了均衡策略组合:(0.7、0.6),即:(罚球者以0.7的概率踢向左方,守门员以0.6的概率扑向左方),守门员通过选择q使罚球者的期望收益最小(自己的期望收益最大),反应曲线法求均衡,守门员扑向左方的收益p(-50)+(1-p)(-90)=40p-90-62;守门员扑向右方的收益p(-80)+(1-p)(-20)=-20-60p-62,守门员的最优反应q=0,1,当罚球者踢向左方的概率p0.7时,,守门员的最优反应q=1(扑向左)。,同理,当罚球者踢向左方的

23、概率p0.7时,守门员的最优反应q=0(扑向右)。,当罚球者踢向左方的概率p0.7时,,守门员扑向左方的收益p(-50)+(1-p)(-90)=40p-90-62;,守门员扑向右方的收益p(-80)+(1-p)(-20)=-20-60p-62;,0.7,守门员的最优反应曲线,P0.7 q=1,综上:,1,罚球者的最优反应曲线,q0.6 p=0q=0.6 p=0,1q0.6 p=1,类似地:,将两条最优反应曲线放在一起:,守门员的最优反应曲线,29.5 共存博弈,博弈论可以用来解释动物进化行为。有关动物互动的一个著名例子是鹰鸽博弈。,考虑两只豺狗同时遇到一块食物,它们决定是争斗还是分享食物。这个

24、博弈的收益矩阵如下:,画线法确定纯策略纳什均衡。,此处的混合纳什均衡需要确定是鸽派与鹰派在豺狗中的稳定比例。假定鹰派的比例为p,鸽派的比例为(1-p)。,该博弈还存在混合策略纳什均衡,鹰派的期望收益H-2p+4(1-p),鸽派的期望收益D0p+2(1-p)=2(1-p),假定具有较高收益的类型繁殖速度更快,并且它会将其采取的策略遗传下去。那么,当HD时,鹰派越来越多;当HD时,鸽派越来越多。,种群处于均衡状态的唯一途径就是H=D。,H=-2p+4(1-p)=2(1-p)=D,p=1/2,均衡的稳定性讨论,P0.5,HD,鹰派减少,p下降。,PD,鹰派增加,p上升;,鹰鸽各占一半是进化的结果,相

25、当稳定。,29.6 承诺博弈,本节我们转向序贯博弈。此类博弈的一个重要策略问题是承诺,例如斗鸡博弈中,如果一人能够强迫自己直线驾驶,那么另一人的最优选择就是转向。,注意:承诺要取得预期效果,不可撤销性和可观察性是至关重要的。,青蛙,蝎子,-10,5,5,3,0,0,序贯博弈从后往前分析。该博弈树显示,一旦青蛙背上蝎子,蝎子必蛰。所以青蛙的明智选择是不背。但如果青蛙错误估计形式,低估了蝎子蛰性难改的本能,可能就会犯下致命错误。,青蛙和蝎子,青蛙与蝎子一起站在河岸上,青蛙先选择背或不背蝎子,蝎子再选择蛰或不蛰青蛙。具体收益情况由下面的博弈树描述。,为避免灾难发生,青蛙可事先做出承诺,表明已经雇佣“

26、职业杀手”,自己若遭意外,将实行猛烈报复。,善意的绑匪,假定绑匪绑架了一名人质,但发现他们得不到任何赎金,那么他们就面临释放或杀害人质的选择,如果他们释放人质,人质就存在是否揭露绑匪身份的选择。该博弈的具体收益如下所示:,绑匪,人质,-5,5,5,3,从博弈树看,人质若被释放,一定揭露绑匪(53),绑匪清楚人质的选择,那么绑匪的最优选择就是杀掉人质(-3-5)。,-3,-10,显然,如果绑匪杀掉人质,这对人质而言是最糟结果。人质有没有改变自己命运的策略呢?,托马斯.谢林建议人质可以做出这样的承诺,让绑匪拍一些不雅照片,如果人质揭露绑匪,绑匪可以曝光这些照片。绑匪拿到这些照片,可能就会释放人质,

27、因为这些照片降低了人质揭露绑匪的收益。,智猪博弈,一些心理学家考察过这样的情形:一个猪圈里有两头猪,一只大猪(支配猪),一只小猪(从属猪)。猪圈的一头有一个控制杆,通过它可以将食物释放到猪圈另一头的食槽内。,食槽,控制杆,心理学家感兴趣的是,哪只猪将去按控制杆,哪只猪坐享其成?,实验结果表明,大猪按控制杆,小猪等待进食。小猪会吃掉大部分食物,而大猪以最大可能的速度奔向食槽,却只能吃到一小部分食物。,大小猪面临的收益矩阵:,小猪通过分析收益矩阵发现:大猪不按控制杆时,自己按与不按无差异;大猪按控制杆时,自己最好不按(42)。因此,小猪绝不会按控制杆。,大猪通过对收益矩阵的分析,清楚地知道小猪一定不按,那么大猪的最优选择就是按(10)。,大猪如果想改变自己总是劳动的局面,可以承诺如果小猪按控制杆,他可以等小猪赶到食槽后一起吃,也许会使自己的境况得到改善。,本章小结,1、反应曲线相交即得纳什均衡(混合策略、纯策略),2、掌握混合策略纳什均衡的求解方法(期望收益最大化或反应曲线相交),

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号