《研究生教学讲稿博弈论与信息经济学3年9月0日ppt2.ppt》由会员分享,可在线阅读,更多相关《研究生教学讲稿博弈论与信息经济学3年9月0日ppt2.ppt(329页珍藏版)》请在三一办公上搜索。
1、博弈论,2,智猪博弈假设猪圈里有一大一小两只猪,猪圈的一头有一个猪食槽,另一头有一个控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽。若小猪去按,大猪先吃,大猪可吃到9个单位,小猪吃到1个单位;若大猪去按,小猪先吃,小猪可吃到4个单位,大猪吃到6个单位;若同时去按,大猪可吃到7个单位,小猪吃到3个单位。,3,策略均衡(按,等),在这种情况下,不论大猪采取何种策略,小猪的最佳策略是等待,即在食槽边等待大猪去按钮,然后坐享其成。而由于小猪总是会选择等待,大猪无奈之下只好去按钮,这就是社会中搭便车现象。,4,智猪博弈现象(搭便车现象)在日常生活中也是司空见惯的。爱清洁的人经常打扫公共楼道,其他
2、人搭便车;山村中出外跑运输、做生意的人掏钱修路,其他村民走修好的路;等等。,5,甲 前进 后退 前进(-2,-2)(1,-1)后退(-1,1)(-1,-1),乙,斗鸡博弈,两只鸡面对面争斗,继续斗下去,两败俱伤,一方退却便意味着认输。在这样的博弈中,要想取胜,就要在气势上压倒对方,至少要显示出破釜沉舟、背水一战的决心来,以迫使对方退却。但到最后的关键时刻,必有一方要退下来,除非真正抱定鱼死网破的决心。,该种博弈中,坚定不可与退却往往是一种可选择的策略运用。如在企业经营方面,在市场容量有限的条件下,一家企业投资了某一项目,另一家企业便会放弃该项目。,6,第一章、博弈论基本概念与发展历史,1 博弈
3、论定义,博 弈,下棋,商家与商家,商家与消费者,上级和下级,讨价还价,本义:对弈,经济学中的含义:所有的互动情形,7,博 弈:一些个人、团队或其他组织,依据所掌握的信息,在一定的规则约束下,同时或先后,一次或多次从各自允许选择的行为或战略进行选择并加以实施,并从中各自取得相应结果或收益的过程。,博弈论:研究决策主体的行为及其相互决策和均衡问题的学科。,博弈是一种极为普通的现象。在经济学中,博弈论是研究经济主体的决策相互影响。,8,博弈六大要素,规则:规定博弈各方的行动顺序、方式、以及最终的结果等。局中人(Player,选手,玩家):博弈参与人战略:一整套的行动方案,规定了各种情况下的行动。人不
4、犯我,我不犯人;人若犯我,我必犯人。行动:局中人行为信息:在行动时所掌握的信息。报酬(payoffs,支付):博弈结束时,各方得到的收益。,9,一个例子,两个OPEC成员国:沙特 与 科威特每个国家都有两种行动:增产 或 保持产量,行动,结果和报酬,科威特,(6,6),(7,4),(4,7),(5,5),两国如何决策呢?,结果:双方都增产,10,合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能达成个具有约束力的协议。如果有,就是合作博弈;反之则是非合作博弈。例如两个寡头企业,如果它们之间达成一个协议,联合最大化垄断利润并按这个协议生产,就是合作博弈。协议没有约束力,两个寡头
5、企业各自优化其最优产量(或价格),则成为非合作博弈。用非合作博弈研究问题的较多、近几年合作博弈研究呈现上升态势。,1)非合作博弈和合作博弈。,博弈分类,11,)双人博弈和多人博弈,3)零和博弈、常和博弈与变和博弈 零和博弈:是指在博弈中,一方的得益就是另一方的损失,所有博弈方的得益总和为零。(赌博)常和博弈:是指所有博弈方的得益总和为非零的常数。(分蛋糕,体育比赛等)变和博弈:也称非常和博弈,它意味着不同的策略组合或结果下各博弈方的得益之和一般是不相同的。,12,4)静态博弈和动态博弈静态博弈:是指所有博弈方同时或可看作同时选择策略、采取行动的博弈。动态博弈:是指博弈方的选择、行动有先有后,而
6、且后选择、后行动的博弈方在自己进行选择、行动之前可以看到在他之前选择、行动的博弈方的选择、行动的博弈。,13,)完全信息博弈和不完全信息博弈完全信息博弈:是指每一参与者都拥有所有其他参与者的特征、策略集及得益函数等方面的准确信息的博弈。不完全信息博弈:是指参与者只了解上述信息中的一部分的博弈。,14,将博弈的信息特征和行为时间特征结合起来,可以把博弈细分为下面四种类型的非合作博弈:,15,古诺(Cournot,1838,法国经济学家)模型(同时决策的产量博弈),斯坦克尔伯格(1934,Stackelberg,德国经济学家)(不同时决策的产量博弈),冯诺依曼和摩根斯特恩合著博弈论与经济行为(19
7、44年),纳什均衡(完全信息静态)(1950,1951),精练纳什均衡(完全信息动态)(泽尔腾,1965),贝叶斯纳什均衡(不完全信息静态,海萨尼,1967)与贝叶斯精练纳什均衡(不完全信息动态,海萨尼,1975),纳什,泽尔腾和海萨尼共同获得诺贝尔经济学奖(1994),维克里和莫里斯获诺贝尔经济学奖(1996),博弈模型的解的概念和分析方法,理论基础,主要合作博弈,非合作零和博弈,论文“N人博弈中的均衡”点(50年),“非合作博弈”(51年),提出了非合作博弈均衡解,并证明了均衡解的存在,纳什均衡基本思想:在解集中所有博弈者的策略都是对其他博弈者所用策赂的最佳对策,1965年论文一个具有需求
8、惯性的寡头博弈模型,德国波恩大学教授,数学家、经济学家,美国加州大学教授,经济学家,不对称信息下激励理论,、博弈论产生与发展,1994年到2007年先后13位博弈论和信息经济学专家获得了诺贝尔经济学奖,16,4 博弈论在经济学中重要地位,1)博弈论在经济学中的应用越来越广泛.博弈论许多成果也是借助于经济学的例子来发展的,相比其他领域来说,在经济领域应用最为成功的,已经形成了一套完整的经济博弈理论,并且发挥了巨大经济效益。,2)经济学和博弈论的研究模式是一样的,这就是强调个人理性也就是在给定的约束条件追求效用最大化。在这一点上,博弈论与经济学是完全一样的,使得博弈论分析方法在经济分析中发挥着重要
9、作用。,3)现代经济学越来越转向人与人关系的研究,特别是人与人之间行为的相互影响和作用,这与博弈论研究内容相一致,所以,随着现代经济学的发展,博弈论显得更加重要。,17,4)经济学越来越重视对信息的研究,特别是信息不对称对个人选择及制度安排的影响。而博弈论不完全信息博弈模型正是解决这类问题的有效工具。如信息经济学是博弈论应用非对称信息经济领域的结果,所以信息经济学也被称为非对称信息博弈论。,9.9,管科,18,5)博弈论和信息经济学专家获得了诺贝尔经济学奖,凸现了“博弈论”在主流经济学中日益重要的地位。1994年,诺贝尔经济学奖由纳什、泽尔滕、海萨尼获得,1996年,诺贝尔经济学奖由莫里斯和维
10、克瑞获得(不对称信息下的激励理论),2001年,阿克洛夫,斯宾塞和斯蒂格利茨获得诺贝尔经济学奖(不对称信息下市场交易理论).2005年,诺贝尔经济学奖由罗伯特奥曼和托马斯谢林获得(通过博弈论分析冲突和合作)”.表彰他们“因通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献,2007年,诺贝尔经济学奖由赫维茨,马斯金,迈尔森获得(机制理论设计).从1994年到2007年先后有13位博弈论和信息经济学专家获得了诺贝尔经济学奖,在诺贝尔经济学奖的历史上,在这么短的时期把这一科学研究最高荣誉授予同一领域,研属罕见.,19,囚徒困境是两个嫌疑犯作案后被警察抓住,分别被关在不同房间审讯。警察告诉他们
11、:如果两人都坦白,各判刑8年;如果两个都抵赖,各判1年(因证据不足);如果其中一人坦白另人抵赖,坦白者放出去,不坦白的判刑10年(这有点“坦白从宽、抗拒从严”的味道)。博弈支付见表:,(1)囚徒困境,5.博弈论几个典型实例,20,在这个例子里,战略组合有四个:(坦白,坦白),(坦白,抵赖),(抵赖,坦白),(抵赖,抵赖)。给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白。各方最优战略的组合是(坦白、坦白)。,囚徒A,囚徒B,-1,-1,-10,0,0,-10,-8,-8,坦白,抵赖,坦白,抵赖,从博弈中两个利益主体出发选择行为,结果是既没有实现两人总体的最
12、大利益,也没有真正实现自身的个体最大利益,这就是所谓的囚徒困境。在经济领域中经常出现类似问题,如寡头竞争、公共产品的供给等等。,21,微观经济学的基本观点之一是在人人追求自身利益最大化的基础上,市场机制这只“看不见的手”,可以使得全社会资源达到最优配置。囚徒困境对此提出了新的挑战。,囚徒困境揭示了个体理性与集体理性之间的矛盾(从个体利益出发的行为最终也不一定能真正实现个体的最大利益,甚至会得到相当差的结果)。,22,(2)寡头竞价模型,在市场竞争中寡头之间通过竞价,尤其是通过降价争夺市场是市场竞争中十分普通的行为。但削价竞争并不一定是成功的策略,因为一个寡头的降价往往会引起竞争对手的报复,此时
13、降价不仅不能扩大销量,而且还可能会降低利润。下面我们用一个双寡头两种价格的价格竞争模型来说明上述现象。,23,假设两寡头采取原来的“高价”策略,各可获得80万元的利润;如果某个寡头单独降价,它可获得130万元利润,另一寡头由于市场份额缩小,利润下降到20万元;如果另一寡头也跟着降价,则两寡头都只能得到60万元利润。,设寡头1和寡头2是双寡头市场上的两个寡头,它们共同用相同的价格销售相同的产品。现在假设这两个寡头不满足它们各自的市场份额和利润,都想通过降价来争夺更大的市场份额和更多的利润。,24,博弈结果是双方都会坚持采用“低价”策略,各自得到60万元的利润。各得80万元利润的结果是无法实现的。
14、,因此这种双寡头竞价博弈也是一种囚徒困境式的博弈关系。,25,(3)田忌赛马,“田忌赛马“是我国古代一个非常有名的故事,讲的是发生在齐威王与大将田忌之间的赛马的故事。这个故事讲的其实是一个很典型的博弈问题。,双方各出上,中,下等三匹马,一对一比赛三场,每一场的输方要赔一百匹马给赢方。,齐威王的上、中、下三匹马分别比田忌的上、中、下三匹马略胜一筹,如果同等次的马进行比赛,田忌输三场,输三百匹马。,26,1)不能让对方知道或猜中自己的策略,从而导致自己输掉比赛。这也意味着任何一方的策略选择不能一成不变或者不能有规律性地变动,即必须以随机的方式选其策略,否则一旦对方捕捉到这种规律性的变动,就可以针对
15、性地采取应对策略。,该博弈的特点,27,2)六种策略之间没有优劣之分,只能随机选择。对齐威王来说,每一种策略都可能有六种不同的结果,究竞最终得哪种结果,主要看对方策略与自己策略的对应状况,而不是己方的策略本身。同样的,对田忌来讲六种策略本身也无好坏之分。因此,两博弈方在决策时对己方的可选策略并无偏好,应以相同的概率选用。,1-1234,28,各方最优战略的组合是(坦白、坦白),这就是一种均衡。,第二章 完全信息静态博弈,完全信息静态博弈:各博弈方同时决策,且博弈要素为共同知识.,均衡:由最优战略构成的战略组合,即相对稳定的状态,记为,1.基本概念:,29,均衡结果:在均衡战略下参与人博弈后行动
16、的组合。记为,囚徒A的最优战略是:坦白,均衡结果是:,(坦白 坦白),30,2.完全信息静态博弈的分析基础,参与人 理性:参与人选择最大化自身支付的战略。完全信息静态博弈的分析基础(1)参与人是理性的:与传统决策理论是一致的,但也有一些不同,博弈论中所有决策变量相互依赖,而其他理论决策变量是单向 依赖(2)博弈结构,支付和参与人理性是共同知识,如囚徒困境,一旦违反如上假定,均衡结果无法确定,31,2 占优均衡,占优战略:无论其他参与人选择什么战略,参与人 的某一战略均是最优的,该战略称占优战略。数学表达如下:,占优战略均衡:由占优战略构成的战略组合。,囚徒困境中(坦白、坦白)就是占优战略均衡,
17、9.11,32,说明:1)稳定性非常高,2)无须知道其他人支付信息.3)占优均衡不一定达到帕累托最优.,现实中可能不存在这种均衡,是否存在其他均衡呢?,33,例3 博弈支付如下:,1)不存在占优均衡:上述博弈中 K是参与人2的占优战略,但参与人1不存在占优战略。2)但存在另外一种合理的均衡(R,K):可以通过重复剔除劣战略得到。首先,对于参与人1,M是劣战略,将其剔除。在剔除后的战略中,L是参与1的劣战略,又将其剔除,最后剩下的战略组合(R,K)是重复剔除劣战略的占优均衡,R和K分别是参与人1和参与人2的重复剔除劣战略的占优战略。,3 重复剔除占优均衡,34,思路:首先找到某个参与人的劣战略(
18、假定存在),把这个劣战略剔除掉,重新构造一个不包含已剔除战略的新的博弈,然后再剔除这个新的博弈中的某个参与人的劣战略,一直重复这个过程,直到只剩下唯一的战略组合为止。这个唯一剩下的战略组合就是这个博弈的均衡解,称为“重复剔除劣战略的占优均衡”。,说明:1)需知道其他人支付信息.2)如果重复剔除后的战略组合不唯一,该博弈就不是重复剔除占优可解的。,35,经过重复剔除劣战略后得到(R,N)。,36,经过重复剔除劣战略后剩余的战略组合不唯一,所以不存在重复剔除劣战略占优均衡.,37,由于占优均衡一定是重复剔除劣战略后唯一组合,所以占优均衡一定是重复剔除劣战略占优均衡,但反之不成立.,占优均衡与重复剔
19、除劣战略占优均衡有何关系?,所以重复剔除劣战略占优均衡比占优均衡要求低,稳定性更弱.但现实中重复剔除劣战略占优均衡也可能不存在,是否还可能有其他均衡呢?,38,上述博弈不存在占优均衡和重复剔除劣战略的占优均衡。下面考察战略组合(L,K)。给定参与人2选择K,L是参与人1的最优战略。反个来,给定参与人1选择L,K是参与人选择的最优战略。(L,K)是博弈双方不愿意偏离的战略,即达到相对稳定。该战略组合也是一种合理均衡。这正是后面所要讲的纳什均衡.,39,4 纳什均衡,(L,K)是纳什均衡.,纳什均衡的含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你的最好的策略。即双方在给
20、定的策略下不愿意调整自己的策略。,40,纳什均衡数学表述:任何参与人都不愿意偏离的战略组合,即对于一个战略组合,若,纳什均衡是各博弈方都不愿意单独改变的战略的组合。,41,纳什均衡有两个,42,由于重复剔除劣战略均衡将劣战略都删除了,剩余的战略不可能是劣战略(相对于对方的剩余战略),最后相对于剩余的战略都是最优的,所以重复剔除劣战略均衡一定是纳什均衡.,重复剔除劣战略的占优均衡与纳什均衡有何关系?,43,纳什均衡求解方法:划线法,划线法的基本思路是:(1)针对对方(参与人B)所给的战略,找出一个参与人A的最优战略,并在对应的支付上划一横线,(2)针对参与人A所给的战略,找出一个参与人B的最优战
21、略,并在对应的支付上划一横线,(3)支付均划有横线所对应的战略组合即为纳什均衡。,44,例 市场进入博弈,有一个垄断者巳在市场上(称为在位者);另个企业想进入(称为进入者)。进入者有两个战略可以选择:进入和不进入;在位者也有两个可选择的战略:默许(共享寡头利润)和斗争(假设采取成本价销售,即低价战略)。假定进入之前的垄断利润为300,进入之后寡头利润为100(各得50),进入成本为10。各种战略组合的支付矩阵如下:,由划线法可得两个纳什均衡:(进入,默许)和(不进入,斗争)。,45,6 纳什均衡的应用,例 1 古诺寡头竞争模型(Cournot,1838),有两个参与人,分别称为企业1和企业2,
22、每个企业的战略是选择产量;支付是利润,是两个企业产量的函数。,46,找出纳什均衡的个办法是对每个企业的利润函数求一阶导数并令其等于零:,47,上述两个方程分别定义了两个反应函数:,48,为了得到更具体的结果,我们来考虑上述模型的简单情况。,假设成本函数为,需求函数为,两个一阶条件方程为,49,反应函数为:,联立解两个反应函数得纳什均衡为:,50,每个企业的纳什均衡利润为,为了与垄断情况作比较,让我们计算一下垄断企业的最优产量和均衡利润。垄断企业的问题是:,51,由一阶条件得企业的最优产量为,企业的垄断利润为,寡头竞争的总产量大于垄断产量的原因是在于每个企业在选择自己的最优产量时,只考虑对本企业
23、利润的影响,而忽视对另 一个企业的外部负效应。这是典型的囚徒困境。,52,假定企业没有生产能力的限制。如果企业的生产能力是有限的,它就无法供应整个市场,价格也不会降到边际成本的水平上。假定企业生产的产品是完全替代品。如果企业生产的产品不完全相同,就可以避免直接的价格竞争。,例2 豪泰林(Hotelling)价格竞争模型,“伯川兰德悖论”(Bertrand Paredox):,对于完全可以替代的产品,即使只有两个企业,在均衡情况下,价格等于边际成本,企业的利润为零,与完全竞争市场均衡一样。,伯川德模型存在以下两方面的问题:,53,空间上的差异,即经典的豪泰林(hotelling)模型.,产品在物
24、质性能上是相同的,但在空间位置上有差异。因为不同位置上的消费者要支付不同的运输成本。,解决办法之一是引入产品的差异性。,54,假定:1.有一个长度为1的线性城市,消费者均匀地分布在0,1区间里,分布密度为1。2.有两个商店分别位于城市的两端,商店在x=0,商店2住xl,出售物质性能相同的产品。3.每个商店提供单位产品的成本为 c,4.消费者购买商品的旅行成本与离商店的距离成比例,单位距离的成本为t。这样,住在x的消费者如果在商店1采购,要花费 t x 的旅行成本;如果在商店2采购,要花费 t(1一x)。假定消费者具有单位需求,即消费1个单位。,55,令 为商店i的价格,为需求函数。如果住在x的
25、消费者在两个商店之间是无差异的那么,所有住在x左边的将都在商店1购买,而住在x右边的将在商店2购买,需求分别为,满足,56,利润函数为:,57,解上述方程组得(纳什么均衡):,各企业的利润为(均衡利润):,58,结论1:由于两个企业的产品在空间位置存在差异,即旅行成本的差异。旅行成本越大,产品差异就越大,均衡利润也就越高。结论2:当旅行成本为零时,不同商店的产品之间具有完全的替代性,没有任何一个商店可以把价格定得高于成本,我们得到伯川德均衡结果。,59,需求函数分别为:,更为一般地,我们可以讨论商店位于任何位置的情况。假定商店1位于a,商店2位于b,纳什均衡为:,60,当,即为第一种情况:,当
26、,两个商店位于同一个位置x。此时,伯川兰德均衡是唯一的均衡:,61,例3 公共地的悲剧,这个例子证明,如果一种资源没有排他性的所有权,就会导致对这种资源的过度使用,考虑一个有n个农民的村庄共同拥有一片草地,每个农民都有在草地上放牧的自由。每年春天,每个农民要决定自己养多少只羊。,代表n个农民饲养的总数量;,.用,代表第i个农民饲养的数量,,62,3.v代表每只羊的平均价值。,当,v是G的函数,,假设:,最大可存活,的数量:,当,假定:,每只羊的价值随饲养总数量的增加而下降,63,在这个博弈里,每个农民的问题是选择,以最大化自己的利润。假定购买一只小羊羔的价格为c,那么,利润函数为:,最优化的一
27、阶条件是:,64,因为,所以,即第i个农民的最优饲养量随其它农民的饲养量的增加递减,65,N个反应函数的交叉点就纳什均衡:,纳什均衡的总饲养量为,将n个一阶条件相加,得到:,-,9.23,66,社会最优的目标是最大化如下定义的社会总剩余价值:,最优化的一阶条件为:,比较社会最优的一阶条件与个人最优的一阶条件可以看到:,这就是公共地的悲剧。,68,不合作情形,合作情形,69,例1 每一参与人拿有一枚硬币并必须选择是出正面向上还是反面向上。若两枚硬币是一致的(即全部正面向上或全部反面向上),则参与人2赢走参与人1的硬币;如果两枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付如下:,在许多
28、博弈模型中可能不存在纳什均衡,如下例。,7 混合战略纳什均衡,由划线法可知,该博弈不存在纳什均衡。所以采取纯战略(即确定性选择战略)不存在稳定的纳什均衡解。,70,在足球比赛中罚点球的时候,守门员和罚球者也构成一个博弈。假设罚球者罚球时可以选择三个方向;左中右;守门员也可选择左中右三个方向扑球。,罚球者,守门员,1,-1,1,-1,1,-1,-1,1,左 中 右,左中右,1,-1,-1,1,-1,1,1,-1,1,-1,71,上述博弈的特征是:)不存在纯战略纳什均衡。2)每个参与者都试图想猜中对方的战略,同时让自己的战略不被人猜测到,所以各方将随机选择其战略(正面或反面)。即战略选择包含一定的
29、不确定性。,72,没有前面所说的纳什均衡,是否就没有均衡状态呢?,上述例子可以看出,双方可以采取1/2概率和1/2概率出正反面战略,这种战略组合构成一种均衡。,73,下面引入混合战略的概念。,纯战略是混合战略的特殊情况,如混合战略(1,0)就是纯战略正面。,由猜硬币博弈,每个参与人有两个纯战略(正面与反面)。为了避免对方猜中自己的战略,参与人1采取如下随机选择战略:以 的概率和 的概率分别选择正面和反面;参与人2以 的概率和 的概率分别选择正面和反面。纯战略的概率分布就是各方的混合战略,参与人1与参与人2的混合战略分别为,74,混合战略定义:假设参与人 i 有纯战略Si 1,Si 2,Si K
30、,其相应的概率为,则称 为参与人 i 的混合战略,记为,如上例,参与人1的混合战略为=(q,1-q)(分别以概率q和1-q选择正面和反面),参与人2的混合战略为=(r,1-r)(分别以概率r和1-r选择正面和反面)。,75,E1(正面)=(-1)*r+1*(1-r)=1-2 r,参与人1的选取反面的期望效用为,E1(反面)=1*r+(-1)*(1-r)=2 r-1,参与人1的期望效用为,E1=E1(正面)*q+E1(反面)*(1-q)=(1-2 r)(2 q-1),当给定参与人2选择混合战略=(r,1-r)时,参与人1的选取正面的期望效用为,76,类似地,得到参与人2的期望效用为,E2=(1-
31、2 q)(2 r-1),参与人1和参与人2的期望效用分别为,E1=(1-2 r)(2 q-1),E2=(1-2 q)(2 r-1),由一阶条件:,77,由分析结果可以看出,参与人选择的混合战略均使对方选择纯战略的期望效用相等,促使各方均采取严格混合战略。所以求解混合战略纳什均衡也可以采取如下方法:求出参与人的每个纯战略的期望效用,令其相等即可得到混合战略纳什均衡。,如上例,参与人1的选取正面的期望效用为,E1(正面)=(-1)*r+1*(1-r)=1-2 r,参与人1的选取反面的期望效用为,E1(反面)=1*r+(-1)*(1-r)=2 r-1,令纯战略期望效用相等:,得,类似地,令参与人2的
32、纯战略期望效用相等得:,78,求混合战略纳什均衡方法:1)反应函数联立求解法:求出每1个参与人的反应函数,然后联立求解2)期望效用等值法:令选择纯战略的期望效用相等,然后联立求解,79,下面我们用反应函数联立求解法求“性别之争”纳什均衡。设妻子的混合战略为(r,1r),丈夫的混合战略为(q,1q).,妻子选择芭蕾的收益:2-2q,妻子选择足球的收益:q,妻子的反应函数为:,80,丈夫的反应函数为:,丈夫选择足球的收益:2r,丈夫选择芭蕾的收益:1-r,81,妻子的反应函数为:,丈夫的反应函数为:,82,交点为两个纯战略纳什均衡:(足球,足球),(芭蕾,芭蕾)和一个混合战略纳什均衡:男的以2/3
33、的概率选择足球赛,1/3的概率选择芭蕾舞;女的以1/3的概率选择足球赛,2/3的概率选择芭蕾舞。,83,下面用期望效用等值法求求“性别之争”纳什均衡,设妻子的混合战略为(r,1-r),丈夫的混合战略为(q,1-q).,男选取正面的期望效用为,E1(正面)=2*r+0*(1-r)=2 r,男选取反面的期望效用为,E1(反面)=0*r+1*(1-r)=1-r,令纯战略期望效用相等:,类似得:,混合战略纳什均衡:男的以2/3的概率选择足球赛,1/3的概率选择芭蕾舞;女的以1/3的概率选择足球赛,2/3的概率选择芭蕾舞。,84,1)反应函数联立求解法:优点:可以求出所有纳什均衡,缺点:计算相对复杂一些
34、2)期望效用等值法:优点:只能求混合战略纳什均衡,缺点:计算相对简单,85,例1 监督博弈,它概括了诸如税收检查、质量检查、惩治犯罪、雇主监督雇员等这样一些情况。这里,我们以税收检查为例。这个博弈的参与人包括税收机关和纳税人。税收机关的纯战略选择是检查或不检查,纳税人的纯战略选择是逃税或不逃税。相应的支付如下:,税收机关,纳税人,检查,不检查,不逃税,逃税,其中,a是应纳税款,C是检查成本,F是罚款。假定是Ca十F。在这个假设下,不存在纯战略纳什均衡。让我们来求解混合战略纳什均衡。,86,给定,纳税人选择逃税和和不逃税的期望收益分别为:,令,得,给定,税收机关选择检查和不检查的期望收益分别为:
35、,令,得,检查,不检查,不逃税,逃税,87,因此,混合战略纳什均衡是:,税收机关以 的概率检查,纳税人以 的概率选择逃税。,1)对逃税的惩罚越重,应纳税款越多,纳税人逃税的概率就越小;检查成本越高,纳税人逃税的概率就越大。2)应纳税款越多,纳税人逃税的概率反而越小.这是因为,应纳税款越多,税收机关检查的概率越高,逃税被抓住的可能性越大,因而纳税人反而不敢逃税了。这一点或许可以解释为什么逃税现象在小企业中比在大企业中更为普遍,在低收入阶层比在高收入阶层更普遍。,88,治理,不治理,不检测,检测,89,博弈的纯战略纳什均衡为:(不治理,不检测),博弈的纯战略纳什均衡为:(不治理,检测),不存在纯战
36、略纳什均衡,90,治理,不治理,不检测,检测,从上式可以看出,企业进行污染治理的概率与环保部门对企业不治理的惩罚力度、环保部门的检测成本有关。惩罚力度越大、检测成本越低,企业进行治理的可能性越大。,91,例 3 广告博弈,P:广告,NP:不广告,纳什均衡:(P,NP),(NP,P),(1/2,1/2),(1/2,1/2),92,纳什均衡:(P,NP),(NP,P),(1/2,1/2),(1/2,1/2),从公平性来说,混合策略合理的,(1/2,1/2),(1/2,1/2)比较合理,9.301-1234,93,第三章、完全信息动态博弈,静态博弈只是博弈问题中的一种类型,现实中的许多决策活动是有先
37、后顺序的,往往是依次选择行为而不是同时选择行为,而且后选择行为的博弈方能够看到先选择行为的博弈方的选择内容,由于博弈方依先后顺序行动,后选择行动的博弈方能够看到先行动的博弈方的决策行为,所以后面博弈方的决策要受到以前博弈方决策行为的影响。同时先行动者要考虑采取的策略将如何影响对手在将来的策略选择,如拍卖活动中的轮流竞价。,94,一、博弈的扩展式表示,前面所介绍的纳什均衡是基于博弈双方同时行动这一假设。当博弈双方不同时行动,即一方能够观察到另一方的行动,博弈均衡结果又如何?,扩展型通过“博弈树“结构表述博弈过程,包括几大要素:(1)参与人集合:(2)参与人行动顺序,即每个局中人什么时候行动;(3
38、)参与人的行动,,即每次行动时,参与人有些什么选择:(4)参与人的“信息集”,在每次行动时知道些什么。(5)参与人支付函数,即参与人可能选择的每一行动.,95,例1 房地产开发博弈:我们假定博弈顺序如下:(1)开发商A首先行动选开发或不开发;(2)在A决策后,自然选择市场需求的大小;(3)开发商B在观测A的决策和市场需求后,决定开发或不开发。博弈见图,96,博弈扩展式表示:根据参与人的行动顺序,通过博弈树表示参与人的博弈关系。,97,1参与人集合:此外,将用N代表虚拟参与人“自然”;2参与人的行动顺序:谁在什么时候行动;行动时点用决策结点表示;3参与人的行动空间:在每次行动时,参与人有些什么选
39、择;,4参与人的信息集:每次行动时,参与人知道什么;信息集是参与人在决策结点所拥有的信息的集合。拥有同样信息的决策结属于同一个信息集,即信息集包含的决策结拥有同样的信息。,98,如图中,每个信息集包括一个决策结。如果参与人B不知道需求是大还是小,只知道需求大的概率为,参与人有两个信息集,每个信息集包括两个决策结。,博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集,该子集包括所有满足下列的决策结:(1)每一个决策结都是同一参与人的决策结(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处在哪一个决策结。,99,参与人A有一个信息集,包括两个决策结;参与人B有
40、两个信息集,各自包括两个决策结。,100,只包括一个决策结的信息集称为单结信息集博弈树所有的信息都是单结的,该博弈称为完美信息博弈,完美信息博弈,不完美信息博弈,101,5参与人的支付函数;在行动结束之后每个参与人得到些什么,博弈战略式表示,(1)博弈中的参与人;(2)每个参与人可供选择的战略;(3)给参与人战略组合,每个参与人的支付.,同一个博弈问题既可用战略式表示,也可用扩展式表示.但一般来说,静态博弈更多采用战略式表示,动态博弈更多采用扩展式表示.,102,博弈战略式表示可以转化为扩展式表述,103,博弈扩展式表示可以转化为战略式表述,104,二、子博弈精炼纳什均衡,泽尔腾(Selten
41、)的“子博弈精炼纳什均衡”是纳什均衡概念的第一个最重要的改进子博弈精炼纳什均衡是完全信息动态博弈 的解,在动态博弈中存在不可置信的承诺或威胁,105,例“开发博弈”,106,首先分析该博弈的纳什均衡。参与人A有两个战略:开发,不开发。参与人B有四个战略:开发,开发,开发,不开发,不开发,开发,不开发,不开发。上述战略组合的支付矩阵如下:,107,纳什均衡为:(开发,不开发,开发),(开发,不开发,不开发),(不开发,开发,开发)。纳什均衡结果为(开发,不开发),(不开发,开发)。,108,下面考察纳什均衡:(不开发,开发,开发)。这个战略组合之所以构成个纳什均衡,是因为B威胁A无论A选择开发还
42、是不开发,自己将选择开发,A相信B的这个威胁,不开发是A的最优选择。类似地假定A将选择不开发;给定这个假设,开发,开发是B的最优战略。但是,A为什么要相信B的威胁呢?,109,如果A真的选挥开发,B的信息集是x1;此时,B选择开发得到-3的支付,选择不开发得到0的支付,显然B的最优选择是不开发。如果A知道B是理性的A将选择开发,逼使B选择不开发,自己得到1的支付,而不是选择不开发,让B开发自己得到0的支付。纳什均衡(不开发,开发,开发是不可置信的,因为开发,开发是不可置信的威胁战略。类似地得到纳什均衡(开发,不开发,不开发也存在不可置信的的承诺。,110,只有纳什均衡(开发,不开发,开发是可置
43、信的,即合理的均衡。,111,子博弈:从单结信息集开始至博弈结束的过程。由一个决策结 x 和所有的后续决策结T(x)构成,满足下列条件:(1)决策结 x 是单结信息集;(2)在一个信息集的决策结必须是必须是同一个决策结的后续结。,112,上图中只有一个子博弈即原博弈。所以任何博弈至少有一个子博弈(原博弈),113,上图中存在五个子博弈,5个圆圈代表5个子博弈,114,子博弈精练纳什均衡:如果一个纳什均衡中各博弈方的战略在每一个子博弈中均是最优的,即构成纳什均衡,则称该纳什均衡为子博弈精练纳什均衡。,115,根据定义,(开发,不开发,开发是子博弈纳什均衡,纳什均衡为:(开发,不开发,开发),(开
44、发,不开发,不开发),(不开发,开发,开发)。,116,子博弈精炼纳什均衡与纳什均衡的根本不同之处,就是子博弈精炼纳什均衡能够排除纳什均衡不可信的威胁或承诺,排除“不合理”、不稳定的纳什均衡,只留下真正稳定的纳什均衡,即子博弈精炼纳什均衡。这正是我们引进子博弈精炼纳什均衡概念的原因。子博弈精炼纳什均衡之所以能排除动态博弈相机选择策略组合中的不可信行为是因为它要求选择的战略所形成的均衡必须在所有子博弈中都是纳什均衡。,117,纳什均衡(不开发,开发,开发的均衡路径是Ax2(0,1)纳什均衡战略在均衡路径上是最优的,但在非均衡路径上并不最优。子博弈纳什均衡(开发,不开发,开发的均衡路径是AX2(1
45、,0),子博弈纳什均衡在均衡路径和非均衡路径上都是最优的,均衡路径:一个纳什均衡结果在博弈树中所形成的路径,118,例 市场进入博弈的例子,假设进入者先行动即首先选择战略(进入或不进入),在位者后行动即选择默许还是斗争。其博弈过程如下:,子博弈精练纳什均衡:(进入,默许,斗争)(进入,默许,默许),子博弈精练纳什均衡结果:(进入,默许),119,现改变该例中博弈双方的行动顺序,均衡结果又如何呢?,假设在位者先行动,进入者后行动,博弈过程如下:,120,由逆向法推出子博弈精练纳什均衡:(斗争,进入,不进入),比较发现,先动对博弈方有利,即先动优势。,子博弈精练纳什均衡结果:(斗争,不进入),12
46、1,求解子博弈纳什均衡的方法逆向归纳法:从博弈树行动相反顺序从后往前依次求得各自博弈的纳什均衡。其实质就是首先找到低一级的子博弈纳什均衡,然后在找到上一级子博弈的纳什均衡,直到找到最高一级子博弈的纳什均衡,即整个博弈的子博弈精练纳什均衡。,逆向归纳法过程数学表达为简单起见,假定博弈有两个阶段,第一阶段参与人1行动第二阶段参与人2行动,并旦2在行动前观测到1的选挥。令A1是参与人1的行动字间,A 2是参与人2的行动空间。当博弈进入第二阶段,给定参与人1在第一阶段的选择参与人2面临的问题是:,122,上述问题求解得,这是第二阶段子博弈纳什均衡战略。然后基于该均衡战略,找到第一阶段的纳什均衡战略。,
47、参与人1在第一阶段面临的问题是:,上述问题求解得:,子博弈精练纳什均衡为,123,考察最后一个子博弈,当参与人2选择R参与人1选择,基于参与人2的上述战略,参与人2选择L,基于上述两个战略参与人选择,子博弈精练纳什均衡为,子博弈精练纳什均衡结果为:,124,考察最后两个子博弈:对于,当参与人A选择开发时,参与人B选择不开发;对于,当参与人A选择不开发,参与人B选择开发,将两个子博弈纳什均衡组合得参与人的子博弈精练纳什均衡战略,基于上述战略,参与人A选择开发,这是参与人A的子博弈精练均衡战略,故该博弈的子博弈精练纳什均衡为(开发,不开发,开发),125,三 子博弈精练纳什均衡的的存在性与理性要求
48、,逆向归纳法理论要求的“所有参与入是理性的,并且要求参与人知道其后续参与人是理性的;参与人知道其后续参与人知道其后续人是理性的,等等.上述理性要求大大高于静态博弈中的理性要求.在动态博弈中有时不能满足理性要求导致子博弈精练均衡不存在.如下例:,126,127,参与人2到参与人n理性的概率为P,参与人知道其他参与人都是理性的,参与人才选择A,而其他参与人都是理性的概率为Pn-1.当n很大时,Pn-1很小.促使参与人选择D.子博弈精练纳什均衡很难实现,比较满意的支付很难获得.,i,A,A,A,A,1,2,(2,2),(1/n,1/n),(1/2,1/2),(1,1),(1/i,1/i),D,D,D
49、,D,n,1.有利理性,128,在理性要求满足的条件下,上述子博弈精练均衡结果为参与人1一开始就选择D.但这个支付对博弈双方都不利.如果双方非理性都选择A,则各得100.,2.不利理性,129,四 子博弈精练均衡应用实例,例1 斯坦克尔伯格(Stackelberg)寡头竞争模型,正如库诺特(Cournot)均衡可以看作纳什均衡的第一个版本一样,斯坦克尔伯格(Stackelberg,1934)均衡可以看作是泽尔腾(Selten,1965)的子博弈精炼纳什均衡的最早版本。如同在库诺持模型中一样,在斯坦克尔伯格模型中,企业的行动也是选择产量。不同的是,斯坦克尔伯格模型中,企业1(称为领头企业)首先选
50、择产量q1,企业2(称为尾随企业)观测到q1,然后选择自己的产量q2。因此,这是一个完全信息动态博弈。见如下示意图:,130,假定需求函数为,两个企业有相同的不变单位成本 c,那么,支付(利润)函数为,我们可以使用逆向归纳法求解这个博弈的子博弈精炼纳什均衡。首先考虑给定 的情况下,企业2的最优选择。,由一阶条件:,131,(企业2对企业1的反应函数,记为S2(q1),即企业2的最优战略),因为企业l预测到企业2将根据其反应函数S2(q1)选择q2,企业1的利润是:,由一阶条件:,解得:,132,将 代入 得,子博弈精练纳什均衡结果为:,库诺特模型与斯坦克尔伯格模型结果比较如下:,133,比较发