博弈论及其对策行为.ppt_三一办公31ppt.com

资源描述

《博弈论及其对策行为.ppt》由会员分享，可在线阅读，更多相关《博弈论及其对策行为.ppt（53页珍藏版）》请在三一办公上搜索。

1、博弈论和对策行为,博弈论和对策行为,概论,博弈论(the Game Theory)也就是运筹学中的对策论。博弈思想最早产生于我国古代。早在两千多年的春秋时期，孙武在孙子兵法中论述的军事思想和治国策略，就蕴育了丰富和深刻的博弈论思想。孙武的后代孙膑，为田忌谋划，巧胜齐王，这个著名的“田忌赛马”，就是典型的博弈思想的成功运用。,博弈论和对策行为,概论,博弈思想明确地应用于经济领域，始于Cournot(1838),Bertrand(1883),Edgeworth(1925)等人关于寡头竞争、产量与价格垄断、产品交易行为的研究。然而，作为一门学科的创立，则是以美国数学家冯.诺依曼(John Von N

2、eumann)和经济学家奥斯卡.摩根斯坦(Oskar Morgenstern)合著的博弈论与经济行为(The Game Theory and Economic Behavior)(1944)一书出版为标志，他们奠定和形成了这门学科的理论与方法论基础。,博弈论和对策行为,概论,博弈论是一门内容广泛且复杂的学科，不仅是经济学，政治学、军事、外交、国际关系、公共选择，还有犯罪学等，都涉及到博弈论。实际上，很多人把博弈论看成数学的一个分支，博弈论的一个重要代表人物-纳什(Nash，曾获1994年诺贝尔经济学奖，该年度的诺贝尔经济学奖授与了三位博弈论专家)，在1951年的一篇奠基性的文章就是发表在数学杂

3、志上，而非在经济学杂志上。但是，本讲只是介绍博弈论的最基本的内容，且限于博弈论在经济学中的应用。,博弈论和对策行为,基本概念,本书讨论博弈论模型的最基本表述方式-策略型表述，它主要用于表现静态博弈。这里介绍策略型表述中的基本概念，明确有关术语的准确含义。,博弈论和对策行为,基本概念,在策略型博弈中，一个博弈有以下几种基本要素：,一局中人(players)：,即博弈的参与者，他们是博弈的决策主体行为。根据自己的利益要求决定自己的，记局中人为i，局中人集合为1,2,I，即共有I个局中人。我们将某个局中人以外的其它局中人称为“i的对手”，记为-i。,博弈论和对策行为,基本概念,在策略型博弈中，一个博

4、弈有以下几种基本要素：,一局中人,即指每个局中人在博弈中可以选择采用的行动方案，但这个方案必须是一个完整的行动，而不是行动的某一步。每个局中人均有可供选择的多种策略。,二策略(strategies)：,博弈论和对策行为,基本概念,在策略型博弈中，一个博弈有以下几种基本要素：,一局中人,即指多个独立的局中人在博弈中选择采用行动方案的先后次序，次序不同，博弈类型不同,二策略(strategies)三.次序（order）：,四支付或收益(payoffs):,二策略三.次序（order）：,一局中人,在策略型博弈中，一个博弈有以下几种基本要素：,博弈论和对策行为,基本概念,是指一局博弈的得失。或者说是

5、局中人从各种策略组合中获得的效用，它是策略组合的函数。如果局中人得失的总和为零，则称这种博弈为零和博弈；否则，称为非零和博弈。,例1.囚徒困境(prisoners dilemma),博弈论和对策行为,策略型博弈的实例和解(囚徒困境),例1.囚徒困境(prisoners dilemma),博弈论和对策行为,策略型博弈的实例和解(囚徒困境),这个例子可以看作是非合作博弈现象的一个抽象概括。它讲的是两个嫌疑犯被隔离审讯。他们面临的处境是：如果两人都坦白，各判刑8年；如果两人都抵赖，各判刑1年(或许证据不足)；如果一人坦白另一人抵赖，则坦白的放出去，不坦白的判刑10年，(“坦白从宽、抗拒从严”)。这里

6、，两个囚徒就是两个局中人，每个局中人都有两个策略可供选择：坦白或抵赖。表中每一格的一对数字分别表示局中人不同策略组合的收益，第一个数字是囚徒A的收益，第二个数字是囚徒B的收益。这种有限博弈(局中人是有限个，每个局中人的策略数也是有限的)往往用矩阵形式表示。,例1.囚徒困境(prisoners dilemma),博弈论和对策行为,策略型博弈的实例和解(囚徒困境),在对博弈局势进行描述后，博弈论分析就是要求出局中人进行策略选择的理性结局，或者说找出博弈问题的解。在非合作博弈中，有两种解的技术：一种是纳什均衡，一种是优超解。,定义1:给定其它局中人的策略s，局中人i的最优反应记为s*，是指能给他带

7、来最大收益的策略，即,博弈论和对策行为,纳什均衡,当每个局中人都选择了自己的最优反应策略，并且这些最优反应形成一个策略组合，便形成了纳什均衡。,定义2:一个策略组合s*=(s1*,s2*,sn*)被称为纳什均衡是指，对于所有的 i,博弈论和对策行为,纳什均衡,纳什均衡的思想就是，博弈的理性结局是这样一种策略组合，其中每个局中人选择的策略都已是对其它局中人所选策略的最优反应，所以，谁也没有积极性去选择其它策略。因为每一个局中人均不能因为单方面改变自己的策略而获利，于是谁也没有兴趣主动打破这种均衡。,在囚徒困境中，考虑囚徒A对他人的最优反应。如果给定囚徒B的策略是“坦白”，那么对囚徒A来说，采

8、取“坦白”策略得到的收益是-8，采取“抵赖”策略得到的收益是-10，显然“坦白”为好；同理，如果给定囚徒B的策略是“抵赖”，对囚徒A来说，“坦白”也比“抵赖”好。因此，囚徒A对囚徒B的最优反应是“坦白”。对囚徒B作同样分析：如果囚徒A的策略是“坦白”，则他采取“坦白”策略为好；如果囚徒A的策略是“抵赖”,他还是采取“坦白”策略好，所以囚徒B对囚徒A的最优反应也是“坦白”。两个最优反应形成了一个策略组合(坦白，坦白)，这就是一个纳什均衡。,博弈论和对策行为,纳什均衡,让我们再回到囚徒困境本身。纳什均衡(坦白，坦白)表明两人共同的集体选择，但是这个选择是否是理性的？理性选择是指使收益最大化的选择。

9、如果两人都抵赖，各判刑1年，显然比坦白各判刑8年好。所以，纳什均衡(坦白，坦白)并不是一个集体理性选择。但它却是个人理性选择的一个组合。囚徒困境正是反映了一个深刻的问题，这就是个人理性与集体理性的矛盾。,博弈论和对策行为,囚徒困境在经济学上的应用,博弈论和对策行为,囚徒困境在经济学上的应用,一个非集体理性选择，如纳什均衡(坦白，坦白)，用经济学术语说，其中存在“帕累托改进”的机会。所谓帕累托改进就是说，它在不使另一部分人的境况变得更坏的前提下，至少能改进一部分人的境况。如果不存在帕累托改进的情况，便达到“帕累托最优”。这里，如果两人都选择抵赖，两人的境况都有所改进。所以，(坦白，坦白)不是帕累

10、托最优。集体的理性选择应该是大家都抵赖。但是这个帕累托改进办不到。为什么？因为我们已经验证，(坦白，坦白)这个策略组合正是一个纳什均衡。在一个纳什均衡中，不会有人主动去打破这种格局的。,博弈论和对策行为,囚徒困境在经济学上的应用,那么，两个囚徒事先订好攻守同盟，两人都采取抵赖的策略，不是可以改善两人的境遇吗？但问题是，这个攻守同盟有没有意义？没有。原因在于(抵赖，抵赖)这个策略组合不是一个纳什均衡，没有人有积极性去遵守这个协议。一般地，假设博弈中的每个局中人事先达成一项协议，规定了各自的行为规则。如果局中人会自觉遵守这个协议，等于说这个协议构成了一个纳什均衡：给定别人遵守协议的情况下，自己的最

11、好选择就是也遵守协议。相反，一个协议不构成纳什均衡时，它就不可能自动实施，因为至少有一个局中人会违背这个协议。所以，不满足纳什均衡要求的协议是没有意义的。,博弈论和对策行为,囚徒困境在经济学上的应用,以上的分析告诉我们，用经济学的观点来看，只有由满足个人理性选择的策略组成的集合才是均衡的，或者说只有纳什均衡才是稳定的。,博弈论和对策行为,囚徒困境在经济学上的应用,看两个寡头合谋与价格卡特尔的情形，它也存在个人理性与集体理性的冲突。在两个寡头合谋条件下的产量与价格决定，是基于两个寡头利润总和的最大化目标，而不是每个企业自己的利润最大化。因此这种最大化目标下的产量分配符合两家企业的共同利益，却不是

12、使每家企业自己的利润最大化的产量，换言之，并不是每家企业自己的“最优反应”。所以，卡特尔产量分配不是一个纳什均衡。正因为此，卡特尔下一定会有违约冲动，卡特尔具有不稳定性。,博弈论和对策行为,囚徒困境在经济学上的应用,在军备竞赛中，人们年复一年的谈判，试图签订一个限制军备的条约。但是这种条约也存在个人理性与集体理性的冲突。签订条约对世界和平有利，但履行条约未必是各国行动的“最优反应”：试想，如果我减少军备开支，而你增加军费支出，我不是受到威胁了吗？所以，这种条约不构成纳什均衡，各国都有违约的冲动。纳什均衡是各国都大量增加军费预算，结果军备竞赛就只好继续下去。冷战时期前苏联和美国之间的军备竞赛就是

13、典型一例，两国都在导弹上花了几万亿美元，如果把资源用于民品生产，两国的社会福利就会变得更好。,博弈论和对策行为,古诺模型两个寡头企业选择产量的博弈就是一个囚徒困境问题。,例：设一市场有两个厂商生产同样的产品。如果厂商1的产量为q1，厂商2的产量为q2，则市场总产量为Q=q1+q2。设市场价格为p=p（Q）=8-Q，再设两厂商的生产都无固定成本，且边际成本为C1=C2=2。问两个厂商如何同时决定各自的产量？,博弈论和对策行为,囚徒困境在经济学上的应用,从两个厂商各自利润最大可以得出：市场总产量为Q=q1+q2=4。市场价格p=4，两个厂商利润总和为4+4=8。从两个厂商总体利润最大可以得出：q*

14、1=q*2=1.5，市场总产量为Q=q1+q2=3。市场价格p=5，两个厂商利润总和为9。各种策略组合的盈利矩阵如下表，,博弈论和对策行为,囚徒困境在经济学上的应用,纳什均衡概念的局限性在于，在博弈中有可能纳什均衡不是唯一的。例：两家寡头价格竞争，经理可选择的策略是价格不变或涨价，收益矩阵如下所示：,结果发现纳什均衡有两个：(价格不变，价格不变)、(涨价，涨价)。博弈中的实际结果取决于首先采取什么行动。如果先前的情况是价格不变，那么这一博弈的预期结果就是价格不变。另外，对有的博弈来说，也可能不存在纳什均衡。,博弈论和对策行为,策略型博弈的实例和解(性别战),例2.性别战(battle of t

15、he sexes),一男一女恋爱，有些业余活动要安排，或者去看足球比赛，或者去看芭蕾舞演出。男的偏好足球，女的则更喜欢芭蕾舞，但他们都宁愿在一起，不愿分开。下表给出收益矩阵：,博弈论和对策行为,策略型博弈的实例和解(性别战),例2.性别战(battle of the sexes),这个博弈中有两个纳什均衡：(足球，足球)和(芭蕾，芭蕾)。就是说，一方去足球场，另一方也会去足球场；类似地，一方去看芭蕾，另一方也会去看芭蕾。在实际生活中，也许是这一次看足球，下一次看芭蕾，如此循环，形成一种默契。这在实际生活中是指，两种互补的活动应该配合，尽管配合的方式可能有很多种。,比如，两家工厂生产的产品可能是

16、互补的，一家为另一家提供零配件，这里有一个标准的选择问题，由于种种原因，很可能在产品标准的选择上，生产成品的厂家与生产零配件的厂家之间有冲突。这就需要相互妥协，但妥协的结果有两种可能，或者是生产零配件的厂家适应生产成品的厂家，或者是生产成品的厂家适应于生产零配件的厂家。,博弈论和对策行为,策略型博弈的实例和解(性别战),例2.性别战(battle of the sexes),博弈论和对策行为,策略型博弈的实例和解(性别战),例2.性别战(battle of the sexes),性别战的例子中有两个纳什均衡，那么，究竟那一个纳什均衡会实际发生？我们不知道。这里还有一个先动优势(first-mo

17、ver advantage)，比如说，若男的先买票，两人就会出现在足球场，若女的买票，两人就会出现在芭蕾舞剧院。,博弈论和对策行为,策略型博弈的实例和解(性别战),例2.性别战(battle of the sexes),在囚徒博弈中，我们隐含地假定双方下奕者是同时实施其策略的。性别战中的先动优势表明了另一种类型的博弈，称为顺序性博弈(sequential game)。在顺序性博弈中，有一名下奕者先博弈行动，然后另一名下奕者要做出反应。先下奕者有先动优势。性别战的例子也有很多应用。企业进入新的市场就是一种顺序性博弈。新企业首先决定是否进入，然后现有企业决定是不管它，还是阻止它的进入。,博弈论和对

18、策行为,性别战在经济学上的应用,设想有一家垄断企业已在市场上(称为“在位者”)，另一家新企业虎视眈眈想进入(称为“进入者”)。在位者想保持自己的垄断地位，所以就要阻挠进入者的进入。在这个博弈中，进入者有两种策略可以选择：进入还是不进入；在位者也有两种策略：默许还是斗争。各种策略组合的收益矩阵如下表：,例：市场进入阻挠(entry deterrance),博弈论和对策行为,性别战在经济学上的应用,博弈也有两个纳什均衡，即(进入，默许)，(不进入，斗争)，相应的收益为(40,50),(0,300)。就是说如果新企业首先进入，在位者的最优反应是默许；类似地，如果在位者默许，新企业的最优策略是进入。尽

19、管在新企业不进入时，默许和斗争对在位者是一样的效果，但在在位者选择斗争时，新企业的最优选择是不进入，所以，(不进入，斗争)是一个纳什均衡，而(不进入，默许)不是纳什均衡。,博弈论和对策行为,性别战在经济学上的应用,一家企业率先推出一种新产品，其它企业跟进也是一种顺序性博弈。把新产品率先推向市场的先动企业的成功可能性要大一些，跟进者面临的困难是消费者对先动企业的品牌有了一定的忠诚度，并在头脑中有了先动企业的形象；而且，如果消费者在学习使用先动企业的新产品时花费了学习时间，往往不愿意再花时间或改动设备去使用另一家企业的类似产品。文字处理和数据库软件就是很好的例子。对一种程序或一种输入方法已很熟练者

20、，一般不愿意更换，除非后者有很多优点。,博弈论和对策行为,性别战在经济学上的应用,下表是两个竞争企业是否推出新产品的利益矩阵。,这个博弈中有两个纳什均衡：一家推出新产品，一家无新产品。推出新产品的企业赢利为10，无新产品的企业赢利为-5。究竟是企业1还是企业2赢利，要看是哪一家企业首先行动。假定企业1具有较高的研究和开发优势，率先在市场上推出新产品，那么企业2的最佳反应就是不跟进，因为跟进的损失是7，不跟进的损失只有5。,博弈论和对策行为,优超解,如果一个局中人在任何情况下从某种策略中得到的收益均大于从其它策略中得到的收益，那么对他而言，这个策略称为优超策略或支配性策略(dominant st

21、rategy)。其它的策略称为被优超策略或被支配策略(dominated strategy)。,博弈论和对策行为,优超解,在囚徒博弈中，对囚徒A来说，“抵赖”被“坦白”优超，对囚徒B也同样，所以，(坦白，坦白)就是一个优超策略均衡。在这个例子中，优超策略均衡也就是纳什均衡。当有一名局中人具有优超策略时，博弈总会有一个纳什均衡，因为当该局中人采取优超策略时，另一局中人就会据此做出自己的最优反应。但纳什均衡不一定是优超策略均衡。,博弈论和对策行为,优超解,在市场进入阻挠博弈中，在位者有一个优超解“默许”，进入者对默许的最优反应是“进入”，所以，(进入，默许)是一个纳什均衡。大多数的博弈局势中利用优

22、超概念只能够对博弈问题进行简化，得不到博弈解。,博弈论和对策行为,优超解,例2:考虑由下表给出的策略性博弈:,博弈论和对策行为,优超解,对于局中人A来说，策略x被y优超了，所以，可以删去x使问题简化为：,但是，对这个简化了的博弈，我们仍然无法找到博弈解。有些博弈问题既没有优超均衡解，也没有纳什均衡解。,博弈论和对策行为,最大最小策略(Max-min strategy),冯.诺依曼和摩根斯坦认为策略的选择与决策者的性格有关。某些决策者可能认为，冒失行动容易造成重大失误，最好还是从最不利的情况出发，向最好的方向努力，力求做到有备无患。这样的决策者属于风险厌恶型的，他首先想到的是各种不利因素和风险，

23、所以他先要考虑各种最坏的结果，然后从最坏结果中选出一个最好结果。按这种原则选取的策略可以称为最大最小策略。,博弈论和对策行为,混合策略和重复性博弈,策略有两种概念，前面我们所说的策略，都是纯策略，另一种策略概念为在纯策略基础上形成的混合策略(mixed strategy)。局中人I的混合策略i是他的纯策略空间Si上的一种概率分布，表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。,博弈论和对策行为,混合策略和重复性博弈,为了叙述问题方便，下面我们主要讨论二人零和博弈。零和博弈是策略型博弈的最基本模式，其中局中人得失的总和为零(或为一常数)。二人零和博弈是指零和博弈中有且只有两个局

24、中人，一人的所得正是另一人的所失。二人零和博弈在博弈论的早期发展中曾占有过重要地位。二人零和博弈的支付矩阵可以记为：,如果支付矩阵的数值ij为正时，表示局中A的赢得值，若支付矩阵的数值ij为负时，表示局中A的损失或输掉的值。,博弈论和对策行为,混合策略和重复性博弈,例：二人零和博弈的收益矩阵如下表，局中人A的收益值均为正，而局中人B的收益值均为负，即表示局中人B的损失值。,博弈论和对策行为,混合策略和重复性博弈,如果每个局中人完全清楚地知道对手将会采取什么样的策略，会是什么情况呢？A如果知道B会选择b1，则会选择a2；当A连续使用策略a2时，B必定会察觉，便会选择b2；当B连续使用b2时，A也

25、会察觉，从而改为选择a1；B如果知道A选择了a1，则又会选择b1；如此反复，以至无穷，所以，双方如果使用纯策略进行博弈时，就会出现不稳定状态，不会有最终的均衡结果。这说明双方都不能连续不变地使用某种纯策略，都必须考虑如何随机地使用自己的策略，使对方捉摸不到自己使用何种策略。这就需要混合策略的博弈。,博弈论和对策行为,混合策略和重复性博弈,假设A采取混合策略，即以概率x随机的使用纯策略a1，以概率(1-x)使用纯策略a2，去对付B使用纯策略b1，A的收益便是x的函数:U=x+3(1-x)=3-2x 若A使用上述混合策略去对付B使用纯策略b2时，A的收益便是 U=4x+2(1-x)=2+2x,博弈

26、论和对策行为,混合策略和重复性博弈,用图表示时，U和U的表达式是两条直线，x的取值范围为0，1，见下图：,U,U,博弈论和对策行为,混合策略和重复性博弈,U的值随着x值的增长而减少，U的值随着x值的增大而增大。两条直线的交点m对应着xm。局中人A按最大最小原则选择他的策略，即他的选择按 Maxmin(3-2x,2+2x)来进行的。min(3-2x,2+2x)即折线pmq，m点是折线pmq的最高点，所以m点是混合策略意义下的最大最小值。当U=U时，可解得xm=1/4，U=U=5/2。,所以，局中人A的最优混合策略为:,A：,博弈论和对策行为,混合策略和重复性博弈,可以用同样的方法分析局中人B的最

27、优混合策略。若B以概率y随机的使用纯策略b1，以概率(1-y)使用纯策略b2，去对付A使用纯策略a1，B的损失值为:Ub=y+4(1-y)=4-3y 若B使用上述混合策略去对付A使用纯策略a时，B的损失值便是：Ub=3y+2(1-y)=2+y,博弈论和对策行为,混合策略和重复性博弈,用图表示时，Ub和Ub的表达式是两条直线，y的取值范围为0，1，见下图：,Ub,Ub,博弈论和对策行为,混合策略和重复性博弈,注意，此时B按最大最小原则选择自己的最优策略，即 minmax(4-3y,2+y)折线enf 表示max(4-3y,2+y)，n点是折线enf的最低点,也即最小最大值。N点对应的yn=1/2

28、，以此概率构成的B的混合策略是B的最优混合策略。,B：,博弈论和对策行为,混合策略和重复性博弈,本例中U=Ub=5/2,这样，A的混合策略(1/4,3/4)与B的混合策略(1/2，1/2)便构成一个“最大最小策略均衡”。一般记作：max min E(X,Y)=min max E(X,Y)式中X=(x1,x2,xn)，Y=(y1,y2,yn)为局中人A和B使用各自策略的概率，,期望值E(X,Y)=,博弈论和对策行为,混合策略和重复性博弈,下面再对这个例子作进一步分析。设局中人A使用混合策略x，局中人B使用最优混合策略y*，这时局中人B的期望支付,若局中人B使用某种混合策略，而局中人A使用最优混合

29、策略，这时局中人A的收益的期望值为,博弈论和对策行为,混合策略和重复性博弈,这说明当局中人A使用最优策略时，不管局中人B使用何种策略，他的收入的期望值不变，从而保持有利的竞争地位；当局中人B使用最优策略时，不管局中人A使用何种策略，他的支付的期望值不变，这就是B的最好应对方式。反之，如果A不使用最优策略，他的期望收入必定小于U；如果B不使用最优策略，他的期望损失值就要大于Ub。从而，局中人A和B的最优混合策略构成了一个混合策略纳什均衡。,博弈论和对策行为,混合策略和重复性博弈,任何一个博弈，也许不存在纯策略纳什均衡，但一定存在混合策略纳什均衡。对于零和博弈，若存在“最大最小策略均衡”，则该均衡必定是纳什均衡。如上例所示。混合策略中一定能找到纳什均衡这一性质，使得混合策略更有实用性。同时，混合策略也许更符合客观实际，一则因为博弈的局中人选择策略时本来就不是确定无疑的，而是具有一定的随机性；并且，每个局中人对于对手的策略选择的猜测也不是十分可靠的，这种猜测的命中率也是随机的。二则因为混合策略对付反复进行多次的博弈为纯策略更很有效，而这种重复性博弈在现实中更为普遍。,

展开阅读全文