《完全信息静态博弈》PPT课件.ppt

资源描述

《《完全信息静态博弈》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《完全信息静态博弈》PPT课件.ppt（39页珍藏版）》请在三一办公上搜索。

1、第二讲、完全信息静态博弈,完全信息静态博弈：纳什均衡,纳什均衡是著名博弈论专家纳什（John Nash）对博弈论的重要贡献之一。纳什在世纪年年的两篇重要论文中，在一般意义上给定了非合作博弈及其均衡解，并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。纳什所定义的均衡称之谓“纳什均衡”。在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。,一、占优策略均衡,占优策略（dominant strategies）是指这样一种特殊的博弈：某一参与人的策略可能并不依赖于其他参与人的策略选择。换句话说，无论其他参与人

2、如何选择自己的策略，该参与人的最优策略选择是惟一的。（一）囚徒困境,以博弈论中最为著名的囚犯困境（prisoners dilemma）为例，说明占优策略均衡原理。两个合伙作案的犯罪嫌疑人被警方抓获。警方怀疑他们作案，但警方手中并没有掌握他们作案的确凿证据。因而，对两个犯罪嫌疑人犯罪事实的认定及相应的量刑完全取决于他们自己的供认。假定警方对两名犯罪嫌疑人实行隔离关押，隔离审讯，每个犯罪嫌疑人都无法观察到对方的选择。同时，警方明确地分别告知两名犯罪嫌疑人，他们面临着以下几种后果可以用表21表示。该表又称为“收益矩阵或得益矩阵”。从表21中可以看出，每个犯罪嫌疑人都有两种可供选择的策略：供认或不供认

3、。而且，每个犯罪嫌疑人选择的最优策略不依赖于其同伙的策略选择，,表21 囚犯困境的收益矩在博弈中，如果所有参与人都有占优策略存在，可以证明，博弈将在所有参与人的占优策略的基础上达到均衡，这种均衡称为占优策略均衡。上面提到的囚犯困境中的“坦白，坦白”就是占优策略均衡解。,囚徒困境现实中的例子,政治学例子：军备竞赛在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对

4、经济造成都有损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。,经济学例子：关税战两个国家，在关税上可以有以两个选择:提高关税，以保护自己的商品。（背叛）与对方达成关税协定，降低关税以利各自商品流通。（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）,商业例子：广告战商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争，二公司的广告互相影响，即

5、一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。此二公司可以有二选择：互相达成协议，减少广告的开支。（合作）增加广告开支，设法提升广告的质量，压倒对方。（背叛）若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。,金融例子：各国央行的囚徒困境抛出还是不抛出由于美国人经年累月的双赤字，即财政赤字和贸易赤字，美元下跌的趋势不可避免。那么这个困境中的

6、博弈，其可能的结果如下。第一种情况是，如果各国中央银行都继续持有美元而不抛售，甚至增持美元，其结果是等着美元慢慢地下跌，这样的损失最小，就如同囚徒都不坦白只被判较轻的一年罪名一样。,第二种情况是，如果一个国家中央银行能够悄悄地大量抛售美元，转持欧元、其他外汇或者黄金又不引起其他国家注意，而且其他国家也不抛售的话，那么它就可能在美元大跌之前得以脱身，从而损失很小，而其他国家则会遭受惨重损失。如同囚徒之一坦白从宽被无罪释放而另一人被重判10年一样。第三种情况是，大家都抛售，结果都造成惨重损失，两败俱伤。就像囚徒的两个人都坦白并都被判8年一样。在博弈的囚徒之间，最可能也是必然的结果就是，双方都争相坦

7、白同时幻想着对方不坦白，因为如果对方坦白而自己不坦白自己就会面临最坏的局面。那么，在各国银行处理过剩美元盈余的策略中，究竟哪一种局面最可能发生呢？,有最好的结果吗？第一种情况当然是最好的选择，只是不可能发生。尽管各国央行没有像囚徒般地被隔离，他们如果想订一个攻守同盟的话没有人能阻止他们，而且现在经济已经全球化，各国银行之间的协调是非常容易的事。但是每个国家都以本国利益为最高目的，无法做出对美元不抛售的协调，就像不能与虎谋皮一样，并且不会有任何一种协调结果会令所有人都满意的。,第二种情况也不会发生，就像囚徒不能指望别人不坦白而自己坦白一样。没有人天真到会相信别人能替自己赔钱。在金融信息快到几分钟

8、甚至几秒钟就可以从世界一端传递到另一端的情况下，各国中央银行不可能悄悄地将他们的美元储备抛出又不惊动他人。国际间的货币兑换其实都是透明的，一个国家的外汇储备从一种货币换作另一种货币的交易不可能隐藏到不被披露出来。,最可能发生的是第三种情况，就是两败俱伤、几败俱伤的结局。因为每个美元储备过剩的国家都在想尽办法减少自己的储备而又不引起其他国家太多的关注。他们知道自己对美元大规模的抛售必定会引起其他国家的恐慌，引起连锁反应，造成其他国家对美元的大量抛售，就像多米诺骨牌一样，加速美元的崩溃，损失的是包括他们自己在内的所有美元持有人。所以他们每走一步都要看对方的动静，看市场的反应。,金融囚徒困境的结论：

9、各国央行正在玩“谁都不能先脚软”（a reverse game of chicken）的游戏。他们虽然持有大量的美元储备，也明知道美元必定贬值。却相互监视，务求没有任何一个国家可以顺利抛售美元资产而得以脱身。就是说，若有任何一方胆敢抛售，其他人便会一起加入抛售，这样反而形成相互威吓，令各国央行都不敢擅自行动。但是各国央行能一直站下去而不脚软吗？,囚徒困境模型的延伸,罗伯特阿克塞尔罗德在其著作合作的进化中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德发现，采用“宽恕地以牙还牙”

10、策略。当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。,通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。友善最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。报复但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“

11、下流”策略将残酷地剥削这样的傻瓜。,宽恕成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。不嫉妒最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。,囚犯困境反映了一个深刻问题，这就是个人理性与团体理性的冲突。例如，微观经济学的

12、基本观点之一，是通过市场机制这只“看不见的手”，在人人追求自身利益最大化的基础上可以达到全社会资源的最优配置。囚犯困境对此提出了新的挑战。,二、重复剔除的占优策略均衡,在每个参与人都有占优策略的情况下，占优策略均衡是非常合乎逻辑的。但遗憾的是在绝大多数博弈中，占优策略均衡是不存在的。不过，在有些博弈中，我们仍然可以根据占优的逻辑找出均衡。智猪博弈（boxed pigs）是博弈论中的另一个著名的例子。,假设猪圈里有两头猪，一头大猪，一头小猪，猪圈的一端有一个猪食槽，另一端安装了一个按钮，控制猪食的供应。按一下按钮，将有个单位的猪食进入猪食槽，供两头猪食用。两头猪场面临选择的策略有两个：自己去按按

13、钮或等待另一头猪去按按钮。如果某一头猪作出自己去按按钮的选择，它必须付出如下代价：第一，它需要收益相当于两个单位的成本；第二，由于猪食槽远离猪食，它将比另一头猪后到猪食槽，从而减少吃食的数量。假定：若大猪先到（小猪按按钮），大猪将吃到个单位的猪食，小猪只能吃到个单位的猪食；若小猪先到（大猪场按按钮），大猪和小猪各吃到个单位的猪食；若两头猪都选择等待，实际上两头猪都吃不到猪食，如两猪同时按，则大猪吃到个单位的猪食，小猪吃到个单位的猪食。,智猪博弈的收益矩阵如表22所示。表中的数字表示不同选择下每头猪所能吃到的猪食数量减去按按钮的成本之后的净收益水平。,从表22中不难看出，在这个博弈中，不论大猪场

14、选择什么策略，小猪的占优策略均为等待。而对大猪来说，它的选择就不是如此简单了。大猪场的最优策略必须依赖于小猪的选择。如果小猪选择等待，大猪的最优策略是按按钮，这是，大猪能得到个单位的净收益（吃到个单位猪食减去个单位的按按钮成本），否则，大猪的净收益为；如果小猪选择按按钮，大猪的最优策略显然是等待，这时大猪的净收益为个单位。换句话说，在这个博弈中，只有小猪有占优策略，而大猪没有占优策略。,那么这个博弈的均衡解是什么呢？这个博弈的均衡解是大猪选择按按钮，小猪选择等待，这是，大猪和小猪的净收益水平分别为个单位和个单位。这是一个“多劳不多得，少劳不少得”的均衡。,在找出上述智猪博弈的均衡解时，我们实际

15、上是按照“重复剔除严格劣策略”（iterated elimination of strictly dominated strategies）的逻辑思路进行的。该思路可以归纳如下：首先找出某参与人的严格劣策略，将它剔除，重新构造一个不包括已剔除策略的新博弈；然后，继续剔除这个新的博弈中某一参与人的严格劣策略；重复进行这一过程，直到剩下惟一的参与人策略组合为止。剩下的话这个惟一的参与人组合，就是这个博弈的均衡解，称为“重复剔除的占有策略均衡”（iterated dominance equilibrium）。所谓“严格劣策略”（strictly dominated strategies）是指：在博弈

16、中，不论其他参与人采取什么策略，某一参与人可能采取的策略中，对自己严格不利的策略。,由表22可以看出，无论大猪选择什么策略，小猪选择按按钮，对小猪是一个严格劣策略，我们首先加以剔除。在剔除小猪按按钮这一选择后的新博弈中，小猪只有等待一个选择，而大猪则有两个可供选择的策略。在大猪这两个可供选择的策略中，选择等待对大猪是一个严格劣策略，我们再剔除新博弈中大猪的严格劣策略等待。剩下的新博弈中只有小猪等待、大猪按按钮这一个可供选择的策略，就是智猪博弈的最后均衡解，从而达到重复剔除的占优策略均衡。,智猪博弈的现实例子,智猪博弈听起来似乎有些滑稽，但智猪博弈的例子在现实中确有很多。例一、股市上等待庄家抬轿

17、的散户、等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资，公司里不创造效益但分享成果的人,例二在股份公司中，股东都承担着监督经理的职能，但是，大小股东从监督中获得的收益大小不一样。在监督成本相同相同的情况下，大股东从监督中获得的收益明显大于小股东。因此，小股东往往不会象大股东那样去监督经理人员，而大股东也明确无误地知道小股东会选择不监督（这是小股东的占优策略），大股东明知道小股东要搭大股东的便车，但是大股东别无选择。大股东选择监督经理的责任、独自承担监督成本是在小股东占优选择的前提下必须选择的最优策略。这样以来，与智猪博弈一样，从每股的净收益（每股收益减去每股分担的监督成本）

18、来看，小股东要大于大股东。,智猪博弈模型的延伸思考,“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的食物数量和踏板与投食口之间的距离。如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的现象吗？,改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪也将会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以，谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。,改变方案二：增量方案。投食为原来一倍的分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去

19、踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以，竞争意识都不会很强。对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不激烈，想让猪们去多踩踏板的效果并不理想。,改变方案三：减量加移位方案。投食仅为原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。原版的“智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是，对于社会而言，因为小猪未能参加竞争，小猪搭便车时的社会

20、资源配置得并不是最佳状态。为使资源最有效配置，规则得设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。,比如，公司的激励制度设计，奖励力度太大，又是持股，又是期权，公司职员个个都成了百万富翁，成本高不说，员工的积极性并不一定很高。这相当于“智猪博弈”。如果奖励力度不大，而且见者有份（不劳动的“小猪”也有），一度十分努力的大猪也不会有动力就像“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就像改变方案三减量加移位的方法，奖励并非人人有份，而是直接针对个人（如业务按比例提成），既节约了成本（对公司而言），又消除了

21、“搭便车”的现象，能实现有效的激励。,三、纳什均衡,前面我们讨论了占优策略均衡和重复剔除的策略均衡。但是在现实生活中，还有相当多的博弈，我们无法使用占优策略均衡或重复剔除的策略均衡的方法找出均衡解。,例如，在房地产开发博弈中，假定市场需求有限，、两个开发商都想开发一定规模的房地产，但是市场对房地产的需求只能满足一个房地产的开发量，而且，每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下，无论是对开发商还是开发商，都不存在一种策略优于另一种策略，也不存在严格劣策略：如果选择开发，则的最优策略是不开发；如果选择不开发，则的最优策略是开发；类似地，如果选择开发，则的最优策略是不开发；

22、如果选择不开发，则的最优策略是开发。研究这类博弈的均衡解，需要引人纳什均衡。,纳什均衡是指在均衡中，每个博弈参与人都确信，在给定其他参与人选择的策略的情况下，该参与人选择了最优策略以回应对手的策略。纳什均衡是完全信息静态博弈解的一般概念，构成纳什均衡的策略一定是重复剔除严格劣策略过程中不能被剔除的策略。也就是说，没有一种策略严格优于纳什均衡策略（注意：其逆定理不一定成立），更为重要的是，许多不存在占优策略均衡或重复剔除的占优策略均衡的博弈，却存在纳什均衡。,与重复剔除的占优策略均衡一样，纳什均衡不仅要求所有的博弈参与人都是理性的，而且，要求每个参与人都了解所有其他参与人都是理性的。在占优策略均

23、衡中，不论所有其他参与人选择什么策略，一个参与人的的占优策略都是他的最优策略。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。因此，占优策略均衡一定是纳什均衡。在重复剔除的占优策略均衡中，最后剩下的惟一策略组合，一定是在重复剔除严格劣策略过程中无法被剔除的策略组合。因此，重复剔除的占优策略均衡也一定是纳什均衡。,下面我们以博弈论中经常提到的性别战（battle of the sexes）为例，说明纳什均衡解。谈恋爱的男女通常是共度周末而不愿意分开活动的，这是研究问题的前提。但是，对于周末参加什么活动，男女双方往往各自有着自己的偏好。假定某周末，男方宁愿选择观看一场足球比赛，而女方宁愿去逛商店。再进一步假定：如果男方和女方分开活动，男女双方的效用为；如果男方和女方一起去看足球赛，则男方的效用为，而女方的效用为；如果男方和女方一起去逛商店，则南男方的效用为，女方的效用为。根据上述假定，男女双方不同选择的所有结果及其效用组合如表23所示。,表23 性别战的收益矩阵,在这个博弈中剔除两个严格劣策略以后，剩下的新博弈中，无法剔除严格劣策略。因此是一个纳什均衡。这里有两个解，即男女双方一起去看足球赛和一起去逛商店。除非有进一步的信息，如男方或女方具有优先选择权，否则，我们无法确定男女双方在上述博弈中会作出什么样的选择。,

展开阅读全文