博弈论的几个经典模型课件.ppt

上传人:小飞机 文档编号:1462531 上传时间:2022-11-28 格式:PPT 页数:81 大小:3.28MB
返回 下载 相关 举报
博弈论的几个经典模型课件.ppt_第1页
第1页 / 共81页
博弈论的几个经典模型课件.ppt_第2页
第2页 / 共81页
博弈论的几个经典模型课件.ppt_第3页
第3页 / 共81页
博弈论的几个经典模型课件.ppt_第4页
第4页 / 共81页
博弈论的几个经典模型课件.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《博弈论的几个经典模型课件.ppt》由会员分享,可在线阅读,更多相关《博弈论的几个经典模型课件.ppt(81页珍藏版)》请在三一办公上搜索。

1、第四章 博弈论的几个经典模型,讲授人 谭建国,引 言,博弈论又被称为对策论(Game Theory),按照2005年因对博弈论的贡献而获得诺贝尔经济学奖的Robert Aumann教授的说法,博弈论就是研究互动决策的理论。所谓互动决策,即各行动方(即局中人player)的决策是相互影响的,每个人在决策的时候必须将他人的决策纳入自己的决策考虑之中,当然也需要把别人对于自己的考虑也要纳入考虑之中在如此迭代考虑情形进行决策,选择最有利于自己的战略(strategy)。,博弈论的应用领域十分广泛,在经济学、政治科学(国内的以及国际的)、军事战略问题、进化生物学以及当代的计算机科学等领域都已成为重要的研

2、究和分析工具。此外,它还与会计学、统计学、数学基础、社会心理学以及诸如认识论与伦理学等哲学分支有重要联系。,引 言,按照Aumann所撰写的新帕尔格雷夫经济学大辞典“博弈论”辞条的看法,标准的博弈论分析出发点是理性的,而不是心理的或社会的角度。不过,近30年来结合心理学和行为科学、实验经济学的研究成就而对博弈论进行一定改造的行为博弈论(behavoiral game theory )也日益兴起。,引 言,失火了,你往哪个门跑这就是博弈论,一天晚上,你参加一个派对,屋里有很多人,你玩得很开心。这时候,屋里突然失火,火势很大,无法扑灭。此时你想逃生。你的面前有两个门,左门和右门,你必须在它们之间选

3、择。但问题是,其他人也要争抢这两个门出逃。如果你选择的门是很多人选择的,那么你将因人多拥挤、冲不出去而烧死;相反,如果你选择的是较少人选择的,那么你将逃生。这里我们不考虑道德因素,你将如何选择?,你的选择必须考虑其他人的选择,而其他人的选择也考虑你的选择。你的结果博弈论称之为支付,不仅取决于你的行动选择博弈论称之为策略选择,同时取决于他人的策略选择。你和这群人构成一个博弈(game)。 上述博弈是一个叫张翼成的中国人在1997年提出的一个博弈论模型,被称之为少数者博弈或少数派博弈(Minority Game)。 生活中博弈的案例很多,你会见到很多例子。只要涉及到人群的互动,就有博弈。,引 言,

4、什么叫博弈? 博弈的英文为game,我们一般将它翻译成“游戏”。而在西方,game的意义不同于汉语中的游戏。在英语中,game即是人们遵循一定规则下的活动,进行活动的人的目的是使自己“赢”。奥林匹克运动会叫Olympic Games。在英文中,game有竞赛的意思,进行game的人是很认真的,不同于汉语中游戏的概念。在汉语中,游戏有儿戏的味道。因此将关于game的理论,即game theory翻译成博弈论或者对策论,是恰当的。,引 言,博弈论的出现只有60多年的历史。博弈论的开创者为诺意曼与摩根斯坦,他们1944年出版了博弈论与经济行为。博弈论天才纳什(John Nash)的开创性论文n人博弈

5、的均衡点(1950)、非合作博弈(1951)等等,给出了纳什均衡的概念和均衡存在定理。今天博弈论已发展成一个较完善的学科。 博弈论对于社会科学有着重要的意义,它正成为社会科学研究范式中的一种核心工具,以至于我们可称博弈论是“社会科学的数学”,或者说是关于社会的数学。,引 言,1994年经济学诺贝尔奖颁发给三位博弈论专家:纳什、塞尔屯(R.Selten)、海萨尼(John C.Harsanyi),而像1985年获得诺贝尔奖的公共选择学派的领导者布坎南,1995年获得诺贝尔奖的理性主义学派的领袖卢卡斯 (Lukas),其理论与博弈论都有着较深的联系。现在博弈论正渗透到各门社会科学,更重要的是它正深

6、刻地改变着人们的思维。,引 言,汪贤裕、肖玉明编著,博弈论及其应用,科学出版社,2008年2月潘天群著,博弈生存(第二版),中央编译出版社,2004年10月王春永编著,博弈论的诡计,中国发展出版社,2007年1月,参考书,博弈论研究的对象:是理性的行动者或参与者如何选择策略或如何作出行动的决定。理性的人是对现实的人的基本假定,即假定参与者努力用自己的推理能力使自己的目标最大化。“理性的”与“道德的”不是一回事,理性的与道德的有时会发生冲突,但是理性的人不一定是不道德的。,基本术语,博弈涉及哪些内容呢?博弈涉及至少两个独立的博弈参与者(player)。博弈涉及行动者存在着策略(strategy)

7、选择的可能,博弈论用策略空间来表示参与者可以选择的策略。 参与者在不同策略组合下会得到一定的支付(payoff)。 对于博弈参与者来说,存在着一博弈结果。 博弈涉及均衡。重要的均衡纳什均衡。,基本术语,根据参与者能否形成约束性的协议,以便集体行动,博弈可分为合作性博弈和非合作性博弈。纳什等博弈论专家研究得更多的是非合作性博弈。合作性博弈:是指参与者从自己的利益出发与其他参与者谈判达成协议或形成联盟,其结果对联盟方均有利; 非合作性博弈:是指参与者在行动选择时无法达成约束性的协议。人们分工与交换的经济活动就是合作性的博弈,而囚徒困境则是非合作性的博弈。,博弈的类型,博弈又可分静态博弈和动态博弈。

8、静态博弈:指参与者同时采取行动,或者尽管参与者行动的采取有先后顺序,但后行动的人不知道先采取行动的人采取的是什么行动。动态博弈:指参与者的行动有先后顺序,并且后采取行动的人可以知道先采取行动的人所采取的行动。,博弈的类型,从知识的拥有程度来看,博弈分为完全信息博弈和不完全信息博弈。信息是博弈论中重要的内容。完全信息博弈:参与者对所有参与者的策略空间及策略组合下的支付有“完全的了解”,否则是不完全信息博弈。严格地讲,完全信息博弈是指参与者的策略空间及策略组合下的支付,是博弈中所有参与者的“公共知识”的博弈。不完全信息博弈:参与者所做的是努力使自己的期望支付或期望效用最大化。,博弈的类型,例:猪圈

9、里有两只猪,一只比较大,一只比较小。猪圈狭长,猪食槽在一头,猪食按钮在另一头,按一下会有10个单位的猪食落进槽里。由于按钮和食槽距离较远,按按钮的体力耗费相当于2个单位的食物。,模型一、智猪博弈/完全信息静态博弈,大猪和小猪分别该如何选择。,选择等待是小猪的占优策略。大猪的最佳选择取决于小猪的行动,如果小猪去按,大猪最好选择等待;如果小猪不去按,则最佳选择是大猪亲自去按。也就是说,在智猪博弈中,大猪没有占优策略,而小猪有占优策略,它的最佳选择就是耐心等待大猪去按钮,才能获得最佳结果。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的

10、距离。,模型一、智猪博弈/完全信息静态博弈,如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。改变方案一:减量方案。改变方案二:增量方案。改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。,模型一、智猪博弈/完全信息静态博弈,在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境” (prisonersdilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故

11、事。,模型二、囚徒困境/非合作博弈,假设:有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。,模型二、囚徒困境/非合作博弈,不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)

12、是一个占优战略均衡。,模型二、囚徒困境/非合作博弈,对于两个犯罪嫌疑人总体而言,他们设想的最好的策略可能是都不交代。但任何一个犯罪嫌疑人在选择不交代的策略时,都要冒很大的风险,一旦自己不交代而另一犯罪嫌疑人交代了,自己就将可能处于非常不利的境地。对于A而言,不管B采取何种策略,他的最佳策略都是交代。对于B而言也是如此。最后两人都会选择交代。,模型二、囚徒困境/非合作博弈,该博弈刻划了两大难题:冲突情形下,参与人的目标是什么?是采用(作为个人)他自己的最好策略,还是采用(作为集体的一员)他们共同的最好策略?前者导致均衡策略(坦白,坦白),支付为(-8,-8);后者的最好策略是(抵赖,抵赖),支付

13、为(-1,-1)。这里反映了个体理性行为与集体理性行为之间的矛盾、冲突。此博弈只进行一次还是重复进行?如果博弈只进行一次,参与人似乎只有坦白才是最好的策略,因为没有理由相信对手会对你有信心,他总认为你自己会坦白;因此,双方都采取坦白策略。然而,若博弈进行多次,则结论将会发生变化。,模型二、囚徒困境/非合作博弈,囚徒困境可以用来说明许多现象。寡头定价拍卖出价推销员的努力政治上的讨价还价军备竞赛等(冲突中出现两败俱伤的情况,往往要考虑到囚徒困境) *(纯策略)纳什均衡,模型二、囚徒困境/非合作博弈,什么是博弈论?试举两个你生活中的例子说明。某年在荷兰召开了一次“合作及社会两难困境研讨会”,与会者都

14、是博弈论的专家。 当大会结束之后,有两个学者,麦息克和路特提议大家玩一个游戏。 他们将一个大信封拿出来,请在场的位专家拿出金钱装到这个信封里。如果到最后这信封里的钱超过元,麦息克和路特将自己掏腰包,退还每人元。不过,如果最后信封内的钱不足元,就统统没收,大家拿不到半毛钱。 仔细想一想,如果你也在场,你会奉献多少钱呢?,问题与思考,什么是海萨尼转换? 海萨尼提出了一种处理不完全信息博弈的方法,即引入一个虚拟的局中人“自然”。自然首先行动,它决定每个局中人的特征。每个局中人知道自己的特征,但不知道别的局中人特征。这种方法将不完全信息静态博弈变成一个两阶段动态博弈,第一个阶段是自然N的行动选择,第二

15、阶段是除N外的局中人的静态博弈。这种转换被称为“海萨尼转换”,这个转换把“不完全信息”转变成为完全但不完美信息,从而可以用分析完全信息博弈的方法进行分析。,模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈,海萨尼转换的具体方法一个虚拟的参与人“自然”,自然首先决定参与人的类型,赋予各参与人的类型向量 ,其中 ; 自然告知参与者自己的类型,却不告诉其他参与者的类型; 参与者同时选择行动,每一参与者 从可行集 中选择行动方案 ; 各方得到收益 。 借助于第一步和第二步中虚构的参与者“自然”的行动,我们可以把一个不完全信息的博弈表述为一个不完美信息的博弈。,模型三、独立私人价值下的一级密封拍

16、卖/不完全信息静态博弈,海萨尼转换分析 海萨尼转换是处理不完全信息博弈的标准方法。一般地,“自然”在博弈开始的时候选择参与人的类型,参与人的某个类型包括表征类型的各个特征如策略空间、信息集、得益函数等,这些又称为该类型参与人所拥有的个人信息。 不完全信息意味着博弈各方中至少有一个参与人有多个类型。,模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈,通过海萨尼转换,博弈开始时,所有参与人有关“自然”的行动有一致的信念,即都知道所有参与人类型的概率分布函数,此即“海萨尼公理”。,模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈,经典案例解析例:某一市场原来被A企业所垄断。现在B企业

17、考虑是否进入。B企业知道,A企业是否允许它进入,取决于A企业阻挠B企业进入所花费的成本。如果阻挠的成本低,那么,正如下表后两列所表示的,A企业的占优战略是阻挠,博弈有重复剔除的占优战略均衡A阻挠,B不进入。如果阻挠的成本高,那么,正如下表前两列所表示的,A企业的占优战略是默许B进入,博弈有重复剔除的占优战略均衡A默许,B进入。B企业所不知道的,是A企业的阻挠成本是高是低。这里,某一参与人本人知道、其他参与人则不知道的信息称为私人信息。某一参与人所拥有的全部私人信息称为他的类型。在本例中,阻挠成本就是 A的私人信息。高阻挠成本和低阻挠成本则是两种不同的类型。,模型三、独立私人价值下的一级密封拍卖

18、/不完全信息静态博弈,海萨尼转换后的市场进入博弈:,模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈,显然,在这里,B所遇到的,是不确定性条件下的选择问题。因为B不仅不知道A的类型 (是高还是低),而且不知道不同类型的分布概率。,按照海萨尼的方法,所有参与人的真实类型都是给定的。其他参与人虽然不清楚某一参与人的真实类型,但知道这些可能出现的类型的分布概率,而且这种概率是公共知识。用本例来说,公共知识不仅意味着B企业知道A企业高阻挠成本与低阻挠成本的分布概率,而且意味着A也清楚B知道这一概率。,模型三、独立私人价值下的一级密封拍卖/不完全信息静态博弈,模型三、独立私人价值下的一级密封拍卖

19、/不完全信息静态博弈,N,低成本,高成本,A,B,B,(50,40),(300,0),(0,-10),(300,0),(100,30),(400,0),(140,-10),(400,0),A,B,B,默许,默许,阻挠,阻挠,进入,不进入,进入,进入,进入,不进入,不进入,不进入,*贝叶斯纳什均衡,言语博弈中的“威胁”与“承诺” 在现实中,我们经常看到声称的策略决定,但是这些声称的策略可信吗? 声称的策略包括“威胁”与“承诺”。在国际核武器问题上,我国及其他一些国家承诺“不首先使用核武器”就是一种言语承诺。 博弈论中,经常用“可置信”和“不可置信”的“威胁”或“承诺”来区分行动者说出来的策略,我

20、们在对动态博弈的分析中会分析什么样的策略是可置信的,什么样的策略是不可置信的。而分析“威胁”或“承诺”是可置信的还是不可置信的方法是倒推法。,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,倒推法(backward induction)也叫逆向归纳法。那么什么是倒推法? 要理解什么是倒推法,先来看一下商界里经常见到的博弈。 在某个城市假定只有一家房地产开发商A,我们知道任何没有竞争下的垄断利润是很高的,假定A此时每年的垄断利润是10亿元。,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,现在假定有另外一个企业B,准备从事房地产开发。面对着B要进入其垄

21、断的行业,A想:一旦B进入,A的利润将受损很多,B最好不要进入。所以A向B表示,你进入的话,我将阻挠你进入。假定当B进入时A阻挠的话,A的利润降低到2,B的利润是-1。而如果A不阻挠的话,A的利润是4,B的利润也是4。,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,这样一个博弈可用下图表示:,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,B,进入,不进入,A,A:10;B:0,阻挠,不阻挠,A:2;B:1,A:4;B:4,上图称之为博弈树。由上图可见,这个博弈由两阶段构成。我们称之为动态博弈,或者两阶段的动态博弈。博弈树是表示动态博弈的一个好方法

22、。 现在让我们回到房地产开发商之间的博弈问题。A的最好结局是“B不进入”,而B的最好结局是“进入”而A“不阻挠”。这两个最好的结局不能构成均衡。那么结果是什么呢?,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,A向B发出威胁:如果你进入,我将阻挠。而对B来说,如果进入,A真的阻挠的话,它将受损失-1(假定-1是它的机会成本),当然此时A也有损失。对于B来说,问题是:A的威胁可置信吗?B通过分析得出:A的威胁是不可置信的。原因是:当B进入的时候,A阻挠的收益是2,而不阻挠的收益是4。42,理性人是不会选择做非理性的事情的。也就是说,一旦B进入,A的最好策略是合作,而不是阻

23、挠。因此,通过分析,B选择了进入,而A选择了合作。双方的收益各为4。,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,在这个博弈中,B采用的方法为倒推法,或者说逆向归纳法,即:当参与者作出决策时,他要通过对最后阶段的分析,准确预测对方的行为,从而确定自己的行为。 在这里,双方必须都是理性的。如果不满足这个条件,就无法进行分析了。 这个例子只是简单的两阶段博弈,而三阶段或更多阶段的博弈,可用同样方法加以分析。 在动态博弈中,涉及“威胁”与“承诺”是不是可信的问题。静态地看,一博弈存在许多均衡。,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,上述“进入

24、阻挠”问题的博弈树可用支付矩阵表示:,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,在这个矩阵中,纳什均衡点有两个:(合作,进入)和(阻挠,不进入)。我们可以验证,在这两点上谁都不愿意改变策略。然而(阻挠,不进入)这个均衡是达不到的。因为这是动态博弈,在这个动态博弈中,存在着先后策略选择顺序。,这里分析的是完全且完美信息下的动态博弈。所谓完全信息是指:博弈的支付函数是“公共知识”。本书中未涉及不完全信息的博弈问题,如囚徒困境这样的静态博弈也是完全信息博弈。完美信息是针对动态博弈而言的,指参与者知道博弈的所有历史。 倒推法是动态博弈中有用的工具,它可以说是理性的人自然的推

25、理方式。然而倒推法面临着一个困难,这就是蜈蚣博弈的悖论。,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,前面我们分析了“威胁”是否可信,我们也可用同样的思路分析一个“承诺”是否可信。“不首先使用核武器”的承诺可信吗? *子博弈完美纳什均衡,模型四、Stackelberg双寡头竞争模型/完全且完美信息动态博弈,光天化日之下的违法行为为什么总能成功? 人类有许多关于猴子的故事,比如朝三暮四,杀鸡给猴看。其实猴子是没有思维的,它们有一定的群体意识,但没有社会意识,人们关于它们的故事其实是说人自己的。我们这里也讲一个猴子的故事。 在现实社会中,窃贼在公共场所比如公共汽车上偷东西

26、时,车上的乘客看到了,但不敢吭声。没有被偷的人想,反正被偷的待宰猴群的结局人不是我,我反抗了,我得不到任何好处,反而遭到伤害;而不反抗虽不得益,但也不受损,我何必要反抗呢?这就是光天化日之下的偷窃行为为什么总能成功的原因。,模型五、信号博弈/不完全信息动态博弈,窃贼在偷东西时发出这样的信号:如果谁反抗,将殴打谁。乘客想,窃贼的威胁是可信的:因为如果个别乘客反抗,而窃贼不殴打该乘客的话,就会有更多的乘客抓窃贼,窃贼将有可能被抓,因此窃贼必然欧打反抗的乘客。 乘客的策略及可能的支付为:反抗,有可能被殴打甚至受伤;不反抗,无所得也无所失。,模型五、信号博弈/不完全信息动态博弈,乘客,反抗,不反抗,偷

27、东西,窃贼,窃贼,殴打,不殴打,乘客:受伤窃贼:可能被抓, 可能逃脱,乘客:无所得, 无所失窃贼:被抓,窃贼,殴打,不殴打,乘客:受伤窃贼:得到赃物,乘客:无所得, 无所失窃贼:得到赃物,对于乘客来说,窃贼的威胁是可信的,因而乘客的最优策略是“不反抗”;而对于窃贼来说,乘客“不反抗”下的“不殴打”策略为最忧。 这一博弈的结果是,窃贼偷东西时“乘客不反抗,窃贼不敢打”,这是一“子精炼纳什均衡”。 这样一种群体不反抗的结果将使社会风气恶化,偷窃之风盛行。对个体来说,虽然这一次被偷的不是你,但下次你被偷的几率增加了。这使得我们都如同待宰的猴子,我们不知道什么时候轮到我们自己。这样,我们每个人的处境比

28、以前更差。,模型五、信号博弈/不完全信息动态博弈,如何从这种困境中摆脱出来?我们看到,使乘客采取“反抗”策略,而非“不反抗”策略在于加大采取“反抗”策略的获益,而减少不反抗的获益。当“反抗”策略下的获益大于“不反抗”策略下的获益时,乘客就会采取“反抗”的策略。 加大道德宣传,培养人的道德感可以解决这个囚徒困境。,模型五、信号博弈/不完全信息动态博弈,乘客,反抗,不反抗,偷东西,窃贼,窃贼,殴打,不殴打,乘客:受伤,但没有 道德满足感窃贼:可能被抓, 可能逃脱,乘客:没有受伤 并有道德 满足感窃贼:被抓,窃贼,殴打,不殴打,乘客:受伤,并有 道德耻辱感窃贼:得到赃物,乘客:道德耻 辱感窃贼:得到

29、赃物,上述博弈过程为:,这样,当小偷偷东西时,尽管乘客认为窃贼的威胁是可信的,但是如果乘客是道德感强的人,那么博弈结果是“乘客反抗,小偷殴打”,从而小偷有可能被抓住,这也是一“子精炼纳什均衡”。 博弈论对不合作的博弈结果的预测是令人悲哀的。但是,从这个例子我们看到,道德就是由群体实施的对所谓“非道德”的行为进行非强制性的惩罚机制,而法律及实施法律的国家的形成与改进就是建立一个对所谓“违法行为”实施的中心惩罚机制。 *精炼贝叶斯纳什均衡;混同均衡;分离均衡,模型五、信号博弈/不完全信息动态博弈,哪种策略更能赢? 假定我们的社会已经形成约束行动者的道德规范。如果对不道德的行为不能产生即时的惩罚,不

30、道德的行为在社会中往往能给行为者带来好处。这表现在一次性的非合作的博弈中,行为者理性地选取对自己有利的行动。但是,如果存在重复博弈,参与者之间对不合作行为就会形成惩罚机制。 对囚徒困境进行无限次的重复博弈,什么样的策略会赢?,模型六、有效工资率/重复博弈,这里涉及参与者以什么样的态度对待对方的不合作策略。在博弈论里,有两个著名的策略。 如果一方采取不合作的策略另一方随即也采取不合作策略并且永远采取不合作策略,在博弈论里面称之为触发策略,或称冷酷策略,英文叫trigger strategy。,模型六、有效工资率/重复博弈,如果对方知道你的策略是触发策略,那么对方将不敢采取不合作策略,因为一旦他采

31、取了不合作策略,双方便永远进入不合作的困境。因此,只要有人采取触发策略,那么双方均愿意采取合作策略。但是这个策略面临着这样一个问题:如果双方存在误解,或者由于一方发生选择性的错误,这个错误是无意的,那么结果将是双方均采取不合作的策略。也就是说,这种策略不给对方一个改正错误或解释错误的机会。,模型六、有效工资率/重复博弈,第二种策略是,若你采取不合作策略,我也采取不合作策略,但是如果你采取了合作策略,我也采取合作策略。这叫“一报还一报”策略,或者称之为“针锋相对”,英文叫tit-for-tat。美国密执安大学的罗伯特埃克斯罗德(Robert Axerold)主持了一次计算机比赛,看谁写出来的程序

32、能够赢。参加者有政治学家、数学家、经济学家、社会学家,他们都详细研究过囚徒困境。获胜者是加拿大多伦多大学的拉波波特写出的tit-for-tat策略。这个程序非常简单:第一步采取合作,接着对方采取什么策略,他便跟着做什么。,模型六、有效工资率/重复博弈,当然有多种策略,如对方采取了不合作,但自己永远采取合作策略,这个策略可以叫做“以德报怨”策略。这个策略对行动者最为不利,因为对方知道你采取这种策略,他会永远采取不合作的策略,因而理性的人是不会采取这种“以德报怨”策略的。然而,极端道德的人是超越理性的限制的,此时他会采取“以德报怨”策略。佛说:“我不入地狱,谁入地狱?”基督说:“爱你的敌人。”他们

33、爱一切人而不会计算他爱的行动会给他带来利益或灾难,而是希望他的行动感化众生。,模型六、有效工资率/重复博弈,如果是有限次的囚徒困境,那么情况就不同于上述无限次的囚徒困境的重复博弈。当临近博弈的终点时,采取不合作策略的可能性加大,如果参与人以前的所有策略均为合作策略,并且被告知下一次博弈是最后一次,那么双方肯定采取不合作的策略。 这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买卖机会的时候,尽量谋取高利并且带欺骗性是其特点。而靠“熟客”、“回头客”便是通过薄利行为使得双方能继续合作下去。,模型六、有效工资率/重复博弈,非合作博弈理论把存在于如银行业经营、国际融资选择、商业周期出现、

34、社会习俗形成和中介机构出现及制度设计等各经济领域的协调问题模型化为协调博弈,存在多个严格纳什均衡是这类博弈根本特点,协调博弈成为了继囚徒困境博弈之后又一被广泛研究的博弈类型。多重均衡是对传统经济理论的一个挑战,也是非合作博弈理论致命之所在,为寻找解决协调问题的方法,学者们从理论上对协调博弈进行了广泛而深入的探讨。 协调博弈理论研究有助于解决非合作博弈的多重均衡问题,在近十几年成了为学术界关注的焦点。,模型七、价格竞争博弈/协调博弈,对称协调博弈是指无角色区分的参与之间进行的协调博弈,它表现在支付函数的对称上,策略集是一样的。从形式上看:对称协调博弈就是博弈支付矩阵主对角线上的元素都是纳什均衡的

35、博弈。协调博弈的均衡选择并不涉及到激励问题而依赖于参与人之间对博弈如何进行有充分相似的信念。正是由于信念形成是一个相对复杂的过程,所以对协调博弈均衡问题的研究也就显得非常复杂,不同的信念形成过程动态就会产生不同的均衡。,模型七、价格竞争博弈/协调博弈,对称协调博弈是一类特殊的博弈,均衡选择不仅要满足预期的一致性,而且要满足行动的一致性,因此,博弈结果必定收敛到纯策略而非混合策略纳什均衡。更为重要的是,协调博弈还有策略互补性及支付外溢性这两个重要特征,它是分析协调博弈多重均衡问题的出发点。对称协调博弈分成三类:支付占优与风险占优不一致;支付占优与风险占优一致(严格纳什均衡可进行帕累托排序均衡);

36、无占优性可比的协调博弈。,模型七、价格竞争博弈/协调博弈,支付占优与风险占优不一致的协调博弈 这类博弈最典型的例子就是猎鹿博弈。有两个打猎人,他们可以合作去猎鹿也可以单独去猎兔,如果合作猎鹿,那么两个都可以分得4个单位的支付;如果一个人去猎鹿而另一个人去猎兔,那么前者支付为0(因为猎鹿需要两个人合作可以成功)后者的支付为2;如果两个人不合作都去猎兔,那么他们都可以得到3单位的支付。,模型七、价格竞争博弈/协调博弈,显然该博弈有两个纯策略严格纳什均衡,即要么两个合作猎鹿,要么两人去猎兔与一个混合策略纳什均衡。按Harsayi and Selten(1988)的定义,纯策略猎鹿是支付占优纳什均衡、

37、纯策略猎兔是风险占优纳什均衡。猎兔策略是一个保险策略,而猎鹿博弈则是一个帕累托效率策略,但行动的不确定性使猎鹿策略具有较大的风险。因此,均衡选择取决于参与人对风险的态度。,模型七、价格竞争博弈/协调博弈,由于存在两个纯策略纳什均衡,现实中究竟哪个均衡会出现就是一个问题,这是多重纳什均衡下的困境。 通过比较“猎鹿博弈”,明显的事实是:两人一起去猎鹿的好处比各自打兔的好处要大得多。用一个经济学术语来说,两人起去人头猎鹿比各自去打兔更符合帕累托最优原则。,模型七、价格竞争博弈/协调博弈,这一案例中有一个隐含的假设:两个猎人的能力和贡献差不多,所以双方均分猎物。但是实际情况显然不会这么简单。如果一个猎

38、人的能力强、贡献大,他就会要求得到较大的一份,这样分配的结果就可能是(14,6)或(15,5)。但有一点是肯定的,能力较差的猎人的所得,至少要多于他独自打猎的所获,否则他就没有合作的动机。假设猎人甲在猎鹿过程中几乎承担了全部的工作,他据此要求最后的分配结果是(17,3)。这时,模型七、价格竞争博弈/协调博弈,相对于分别猎兔的收益(4,4),合作猎鹿就不具有帕累托优势。虽然这样17比4多,改善了很多,17+3也比4+4大得多,猎人总体收益也改善了很多,但是由于3比4小,猎人乙的境遇不仅没有改善,反而恶化。也就是说他的收益受到了损害。所以站在乙的立场,(17,3)没有(4,4)好。如果合作结果是这

39、样,那么,乙一定不愿合作。所以,为了实现帕累托最优,就必须充分照顾到合作者的利益,使他的收益大于不合作时,他才会愿意选择合作,从而实现双赢的最佳结局。,模型七、价格竞争博弈/协调博弈,协调、合作与互动 在许多研究中,人们通常把协调与合作看作同一个事物,容易引起混淆,但博弈论却能够很好地进行区分,下面以囚徒困境与猎鹿博弈来给予说明,支付矩阵如下表4表5:,模型七、价格竞争博弈/协调博弈,协调博弈解决的是源于参与人之间策略不确定性以及由此引起的行为预期问题。 猎鹿博弈中,如果一个参与人选择猎兔,另一个参与人选择猎鹿,那么前者得到支付2,后者得到支付0,猎兔策略不是占优策略。由于不能够确定其他参与人

40、是否会选择猎鹿策略,尽管每个参与人都意识到这样可以带来更多的支付,但他们不会选择有较高风险的猎鹿策略,因而系统难以达到帕累托效率均衡,因此,解决协调问题就要参与人相信其他人会选择帕累托效率策略,在这里需要强化参与人之间的相互信任。,模型七、价格竞争博弈/协调博弈,囚徒困境博弈研究的是处于竞争关系两参与人之间的合作问题,如果一个参与人选择欺骗,另一个参与人选择合作,那么前者得到支付3,后者得到支付0,欺骗策略是占优的。求解囚徒困境博弈的困难在于个人激励与群体目标并不一致,因而,要求参与人把个人目标放到第二位,而把集体目标放在第一位。,模型七、价格竞争博弈/协调博弈,协调博弈与囚徒困境博弈存在着两

41、种不同形式的互动: 协调互动 合作互动 协调互动是指一个参与人获得的支付依赖于其他参与人是否选择了相同行动,如左行右行博弈,如果两个相对而行的参与人选择不同的方向行进,那么他们会相碰,而选择相同方向则可以顺利通过。,模型七、价格竞争博弈/协调博弈,合作互动是指既存在协调又存在冲突的博弈,协调是因为两个参与同时改变行动可以变得更好,冲突是因为尽管其他参与人承诺行动,也不一定有利于该参与人支付的增加,前者可能引起无效率,后者则意意味着无效率状态会成为均衡,,猎鹿类型协调博弈,由策略不确定性所引起的均衡结果依赖于参与人之间的行为预期、博弈支付与策略风险;当 时也是最小努力类型协调博弈支付占优与风险占

42、优是统一的,均衡结果依赖于行为预期与博弈支付。现在进一步分析支付值x的变化对合作与协调的影响。囚徒困境博弈中,随着支付值x的增加,不合作的激励就会越大,追求个人理性的参与人使系统更易于偏离集体目标。猎鹿类型博弈中,参与人对系统达到支付占优均衡的期望值会随着支付值x的增加而减少,选择合作的风险就会越来越大;最小努力类型博弈中,尽管结果(欺骗,欺骗)是一个均衡,但x的下降使欺骗策略会面临更大的风险。,当 时就是囚徒困境博弈,个人理性并不追求集体最大化目标,唯一的均衡是(欺骗,欺骗);当 时就是,夏普里(Shapley)值与夏普里一苏比克权力指数 夏普里一苏比克权力指数是最早提出的一种权力指数,它是

43、夏普里和苏比克在1954年的一篇文章“评价委员会中权力分布的一个方法”中提出的,而该权力指数是基于“夏普里值”之上的。如果说纳什均衡是非合作博弈中的核心概念的话,那么我们可以说,夏普里值(Shapley Value)是合作博弈(或联盟博弈)中的最重要的概念。,模型八、财产分配问题和Shapley值/合作博弈,考虑这样一个联盟博弈。有一个三人财产分配问题:假定财产为100万元,假定这100万元在三个人之间进行分配。a拥有50%的票力,b拥有40%的票力,c拥有10%的票力。规则规定,当超过50%的票认可了某种方案时,才能获得整个财产,否则三人将一无所获。 我们看到,任何单独一个人的票力都不超过5

44、0%,从而不能单独决定财产的分配。要超过50%的票力必须要形成联盟。也就是说,在这个例子中任何人的权力都不是决定性的,也没有一个人是无权力的或权力为0。,模型八、财产分配问题和Shapley值/合作博弈,夏普里(LSShapley)提出了一种分配方式,根据他的理论求得的联盟者的先验实力被称为夏普里值(Shapley Value)。夏普里值是这样的一个值:在各种可能的联盟次序下,参与者对联盟的边际贡献之和除以各种可能的联盟组合。在财产分配问题上,我们可以写出各种可能的联盟顺序。而边际贡献就在于在这个顺序中谁是这个联盟的“关键加入者”。如果是关键加入者,那么他的边际贡献就为100万元。,模型八、财

45、产分配问题和Shapley值/合作博弈,财产问题中各种排列下的关键加入者,模型八、财产分配问题和Shapley值/合作博弈,由上表,我们得出a、b、c的夏普里值分别为: 夏普里值是先验实力的一种度量,我们可以根据夏普里值来划分财产。按照夏普里值我们可以将财产分为a:2/3,b:1/6,c:l/6,单位为百万元。,根据夏普里值定义,所有排列的顺序是等可能的。而在每一个排列下,每个参与者对这个排列的联盟有一个边际贡献。在投票博弈中,这个值反映的是参与者与其他参与者结成联盟的可能性,因此夏普里值反映的是参与者的“权力”。 夏普里值用于权力分析时,使得到了夏普里一苏比克权力指数。 据夏普里与苏比克的分

46、析,美国总统与参议院及众议院的权力指数之比为2;5;5,而总统与一个参议员、一个众议员的权力比为:350:9:2。就是说,美国总统的权力几乎是一位参议员的权力指数的40倍,是众议员的175倍。,模型八、财产分配问题和Shapley值/合作博弈,8个金币的故事,约克和汤姆结对旅游。约克和汤姆准备吃午餐。约克带了3块饼,汤姆带了5块饼。这时,有一个路人路过,路人饿了。约克和汤姆邀请他一起吃饭。路人接受了邀请。约克、汤姆和路人将8块饼全部吃完。吃完饭后,路人感谢他们的午餐,给了他们8个金币。路人继续赶路。 约克和汤姆为这8个金币的分配展开了争执。汤姆说:“我带了5块饼,理应我得5个金币,你得3个金币

47、。”约克不同意:“既然我们在一起吃这8块饼,理应平分,8个金币的故事,这8个金币。”约克坚持认为每人各4块金币。为此,约克找到公正的夏普里。 夏普里说:“孩子,汤姆给你3个金币,因为你们是朋友,你应该接受它;如果你要公正的话,那么我告诉你,公正的分法是,你应当得到1个金币,而你的朋友汤姆应当得到7个金币。” 遵循的原则是:所得与自己的贡献相等。,什么是博弈论?试举两个你生活中的例子说明。在荷兰召开了一次“合作及社会两难困境研讨会”,与会者都是博弈论的专家。 当大会结束之后,有两个学者,麦息克和路特提议大家玩一个游戏。 他们将一个大信封拿出来,请在场的位专家拿出金钱装到这个信封里。如果到最后这信

48、封里的钱超过元,麦息克和路特将自己掏腰包,退还每人元。不过,如果最后信封内的钱不足元,就统统没收,大家拿不到半毛钱。仔细想一想,如果你也在场,你会奉献多少钱呢?,问题与思考,谢谢!,均衡是经济学中的重要概念。均衡即是平衡的意思,在英文中是equilibrium。在经济学中,均衡意即相关量处于稳定值。均衡分析是经济学中的重要分析。所谓博弈均衡,它是一稳定的博弈结果。均衡是博弈的一种结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,因而是可以预测的。,均衡,纳什均衡是博弈分析中的重要概念。纳什均衡简单说就是,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是

49、最好的。也就是说,此时如果他改变策略,他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。,纳什均衡(Nash Equilibrium),是不是所有的博弈均存在纳什均衡点呢?不一定存在纯策略纳什均衡点所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。但至少存在一个混合策略(mixed strategy)均衡点所谓混合策略是指参与者采取的不是惟一的策略,而是其策略空间上的一种概率分布。这就是纳什于1950年证明了的纳什定理。通俗地说纳什均衡就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。,纳什均衡(Nash Equilibrium),

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号