《理性双矩阵经济博弈的期望均衡分析.docx》由会员分享,可在线阅读,更多相关《理性双矩阵经济博弈的期望均衡分析.docx(10页珍藏版)》请在三一办公上搜索。
1、几个常见理性双矩阵经济博弈的期望均衡分析 基金项目:国家自然科学基金(78970025)作者简介:姜殿玉(1955-),男,辽宁凌源市人,教授。研究方向:博弈论与决策经营分析。姜殿玉 淮海工学院经济管理系,江苏,连云港,222001摘要:关于完全信息静态博弈,有纯Nash均衡,混合Nash均衡和相关均衡等概念。如果每个局中人除了博弈的结构以外其他一无所知是全体局中人的共同知识(称为完全静态的),那么期望均衡是在极大熵准则是全体局中人的共同知识的条件下的一种均衡。本文首先介绍理性对策及其期望均衡的概念,然后由此分析了在文献中经常出现的一些经典博弈的期望均衡的结果,并与混合Nash均衡结果进行比较
2、。说明对于完全静态博弈,当局中人比通常情况下聪明(极大熵准则是他们的共同知识)的时候,其决策结果比混合Nash均衡更为确定和具有理性。关键词:极大熵准则,完全静态博弈,混合Nash均衡,期望均衡Expected Equilibrium Analysis on Some Rational Economics Bi-matrix GamesJIANG DianyuSchool of Economical Management, Huaihai Institute of Technology, Lianyungang, 222001, China Abstract: In a static game
3、 with complete information, we have the concepts of pure Nash equilibria, mixed Nash equilibria and correlated equilibria. If it is all the players common knowledge that every player knows nothing except structure of the game, called completely static, then a so called expected equilibrium was defin
4、ed that is an equilibrium in the case that maximum entropy principle is all the players common. In this paper, we introduce the concepts of a rational game and its expected equilibria, then analysis the expected equilibria in some classical games in many literatures. We compare the expected equilibr
5、ia and mixed Nash equilibria in these games as well. The results show that for a completely static game the players decision results are more certain and rational if they are more intelligent, i.e. maximum entropy principle is their common. Keywords: maximum entropy principle; completely static game
6、; mixed Nash equilibrium; expected equilibrium1引言传统的完全信息静态博弈假定(1)局中人的集合,(2)每个局中人的行动集合和(3)博弈的效用函数是全体局中人的共同知识1。但是并不要求全体局中人的共同知识的集合中不含有其他成分。如果这种博弈不含有其他成分,那么就称为完全静态博弈2-4 。如果局中人的共同知识集合中有并且仅仅有(1),(2),(3)和(4)极大熵准则5:如果局中人对于可能发生的随机事件仅仅有一部分信息,那么他在决策时应该选择使得不知道的信息的不确定性达到最大的策略,那么这个博弈称为理性博弈2-4。文献2,7关于理性博弈引进了期望均衡的
7、概念,并且给出其算法。文献2对于经典的博弈问题囚徒困境、 夫妻争执和鹰-鸽博弈用期望均衡的概念进行了探讨,所得结论是经典均衡无法得到的,并且更符合实际。本文首先介绍理性对策及其期望均衡的概念,然后由此分析了在文献中经常出现的一些经典博弈的期望均衡的结果,并与混合Nash均衡结果进行比较。说明对于完全静态博弈,当局中人比通常情况下聪明(极大熵准则是他们的共同知识)的时候,其决策结果比混合Nash均衡更为确定和具有理性,且均衡的计算非常简洁。2、理性双矩阵博弈设1和2是两个局中人,和分别是局中人1和2的行动集合。和分别是局中人1和2的支付矩阵,即当剧中人1和2分别采用行动和时,局中人1和2分别得到
8、效用和。设单纯形,分别是局中人2和1的判断集合9,即表示局中人2判断局中人1以概率选择行动,表示局中人1判断局中人2以概率选择行动。设是可能取值为1,2,n的随机变量,其概率分布列为,那么对于不同的概率分布列,随机变量取值的不确定性可能不同例如对于三个服从0-1分布的随机变量,;,;,的不明确性最小:几乎必然取1;的不明确性次之,而的不明确性最大:以同样的可能性取0和1给定随机变量的分布列,我们用符号表示其不明确性1948年,Shannon证明了10,这里规定,式中的是正常数,通常可以取作1称为Shannon熵对于取定的底,记随机变量的Shannon熵是这个随机变量在一次试验中究竟取什么值的不
9、明确性或“模糊度”的度量,也就是要准确判定这个随机变量究竟取什么值所需要的平均信息量定理1 11(1),(2)当且仅当存在着使得,(3)当且仅当定义1 一个双矩阵对策称为完全静态的,如果局中人1,2的共同知识集合为。极大熵准则(PME):对于完全静态博弈,局中人1(或2)判断局中人2(或1)以概率(或)的随机变量(或)的Shannon熵最大。定义2 一个双矩阵对策称为理性的,如果局中人1,2的共同知识集合为。给定理性双矩阵对策,因为局中人1(或2)判断对方以概率(或)采取行动(或),所以当局中人1(或2)采取行动(或)时,其赢得的主观期望为(或)。局中人1(或2)应该选择使得其主观期望(或)最
10、大的行动(或)。定义3称为理性博弈的期望均衡集合。 显然期望均衡集合总是存在的并且可交换的,所以总可以实现。3小偷-守卫博弈 8一个小偷欲偷窃有一个守卫看守的仓库。如果小偷偷窃时守卫在睡觉,则小偷就能得手,偷得价值为的赃物;如果小偷偷窃时守卫没有睡觉,则小偷就会被抓住。设小偷被抓住后要坐牢,负效用为。守卫睡觉而未遭偷窃有的正效用。因睡觉被解雇的负效用为。如果小偷不偷,则他既无得也无失。守卫不睡觉意味着出一分力挣一分钱,也无得失。则赢得矩阵为。这个例子出现在文献8(pp.94),起源于Selten, R教授于1996年3月在上海的一次演讲,作者用图解法分析了这个博弈的混合Nash均衡。显然,这个
11、对策没有纯Nash均衡。按照传统方法,可得混合Nash均衡和失盗的概率分别为,。解释:是固定的。当较大时,对于守卫失盗后果严重时(比如守卫知道自己被解雇以后再也找不到待遇与现工作相当的新工作,而只能比现工作差,则守卫必然珍惜现有工作,尽职尽责不睡觉)是双方的共同知识。小偷在行窃的时候就要谨慎行事,故行窃的概率较小。当固定,较小时,小偷被抓住的惩罚相对于仓库里的物品较轻是双方的共同知识,那么守卫就会知道小偷偷的可能性较大,从而守卫睡觉的可能性较小。当固定,较小时,仓库里的物品比较廉价时说方的共同知识。守卫就会知道小偷下手的可能性不大,从而守卫睡觉的可能性较大。实施方法:如果小偷有次对这个仓库起贼
12、心,那么他最好随机选择次下手。守卫在天值班中最好随机选择天睡觉。这样,失盗的概率是。现在做期望均衡分析。易知,;,。情况1当时,。说明当物品较贵重(比如仓库是黄金库),小偷被抓惩罚较轻(比如判刑一年);对于守卫失盗也无所谓时(比如守卫知道即使被解雇,也可以马上找到新工作其待遇不低于当时待遇),期望均衡为(偷,睡觉)。结果是失盗。情况2当时,。说明当物品较廉价(比如都是发泡塑料废品。),小偷被抓惩罚较重(判刑一年);对于守卫失盗后果严重时(比如守卫知道自己被解雇以后再也找不到待遇与现工作相当的新工作,而只能比现工作差,则守卫必然珍惜现有工作,尽职尽责不睡觉)。期望均衡为(不偷,不睡觉)。情况3当
13、时,。说明当物品较廉价,小偷被抓惩罚较重;对于守卫失盗也无所谓时,期望均衡为(不偷,睡觉)。情况4当时,。说明当物品较贵重,小偷被抓惩罚较轻;对于守卫失盗后果严重时,期望均衡为(偷,不睡觉)。4穷人-富人巡逻博弈(见12 pp.11-12)在一个小区里,住着一个富人,一个穷人。组织夜间巡逻能够有效防止偷盗,但夜间巡逻的成本为。假设富人的财产为,穷人的财产为,显然。如果两人都巡逻,那么巡逻成本由两人均摊;如果只有一个人巡逻,那么成本由巡逻者承担。如果富人和穷人都巡逻,富人的收益为,穷人收益为。如果穷人巡逻,富人“搭便车”不巡逻,那么富人收益为;穷人收益为。如果富人巡逻,而穷人不巡逻,那么富人的收
14、益为。穷人“搭便车”财产得保,受益为。如果两人都不巡逻,则两人财产都被偷光,收益都是零。于是得到赢得矩阵为。纯Nash均衡为(不巡逻,巡逻)和(巡逻,不巡逻)。但是这两个Nash均衡是有分歧的,因而无法实现。下面讨论几种情况(巡逻成本理解为雇用保安的工资)1、当时,有,。期望均衡为(巡逻,巡逻)。这就是说,当穷人不是十分贫穷,其财产多于巡逻成本的二分之三时,穷人和富人都巡逻(越富有,责任心越大)。2、当时,。期望均衡为(不巡逻,不巡逻)。这就是说,当富人的财富小于巡逻成本的二分之三时,穷人和富人都不肯巡逻。理解为如果富人和穷人都雇不起保安,那么两户都不巡逻。充分穷的时候,即使被盗也没有什么损失
15、。即所谓“死猪不怕开水烫”,乞丐不怕招小偷。3、当时,。期望均衡为(巡逻,不巡逻)。这就是说,如果富人充分富,穷人充分穷,那么富人重视自己的财产,巡逻的积极性就高;而穷人失盗也无所谓,所以巡逻的积极性不高。倾向于搭便车。在12 pp.11-12中,从而符合这种情况。结论是富人巡逻,穷人“搭便车”。但是在该文献中,这个结论是由逻辑推理得出的,而不是用数学方法得到的。 此例说明,纯Nash均衡分析结果失效,但期望均衡分析结果给出比较符合实际的结果。5智猪博弈1猪圈里圈着一大一小两头猪。猪圈的一头有一个猪食槽,另一头安装着一个按钮,控制着猪食的供应。按一下按钮,有个单位的猪食进槽,但需要支付个单位的
16、成本。如果大猪等待,小猪按按钮,那么大猪吃到个单位的猪食,小猪吃到个单位的猪食。如果大猪按按钮,小猪等待,那么大猪吃到个单位的猪食,小猪吃到个单位的猪食。如果两头猪都去按按钮,那么大猪吃到个单位,小猪吃到个单位。如果两头猪都等待,那么谁也吃不到猪食。由于按完按钮后再跑到猪食槽处需要一定的时间,所以按按钮的猪比等待的猪吃到猪食要晚一些,因此有(1)。此外假定:(2),(3)。试分析可能出现的局势。由于按按钮的猪需要付出个单位的成本,所以赢得矩阵为。因为,。所以纯Nash均衡为(按,等),即大猪按,小猪等。又因为。所以期望均衡为(等,等),即大猪和小猪都等待。如果解释上述期望均衡的不合理结论呢?我
17、们注意到,即使两头猪都很有智慧,但是也必须在它们彼此对于对方的决策信息一无所知的条件下,期望均衡才有意义。然而,从纯Nash均衡的计算结果可以看出,这个纯Nash均衡为(按,等)是可以实现的,因此有智慧的两头猪必然去实现这个纯Nash均衡。这就是说,两头智猪并非对于对方的决策信息一无所知。从而上述期望均衡无意义。注意:在1中,。满足条件(1),(2),(3)。6查税-逃税博弈1。期望均衡分析,。情况1 当,时,。期望均衡为(不检查,逃税)。情况2 当,时,。期望均衡为(不检查,不逃税)。情况3 当,时,。期望均衡为(检查,逃税)。情况4 当,时,。期望均衡为(检查,不逃税)。 上述各种情况解释
18、为,如果应纳税款与罚款数的平均数小于(或大于)检查成本,那么税收机关不检查(或检查)。如果应纳税款小于(或大于) 罚款数,那么纳税人不逃税(逃税)。 因此分析结果非常合理。 文献1按照传统的计算混合Nash均衡的方法给出了结论与解释。这种解释是按照查税和逃税比例进行的。与我们对结论完全不同。7社会福利博弈1政府和流浪汉博弈。政府的两个策略是救济流浪汉(行动1)和不救济流浪汉(行动2 )。流浪汉的两个策略是寻找工作(行动1)和游荡(行动2)。政府想帮助流浪汉,但是前提是流浪汉必须试图寻找工作,否则政府政府不给予帮助;而流浪汉只有在得不到政府的救济时才会寻找工作。赢得矩阵是。首先分析政府的偏好。宁
19、愿出现政府不救济、流浪汉游荡的情况,也不愿意出现政府救济,而流浪汉仍然游荡的情况不如,因此有。由于流浪汉在找工作的情况下,政府希望救济他,所以政府宁愿出现流浪汉游荡、政府不救济的情况,也不愿意出现流浪汉找工作而政府不救济的情况,所以有。政府的目的是通过救济而激励流浪汉找工作,所以政府偏爱救济使得流浪汉找工作的情况,而不希望流浪汉游荡、政府不救济的情况出现。所以有。最后,假定政府救济流浪汉,但是流浪汉却不去找工作的情况和虽然流浪汉找工作但是却没有得到政府的救济的情况无差异,即。现在分析流浪汉的偏好。在政府不救济的情况下生活无着落,所以流浪汉希望能找到工作,而不希望游荡。因此有。在流浪汉找工作的情
20、况下,当然希望政府也救济他,所以有。在政府救济的情况下,流浪汉有了钱,就想继续游荡,而不希望找工作。所以有。综上所述有不等式,。显而易见,博弈没有纯Nash均衡。按照传统的计算方法,混合Nash均衡为。 设想某城市里有个流浪汉,这个流浪汉集体是有组织的,政府也掌握这种情况。那么政府最好随机抽取(比如用抓阄的方式)个流浪汉加以救济。而流浪汉随机抽出(也用抓阄的方式)个流浪汉找工作。期望均衡分析:因为,所以在政府无法知道流浪汉究竟找工作还是流浪的情况下,应该选择救济。在流浪汉无法知道政府究竟给不给救济的情况下,如果在找工作时政府救济和不救济的总效用大于(或小于)游荡的效用,那么应该选择找工作(或游
21、荡)。8、评注 期望均衡是一种全新的均衡概念,它与传统的Nash均衡的思想,求解方法和解释都是截然不同的。为实际博弈提供了另外一种参考。1虽然混合Nash均衡和期望均衡都是从效用的期望值考虑问题的,但是前者给出的结果是随机性的,后者给出的结果是确定性的。2混合Nash均衡和期望均衡都具有存在性。3当混合Nash均衡不唯一且不可交换时,难于实现;期望均衡总可以实现。4混合Nash均衡适合于一般完全信息静态博弈;期望均衡仅仅适合于理性博弈。5如果能够实现纯Nash均衡,那么期望均衡无意义。参考文献1 张维迎,博弈论与信息经济学M, 上海:上海人民出版社,19962 Jiang Dianyu, St
22、atic, Completely Static, and Rational Games of Complete Information and Their Different Nash Equilib页:10原文是Equilibra丢掉了iria J, International Journal of Innovative Computing, Information and Control, 2008,4(3) (to appear)3 Jiang Dianyu, Equivalent Representations of Bi-matrix Games J, International J
23、ournal of Innovative Computing, Information and Control (to appear)4 Jiang Dianyu, Neumann-Morgenstern Stable Set of a Finite Static Strategy Game J, Journal of Mathematical Control Science and Applications, 2007, 1(1) (to appear)5 Jaynes E. T.,Information theory and statistical mechanics, Physical
24、Review,vol.106, no.4, pp.620-630, 1957.6 Jaynes E. T., Prior probabilities,IEEE Transactions on Systems, Science,and Cybernetics, SSC-4, pp.227, 1968.7 Jiang Dianyu, Zhang Shengkai., Realizability of expected Nash equilibria of n-person Condition games under strong knowledge system J, International
25、Journal of Innovative Computing, Information and Control, 2006, 2(4) : 761-7708 谢识予,经济博弈论M, 上海:复旦大学出版社,20019 姜殿玉,数理谋略论对策上的计策理论M,中国文联出版社,200310 Shannon C E., A Mathematical Theory of Communication. Bell Sys. Tech. Journal, 1948, 27:379-423, 623-65611 叶中行,信息论基础M,北京:高等教育出版社,200312 姚国庆,博弈论,天津:南开大学出版社,2003