《第8章演化博弈论ppt课件.ppt》由会员分享,可在线阅读,更多相关《第8章演化博弈论ppt课件.ppt(94页珍藏版)》请在三一办公上搜索。
1、第8讲 有限理性与演化博弈,参考教材:范如国,博弈论,武汉大学出版社,2011,博弈论和决策论,博弈论与决策论之间存在多方面的联系。首先,从理解和优化决策的意义上讲,博弈论应该被看成是一种决策理论,并且是一种规范性(prescriptive)决策理论。它不是描述具体的决策过程,而是指出决策的最优结果应该是什么。其次,博弈论可以帮助我们理解决策者之间存在相互作用的状态。决策论一般处理个人、集体或者组织的决策问题,而不处理决策者之间的相互作用问题。博弈论恰好相反;再次,博弈论的一些分支可以看做是对决策论传统内容的深化。,博弈论挑战普通决策理论,有一个卖帽子的人在一棵树下午睡,等他醒来后,他发现一群
2、猴子把他所有的帽子拿到了树稍上。盛怒之下,他取下他自己的帽子然后狠狠地摔在地上。猴子们非常喜欢模仿,因此这些猴子们也纷纷把帽子掷到地下,这个卖帽子的人然后就迅速拾起了这些帽子。过了50年,这个人的孙子也成为一个卖帽子的人,一天他把帽子放在那棵同样的大树下,然后打起盹儿来。等他醒来后,他沮丧地发现猴子们把他所有的帽子都拿到了树梢。这时候,他想起了他祖父的故事,他就把他自己的帽子掷到地上。但是,奇怪的是,没有一只猴子模仿他扔掉帽子,只有一只猴子从树上爬下来,它拾起地上的那只帽子,牢牢抓在手中,并走到这个卖帽者的面前,给了卖帽者一个耳光然后说:“你以为只有你有爷爷么?”这个故事说明了普通决策理论和博
3、弈论之间的一个重要的区别。在博弈论看来,对一个玩家来说决策的理性可能依赖于另外一个玩家决策的理性。,第一章 什么是博弈,要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解”保罗萨缪尔森,一.什么是”博弈”,博弈(Game Theory)即一些个人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。,博弈论的产生背景,1944,J.von.Neumann和Oskar.Morgenstern奠定了经典博弈理论的基础。,1950-1951,J.Nash提出了非合作博弈的纳什均衡的概念。,二十世
4、纪八十年代,博弈论成为经济学领域当中的通用理论工具,例如:分析不同厂商的合作、联盟、竞争与冲突;工业组织的形成;经济契约的签订;拍卖机制的设计;不对称信息的市场分析等等。,博弈论(Game Theory,又名对策论)是一门以数学为基础的、研究对抗冲突中最优解决问题的学科,更确切地说是运筹学的一个分支,开山鼻祖是数学家、计算机的发明者冯诺意曼(Von neumann)。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论,而且发明了计算机。,1944年他和普林斯顿经济学家摩根斯坦恩(Morgenstern)合写了一本书,博弈论和经济行为(The Theory of Games and Ec
5、onomic Behaviour),正式奠定了现代博弈论的基础,标志着现代系统博弈理论的的初步形成。,博弈论作为一门学科,是在20世纪5060年代发展起来的。1950和1951年,Nash发表了两篇关于非合作博弈的重要文章,明确提出了Nash Equilibrium的概念,揭示了博弈论和经济均衡之间的关系,并证明了均衡解的存在,奠定了现代非合作博弈论的基石。到20世纪70年代,博弈论正式成为主流经济学研究的主要方法之一。1994年诺贝尔经济学奖同时授予了纳什、泽尔腾、海萨尼三位博弈论专家。1996年诺奖授予两位博弈论与信息经济学研究专家莫里斯、维克瑞;2001年诺奖授予阿克洛夫、斯彭斯、斯蒂格
6、利茨,表彰他们在柠檬市场、信号传递和信号甄别等非对称信息理论研究中的开创性贡献。2005年诺贝尔经济学奖又授予了美国经济学家托马斯谢林(Thomas Schelling)和以色列经济学家罗伯特奥曼(Robert Aumann),以表彰他们在合作博弈方面的巨大贡献。最近十几年来,博弈论在经济学中得到了广泛地运用,在揭示经济行为相互制约性质方面。今天,在现代经济学里,博弈论已经成为十分标准的分析工具。,博弈论从理论到实践,美国经济学家埃尔文罗斯(Alvin Roth)与罗伊德夏普利(Lloyd Shapley)获得2012年诺贝尔经济学奖。瑞典皇家科学院表示,今年的诺贝尔经济学奖得主关注经济学的一
7、个中心问题:如何尽可能适当地匹配不同市场主体。比如,学生必须与学校相匹配,人体器官的捐献者必须与需要移植器官的接受者相匹配。这样的匹配如何尽可能有效地完成?什么样的方法对什么样的人群有益?今年的诺贝尔经济学奖授予的这两位学者,分别从稳定匹配的抽象理论和市场制度的实际设计两个角度,对上述问题作出了自己的回答。因此,这次经济学奖中,人成了主体,包括学校与学生的关系,学校与学校的关系,甚至人在婚姻中的关系。很明显,“金钱money”在这次的研究中不再是主角,金钱确实与人息息相关,但是并非是人类生活的全部。夏普利使用合作博弈方法来研究和对比不同的匹配方法,其关键在于保证配对是稳定的。所谓稳定,指的是不
8、存在这样两个市场主体,它们都更中意于他人,胜过它们当前的另一半匹配对象。夏普利和他的同事找到了所谓的GS算法(Gale-Shapley算法)。这种方法能确保匹配稳定。,埃尔文罗斯,罗伊德夏普利,诺贝尔经济学奖缘何六次钟情博弈论?,从1994年诺贝尔经济学奖授予3位博弈论专家开始,共有5届的诺贝尔经济学奖与博弈论的研究有关,分别为:1994年,普林斯顿大学约翰纳什;1996年,授予英国剑桥大学的詹姆斯莫里斯,随后2001年、2005年和2007年,又有不同的经济学家获奖,而时隔五年之后,博弈论学派第六次问鼎,这在诺奖历史上不多见,那么,博弈论为何受到如此偏爱呢?近十年来,世界经济运行出现了许多超
9、预期的新变化、新趋势和新规律,这不仅让传统经济学理论和模型失去了应有的解释力,也让各国决策者在应对一系列复杂问题以及危机治理方面表现得十分乏力,而博弈论提供了更广阔的视角和更加科学的方法。,近十年来,世界经济运行出现了许多超预期的新变化、新趋势和新规律,这不仅让传统经济学理论和模型失去了应有的解释力,也让各国决策者在应对一系列复杂问题以及危机治理方面表现得十分乏力,而博弈论提供了更广阔的视角和更加科学的方法。目前经济学出现了一种范式危机,即我们看待问题的思想论、方法论、模型论是有问题的。经济学建立在这样一个基础上,建得越高、模型越完美,得出的结论可能和事实真相相差越远。正是这样的错误导致了决策
10、者在金融危机中集体性的误判。对经济危机预见的屡屡失灵和范式的不断转换表明,主流宏观经济学以强化微观基础提高其预测性的方法论是错误的,存在着严重的理论缺陷和范式危机。作为新自由主义政策的指导理论,已有的经济学理论已经难以呈现出经济世界的真实面貌,其政策导向是错误的,更不能预见危机。而博弈论和演化经济学让我们更加关注微观,关注宏观决策中常常被忽视的“个体”;更加关注系统变量之间的作用机制,关注经济演变的过程而不是结果。,The Nobel Memorial Prize in Economic Sciences,2012-Alvin Roth,Lloyd Shapley2007-Leonid Hur
11、wicz,Eric S.Maskin,Roger B.Myerson 2005-Robert J.Aumann,Thomas C.Schelling 2001-George A.Akerlof,A.Michael Spence,Joseph E.Stiglitz 1996-James A.Mirrlees,William Vickrey 1994-John C.Harsanyi,John F.Nash Jr.,Reinhard Selten,18,诺贝尔经济学奖1994,约翰海萨尼(John C.Harsanyi)美国人(1920-2000)加利福尼亚大学 柏克莱分校,for their pi
12、oneering analysis of equilibria in the theory of non-cooperative games,约翰福布斯纳什(John F.Nash Jr.)美国人(1928-)美国普林斯顿高等研究院的博士学位,莱因哈德泽尔腾(Reinhard Selten)德国人(1930-)波恩大学 生于联邦德国,这三位数学家在非合作博弈的均衡分析理论方面做出了开创性德贡献,对博弈论和经济学产生了重大影响。,19,诺贝尔经济学奖1996,詹姆斯莫里斯(James A.Mirrlees)英国人(1936-),“for their fundamental contributio
13、ns to the economic theory of incentives under asymmetric information”,威廉维克瑞(William Vickrey)美国人(1914-1996),在信息经济学理论领域做出了重大贡献,尤其是不对称信息条件下的经济激励理论。,在信息经济学、激励理论、博弈论等方面都做出了重大贡献。,20,诺贝尔经济学奖2001,乔治阿克尔洛夫(George A.Akerlof)生于1940年,美国加州大学伯克莱分校教授,for their analyses of markets with asymmetric information,迈克尔斯宾塞(
14、A.Michael Spence)生于1943年,美国加州斯坦福大学教授,约瑟夫斯蒂格利茨(Joseph E.Stiglitz)生于1943年,美国纽约哥伦比亚大学教授,这三位作为不对称信息市场理论的奠基人被授予诺贝尔经济学奖,以表彰他们分别在柠檬品市场等不对称信息理论研究领域做出的基础性贡献。这些贡献发展了博弈论的方法体系,拓宽了其经济解释范围。,21,诺贝尔经济学奖2002,丹尼尔卡纳曼(Daniel Kahneman)1934年出生于以色列特拉维夫,美国普林斯顿大学心理学和公共事务教授。,“for having established laboratory experiments as
15、a tool in empirical economic analysis,especially in the study of alternative market mechanisms”,“for having integrated insights from psychological research into economic science,especially concerning human judgment and decision-making under uncertainty”,弗农史密斯(Vernon L.Smith)1927年出生,美国乔治梅森大学经济学和法律教授。
16、,把心理学研究和经济学研究结合在一起,特别是与在不确定状况下的决策制定有关的研究。,建立了用于经验经济分析尤其是可变换市场机制的工具实验室测试方法。,22,诺贝尔经济学奖2005,罗伯特约翰奥曼(Robert John Aumann),1930年生于德国。麻省理工学院博士。耶路撒冷希伯来大学教授。,for having enhanced our understanding of conflict and cooperation through game-theory analysis,托马斯克罗姆比谢林(Thomas Crombie Schelling),1921年生于美国。哈佛大学博士。现任
17、马里兰大学教授。,因在合作博弈论方面的贡献而共同分享这一殊荣,23,诺贝尔经济学奖2007,罗杰迈尔森(Roger B.Myerson),1951年3月29日生于美国波士顿,美国国籍。1976年获得哈佛大学应用数学博士学位。,“for having laid the foundations of mechanism design theory”,埃里克马斯金(Eric S.Maskin),1950年出生于美国纽约。1976年获得哈佛大学应用数学博士学位。1985至2000年任哈佛大学经济系教授。2003年出任世界计量经济学会会长,普林斯顿高等研究院社会科学部主任。,里奥尼德赫维克兹(Leoni
18、d Hurwicz)犹太人,1917年出生于波兰,第二次世界大战中来到美国。美国科学院院士,美国经济学会院士,总统奖获得者,明尼苏达大学校董事会讲座教授。,诺贝尔经济学奖2012,埃尔文罗斯(Alvin Roth),罗伊德夏普利(Lloyd Shapley),因在合作博弈论方面的贡献而共同分享这一殊荣,纳什传奇的经历,纳什1928年6月13日出生于美国弗吉尼亚西部,从小就表现出非凡的数学天分;1948年获得数学硕士学位;1950年在普林斯顿获得数学博士学位,博士论文关于博弈论的研究,在45年后获得诺贝尔奖19511959年,在MIT数学中心任教。在1958年底,纳什的心智状态出现问题。因为精神
19、分裂症,在1959年丢了MIT的工作。后来妻子Alicia也最终和他离婚,但仍然继续帮助他。,纳什在妻子和普林斯顿朋友和同事的无微不至的关怀帮助下,和自己的不懈努力下,病情逐渐好转起来。经历了近30年的精神病的折磨,又重新回到了学术研究中。1994年,纳什和其他两位博弈论的学者一起获得了诺贝尔经济学奖。2002年3月24日,当74岁的纳什拉着妻子Alicia的手走进柯达剧院奥斯卡颁奖现场时,整个剧院爆发出热烈的掌声。,2002年3月24日,第74届奥斯卡颁奖典礼在好莱坞柯达剧院隆重开幕。一部名叫美丽心灵(a beautiful mind)的影片大出风头,在获得八项提名后,独得最佳影片、最佳导演
20、、最佳改编剧本、最佳女配角四项大奖。,美 丽心 灵,博弈论是人们深刻理解诸如经济行为和社会问题的基础。现在人们所说的博弈论,一般指非合作博弈论。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。它的特征是:人们行为相互作用时,行为人不能达成一个有约束力的协议。或者说,行为人之间的合约对于签约人没有实质性约束力。然而,在各种生活行为中,人与人之间除了竞争关系,还存在合作关系,常常是两种关系并存,合理的合作能够给双方带来共同利益。这是合作型博弈论研究的范畴。,二.博弈论的基本要素 博弈的标准式表达包括以下八个基本要素:1.博弈的参与者(Players)2.各博弈方各
21、自可选择的全部策略(Strategies)或行为(Actions)的集合 3.进行博弈的次序(Orders)4.博弈方的得益(Payoffs)5.博弈行为(action)6.博弈信息(information)7.结果(outcome)8.均衡(equilibrium),30,博弈中的基本概念:纳什均衡,在对方策略确定的情况下,每个参与者的策略都是最好的,此时没有人愿意先改变自己的策略。,对纳什均衡的理解,纳什均衡:给定其他人的策略,每一个人的策略都是最好的。自我实施:给定其他人的策略,每个人的策略都是最有利于自己的。稳定性:给定其他人的策略,没有一个人会单方面偏离自己的策略。现实最可能 集体最
22、优,纳什均衡表示博弈中最可能现实的结果,但这一结果并不等于实现了效率的集体最优。,企业、政府与商业环境,博弈论与竞争策略,一次性博弈:标准式博弈,构成标准式博弈的要素有:参与者:参加博弈并做出决策的个体策略:参与者可能采取的行动得益:参与者采取不同策略带来的利益或损失,参与者 2,参与者 1,企业、政府与商业环境,博弈论与竞争策略,结果:,“a”是参与者1对“C”的最优反应.“C”是参与者2对“a”的最优反应.,此结果就是纳什均衡:在给定其他参与者策略情况下,没有一个参与者能通过单方面改变自己的策略而使自己的得益提高,从而没有人有积极性打破这种均衡,参与者 2,参与者 1,演化博弈论产生的背景
23、,二十世纪八十年代之后,研究工作围绕着修正经典博弈论中的完全理性假设展开研究,并试图为纳什均衡的概念寻找动态结构下的解释。研究表明:经典博弈论在应用中遇到困难,主要是存在三种缺陷:假设缺陷、方法缺陷、实证缺陷。为了解决经典博弈论的以上三种缺陷,从二十世纪九十年代发展了演化博弈论的研究工作。,假设缺陷:完全理性假设,即假定参与人完全了解其对手的策略集合以及使用每个策略的概率,同时也了解博弈规则与收益结构。参与人也具有通过精确计算推理得到最优策略的能力。但现实中的参与人只具有有限理性(Bounded Rationality)。方法缺陷:经典博弈论关注的重点是如何求解博弈的平衡结构,但不能解释博弈的
24、各参与方是如何通过参与博弈而趋向于这些均衡状态的(H.P.Young)。实证缺陷:多数解析型博弈论的预测都是基于理想的假设和精确的数学推导,需要实证的经验规律来充实经典博弈论(Colin Camerer)。,演化博弈研究具有普遍意义的有限理性的参与人:惰性、近视、遗传、突变、变异。演化博弈不仅关注博弈的稳定结构,还通过引入不同的动态机制研究博弈系统的稳定结构和演化过程之间的关系;演化博弈模型可以和个人学习机制相结合,可以探讨微观层面上参与人的互动和宏观层面上群体的均衡现象之间的关系;演化博弈的假设条件与建模方法更加有利于进行模拟实验来获得实证数据。,有限理性和演化博弈,演化博弈论是把博弈理论分
25、析和动态演化过程分析结合起来的一种理论。在方法论上,它不同于博弈论将重点放在静态均衡和比较静态均衡上,强调的是一种动态的均衡。演化博弈理论源于生物进化论,它曾相当成功地解释了生物进化过程中的某些现象。如今,经济学家们运用演化博弈论分析社会习惯、规范、制度或体制形成的影响因素以及解释其形成过程,也取得了令人瞩目的成绩。演化博弈论目前成为演化经济学的一个重要分析手段,并逐渐发展成一个经济学的新领域。,8.1有限理性博弈及其分析框架8.2最优反应动态8.3复制动态和演化稳定性:两人对称博弈8.4复制动态和演化稳定性:两人非对称博弈,作为一种数学分析方法,传统博弈对参与者的“理性”要求非常苛刻:目标理
26、性(主观理性):参与者追求自身利益的最大化(经济学理性的内涵)过程理性(具有理性的能力):给定参与者对外部环境的信念后最大化自己的报酬,即“前后一致的”做出选择.可以分为两个推理步骤:认知理性(cognitive)参与者对相关环境可获得的信息与形成的信念之间的一致性,即参与者具有对相关环境形成信念的能力;具体要求:参与者了解博弈的结构和规则、以及理性的“共同知识”(递推归纳法的基础)、作为不完全信息博弈均衡求解基础的贝叶斯理性(参与者对不确定性事物具有事前概率分布的判断,在动态过程中进行更新的贝叶斯决策)。,8.1 有限理性(bounded rationality),工具理性(instrume
27、ntal)是通过实践的途径确认工具(手段)的有用性,从而追求事物的最大功效,为人的某种功利的实现服务。又叫“功效理性”或者说“效率理性”。具体要求:参与者具有计算推理、预见、记忆、分析判断的能力(例:求解动态博弈均衡的递推归纳法),不会犯错误(例:颤抖手均衡要求犯错误时仍具有稳健性)等。,传统博弈理性假设的局限性,在新古典经济学和传统博弈论中都假定,人是追求收益最大化的,并且可以无误地选择最优反应战略。但很多人认识到人的真实理性是有限的。赫伯特西蒙研究认为,如果人们在某一问题有满意解时,就不会再去寻找最优。在经典博弈论中,假设参与人具有使自己支付最大化的主观意识与对于对手策略的最优反应能力,在
28、实际中,这种假设可能是不现实的。譬如在“象棋”中,棋手不可能在每一步都能够采取最优的反应行动。因而有必要把参与人的完全理性行为假设推广为不完全理性行为的假设。,显然,经典博弈中的完全理性与现实相差太远。众多人类行为表现出人的理性是有限的,由于受认知能力的限制,有限理性的人类通常是根据习惯、常规以及经验法则决策,人类不可能如博弈论所描述的那样,通过复杂的计算获得最佳反应策略。但是,人类懂得学习,通过学习来比较,纠正错误,所以说,人类又是理性动物。从某种意义上来说,人类的学习和生物的进化没有本质区别,将进化论思想引入到博弈论,形成了演化博弈论。,在演化博弈中,认为参与人的选择行为可以依据前人的经验
29、、学习与模仿他人行为、受遗传因素的决定等,因而演化博弈把具有主观选择行为的参与人扩展为包括动物、植物在内的有机体,动植物参与者的支付可被了解为某种适应程度。把博弈论的分析与应用从研究人类的竞争行为扩展为研究有机体的策略互动关系,这个领域的开创性工作是由英国生物学家约翰梅纳德史密斯(John Maynard Smith)和G.R.普里斯(G.R.Price)1973年进行的。,【英】约翰梅纳德史密斯:演化与博弈论,复旦大学出版社,2008,John Maynard Smith(19202004)。演化生物学家,英国Sussex大学生物学教授;1982年与Price一起提出了“演化稳定策略ESS”
30、均衡概念,成为演化博弈理论的一个基本概念。他发起设立了许多奖项,包括欧洲演化生物学会(European Society for Evolutionary Biology)建立的John Maynard Smith Prize,面向演化生物学界杰出的年轻学者。代表作:(1)John Maynard Smith(1982)Evolution and the Theory of Games(Cambridge Univ.Press,Cambridge).(2)The Theory of Evolution(Cambridge University Press 1993),梅纳德史密斯与演化博弈理论:
31、,Maynard Smith(1982)等研究生物种群竞争现象,构造了基本分析框架。每个参与者代表一个种群,随机组合匹配,进行预先规定好收益的要素博弈;少部分参与者的策略产生突变(试错法);大部分参与者根据不同的学习规则进行模仿,其中最有效率的参与者经选择过程得以大量复制.演化主义基于群体行为的均衡判断标准:当不同策略的分布构成发生一个很小的变化后,仍能维持原稳定构成。含义:击退那些突变的入侵策略。演化博弈理论成为90年代以来博弈论最为活跃的一个领域之一,并应用在经济社会体制的起源和多样性、互补性演化研究中。,演化博弈理论的生物学起源,Following the tradition of Jo
32、seph A.Schumpeter,it is designed to focus on original research with an evolutionary conception of the economy.The journal will publish articles with a strong emphasis on dynamics,changing structures(including technologies,institutions,beliefs and behaviours)and disequilibrium processes with an evolu
33、tionary perspective(innovation,selection,imitation,etc.).It favours interdisciplinary analysis and is devoted to theoretical,methodological and applied work.Editors:H.Hanusch,S.Klepper Email:helpdesklink.springer.dePublisher:Springer Berlin/Heidelberg,国际期刊:Journal of Evolutionary Economics,8.1 有限理性博
34、弈及其分析框架,演化博弈理论的分析对象:社会经济系统中有限理性的群体参与者通过各种具体的动态学习模仿过程,如何达到稳定的均衡状态。演化博弈理论主要解决的问题:(1)构建体现不同理性要求的动态学习模型;(2)运用稳定性理论,分析学习调整过程中均衡的稳定性,判断动态模型是否收敛到Nash均衡(或者演化稳定均衡ESS、演化均衡EE等均衡概念)。,演化博弈理论群体参与者的“有限理性”表现:惯例行为(inertia):由于参与者变更策略存在着成本,因此大多数人按惯例采取行动,被锁定在已有策略中。(调整需要时间)决策上的“近似眼”(myopia):当少部分参与者变更策略时,总是以现有策略状态作为已知条件进
35、行分析,而不具有预测能力(由于群体人数较多,因此无法预测,也无法影响其他个体的决策)。试错法的尝试行为(trial and experiments):少部分具有冒险精神的参与者并不拘泥于最优策略,而是尝试采取其它各种策略(产生包括生物学上遗传变异机制、社会新生代出现等)。,一般的演化博弈模型的建立主要基于两个方面:选择(Selection)和突变(Mutation)。选择是指能够获得较高支付的策略在以后将被更多的参与者采用;突变是指部分个体以随机的方式选择不同于群体的策略(可能是能够获得高支付的策略,也可能是获得较低支付的策略)。突变其实也是一种选择,但只有好的策略才能生存下来。突变是一种不断
36、试错的过程,也是一种学习与模仿的过程,这个过程是适应性且是不断改进的。不具备这两个方面的模型不能称为演化博弈模型。,演化博弈的基本分析过程:,群体(populations):生物系统或社会经济系统中存在着许多参与者,可以分为同类群体和不同类群体,k1。每个群体都有自己的行动集合。支付函数(pay off function):某种行动对应的收益。对于策略式博弈表示的要素博弈,又称为适应度函数(fitness function),与参与者选择的策略及其当前不同策略的比例分布有关。动态(dynamics):反映群体参与者的学习、模仿过程,常见模仿者动态模型;均衡(equilibrium):反映演化的
37、收敛稳定状态,包括静态的ESS、动态的EE等概念。,演化博弈理论的基本要素,8.1.1 有限理性及其对博弈的影响,有限理性博弈方:不满足完全理性假设的博弈方;有限理性意味着一般至少有部分博弈方不会采用完全理性博弈的均衡策略;有限理性意味着均衡是不断调整和改进而不是一次性选择的结果,而且即使到达了均衡也可能再次偏离;有限理性博弈方会在博弈过程中学习博弈通过试错寻找较好的策略。,8.1.2 有限理性博弈分析框架,有限理性博弈有两种最基本的情况:(1)最优反应动态”(Best Response Dynamics):有快速学习能力的小群体成员的反复博弈。(2)复制动态(replicator dynam
38、ics),又叫模仿者动态:学习速度很慢的成员组成的大群体随机配对的反复博弈。这两种情况很有代表性,尤其是后者,由于它对理性的要求不高,因此对这种情况的分析更能有效帮助我们理解演化博弈的意义。重要概念:演化稳定策略(Evolutionarily Stable Strategies:ESS),8.2 最优反应动态,8.2.1 协调博弈的有限博弈方 快速学习模型8.2.2 古诺调整过程,最优反应动态”(Best Response Dynamics),博弈方能够对上一阶段的结果进行总结,对策略进行调整。这种学习和调整策略的方式,就是“最优反应动态”(Best Response Dynamics)的思路
39、或者说学习调整机制。,考虑下列协调博弈的快速学习模型。这个博弈称为协调博弈(coordination game),有两个NE:(A,A),(B,B)。后者明显帕累托优于前者。通常的预测结果是(B,B)。如果考虑风险因素,那么前者是更好的预测。由于现实中的理性是不完全的,因此要在有限理性的基础上来分析这个模型。,协调博弈的有限博弈方快速学习模型,模型:,假设有5个博弈方分别处在如图所示的位置上;设xi(t)为在t时期博弈方i的邻居中采用A策略邻居的数量,该数量有0、1、2三个可能值。采用B策略邻居的数量为2-xi(t),也有0、1、2三个可能值。则有博弈方i:,反应、策略调整规则推导,最优反应动
40、态模拟:初次博弈1个A,初次博弈相邻2个A,初次博弈相连3个A,8.2.2 古诺调整过程一、古诺(Cournot)寡头模型 法国经济学家古诺(Cournot)一个半世纪以前提出的寡头市场模型是博弈论的经典模型 设某市场有两家企业生产同类型的产品,企业商1的产量为q1,企业商2的产量为q2,则市场总产量为Q=q1+q2。设市场出清价格P是关于市场总产量的函数P=P(Q)=a-Q。为分析简单的需要和突出博弈的特征,假设两企业的生产都无固定成本,且单位产量的边际成本相等,并为常数c,则两个企业分别生产q1和q2单位产量的总成本分别为q1和q2。最后强调企业商同时决定各自的产量,即他们在决策之前都不知
41、道另一方的产量。,在上述问题构成的标准博弈中,博弈方为企业1和企业2。两博弈方的策略空间就是他们可以选择的产量。假设产量是连续可分的,因此两个企业都有无限多种可选策略,且产量不可能为负值。该博弈中两博弈方的得益是两企业各自的利润,即各自的销售收益减去各自的成本.,最优反应函数(Best Reaction Function)如果上述通过求解极值的方法得到纳什均衡解的方法比较抽象,下面我们用图形法来比较直观地得到古诺模型的纳什均衡解,其借助的主要工具是最优反应函数。,8.2.2 古诺调整过程,古诺模型反应函数,1 2 3 4博弈方1 2.5 1.5 2.125 1.875博弈方2 3 1.75 2
42、.25 1.9375,问题:古诺调整过程的逻辑是两寡头始终假设对方产量不变,这是不合理的。如果假设对手对对方过去各期的平均产量做出反映,可能会更加合理一些,这就是复制动态机制。,最优反应动态模拟,收敛条件,演化博弈的动态模型:演化博弈基本的选择动态(selection dynamics)表述为:其中i(t)表示在t时刻选择策略i的个体在群体中所占比例;函数gi()表示某种具体选择过程,不同学习机制对应不同函数。选择动态的基本特征:当初始状态下没有人采取某一纯策略i时,则永远不会被采用;参与者只能模仿那些已经存在的策略,即没有反映出突变机制。,8.3 复制动态和演化稳定性:两人对称博弈,博弈方策
43、略类型比例动态变化是演化博弈分析的核心,其关键是动态变化的速度(方向可以用速度的正负号来反映)。动态变化的速度取决于博弈方学习模仿的速度。一般情况下,学习速度取决于两个因素:一是模仿对象的数量大小(可以用相应类型博弈方的比例表示),这关系到观察和模仿的难易程度;二是模仿对象的程度程度(可以用模仿对象策略得益超过平均得益的大小来表示),这关系到判断差异难易程度和对模仿激励的大小。,8.3演化博弈最常见的动态模型:复制动态1.复制动态(replicator dynamics)是最常见的一种动态过程:2.每一个参与者只代表某一特定的同类群体,其长期坚持采用某种纯策略si,采用某种策略的群体比例i的增
44、长率di/dt是此策略效用u(si)与群体平均效用差的严格增函数:复制动态模型具有很好的生物学解释基础;一些学者对其社会经济的解释基础展开研究,如进入退出机制、随机突变和行为模仿等。,演化稳定策略(ESS)的概念:演化稳定策略(ESS,evolutionary stable strategy)是演化博弈的一个核心概念,其反映了均衡解的稳定性状态(另一个是模仿者动态,一种最常用的动态收敛过程)。ESS定义:对于非常小的正数,所有的*,满足:即对于群体中很小比例的突变行为,采取*策略将获得更高收益,*策略即为演化稳定策略。,演化稳定策略具有以下几个方面的重要性质:(1)由演化稳定策略组成的策略组合
45、是严格的,对称的,严格完美的均衡。(2)演化稳定策略是静态的概念,并不探讨均衡是如何获得,在某些情况下可以从博弈的得益矩阵中直接判断出演化稳定策略。(3)演化稳定策略必须是纳什均衡,而纳什均衡不一定是演化稳定策略,严格纳什均衡一定是演化稳定策略,演化稳定策略是纳什均衡的一种精炼。(4)如果一对称的策略组合是均衡策略,那么它是演化稳定策略。但逆命题不成立。(5)演化稳定策略是离散型的纯策略,群体是无限大,而且博弈中的支付直接等同于策略的适应度。,注:突变策略是群体参与者的策略集合中不同于现有实施策略的一种策略。其中,策略集合包括所有的纯策略和相应的混合策略。ESS定义的涵义:在一个群体处于Nas
46、h均衡状态(*,*)下,当少数变异者持有变异策略入侵时,侵略将被击退,原均衡(*,*)保持不变.,8.3.1 签协议博弈的复制动态和演化稳定策略,签协议博弈:,假设群体中采用“同意”比例x则不同策略期望得益和平均得益为:,博弈方策略类型比例动态变化是有限理性博弈分析的核心,其关键是动态变化的速度;以采用“同意”策略类型博弈方的比例为例,其动态变化速度可用下列微分方程反映:,动态微分方程的相位图,稳定状态、不动点:x*=0,x*=1,演化稳定策略的检验,8.3.2一般两人对称博弈复制动态和演化稳定策略,一般模型,演化博弈设定是在一个大群体的成员中进行随机配对的反复博弈。基本模型是两个博弈方之间的
47、对称博弈。含义是两个博弈位置是无差异的。其中abcd可以是任何得益,根据问题设定。,复制动态分析,复制动态的演化规则是生物学中生物特征进化规则设x为采用策略1的比例,复制动态相位图,8.3.3 协调博弈的复制动态和演化稳定博弈,dx/dt,复制动态演化博弈的结果常常取决与带有很大偶然性的初始状态。,梅纳德史密斯(Maynard Smith)以鹰鸽博弈(hawk-dove game)开始,成为生物学讨论演化稳定性的标准模式。该博弈并不是表述老鹰和鸽子两种物种的个体之间对抗,而是同一物种中不同行为类型的个体间的竞争关系:人类作为一个种群,具有鹰派好斗(hawkish)和 鸽派柔弱(dovish)的
48、两面性,如图所示,争夺一种资源,其价值是v。如果鹰进攻而鸽默许,前者得到资源后者一无所获(v,0)。如果双方都进攻或都被动,则各方获得资源的机会均等。同时进攻,导致双方受伤,各自的成本为c,c v,概率是1/2。上述即为单一种群的策略式要素博弈。种群的得益取决于选择鹰鸽策略分别在群体中所占的比例。,8.3.4 鹰鸽博弈的复制动态和演化稳定策略,伊拉克战争期间拉姆斯菲尔德为首的鹰派和鲍威尔为首的鸽派之间的分歧,复制动态方程和相位图,dx/dt,8.3复制动态和演化稳定性:两人非对称博弈,8.3.1 市场阻入博弈的复制动态 和演化稳定策略8.3.2 非对称鹰鸽博弈的演化分析,如果一个群体中成员之间
49、的地位不一样,那么博弈方之间进行就是非对称博弈。非对称博弈是用两个(或多个)有差别的有限理性博弈方群体的成员,相互之间随机配对博弈。以市场阻入博弈为例(如图4,表6)。,8.3.1 市场阻入博弈的复制动态和演化稳定策略,由于是非对称博弈,问题中实际上有两个不同的博弈方,博弈方1是潜在的进入者,博弈方2是阻入者,每次博弈实际都是前一群体的一个成员与后一群体的一个成员进行的。分析框架:反复在两个群体中各随机抽取一个成员配对进行。博弈方的学习和策略模仿局限在他们所在群体内部,策略调整的机制仍然是与对称博弈中相似的复制动态。分别对两个群体成员进行复制动态和演化稳定策略分析。假设博弈方1中,采用“进入”
50、策略的占的比例为x;在博弈方2中,采用“打击”策略的占的比例为y。,(1)博弈方1的收益计算,(2)博弈方2的收益计算,博弈方1位置博弈群体复制动态相位图,dx/dt,博弈方2位置博弈群体复制动态相位图,8.3.2 非对称鹰鸽博弈的演化分析,非对称鹰鸽博弈博弈方1群体复制动态相位图,非对称鹰鸽博弈博弈方2群体复制动态相位图,青木昌彦经济体制变迁的演化分析、比较制度分析;Fudenberg&Levine,“The Theory of Learning in Games”博弈学习理论;W.Weibull,“Evolutionary Game Theory”演化博弈论理论介绍性的外文文献:D.Fud