进化稳定策略及其应用ppt课件.ppt

资源描述

《进化稳定策略及其应用ppt课件.ppt》由会员分享，可在线阅读，更多相关《进化稳定策略及其应用ppt课件.ppt（51页珍藏版）》请在三一办公上搜索。

1、进化稳定策略及其应用,最优化理论（optimization theory）和对策论（game theory，又称博弈论）是进化生物学中两个最常用的、非常相近的研究途径。它们之间的主要区别体现在适用范围上：优化理论适用的情形是当一个个体的最优行为不依赖于其它个体的行为时，而对策论则适用于一个个体的最优行为依赖于其它个体如何行动的情形。最优化理论的基本出发点是，自然选择总是倾向于使生物最有效地传递它们的基因，因而也将是最有效地从事各种活动，包括使它们在时间和能量分配方面达到最优状态。但是，最优化理论也遇到了一定困难，即在许多情况下普遍意义上的最佳策略往往并不存在。一个个体采取某一对策是好还是坏不

2、仅取决于这个对策本身，而且往往还取决于种群内其它个体所采取的对策是什么。,例如，一个雄性粪蝇在寻觅雌蝇时的最优占位往往取决于其它雄蝇停落在什么位置；在争夺配偶的战斗中，一个雄性动物的最佳对策经常取决于他的对手如何行动，有时退让是有利的，有时激烈争斗是更适合的。在这些例子中，不存在一个任何情形下都一律适用的最佳对策。这时我们观察到的自然界生物它们应该采取何种对策呢？为解决这一难题，Maynard Smith（1982；Maynard Smith & Price 1973）创造性地提出了一个全新概念进化稳定对策，或称ESS（为英文全称evolutionarily stable strategy的简

3、写）。当种群内所有个体都采取了某个对策后，其它对策者都不能侵入该种群，那么这个对策就是进化上稳定的。这个概念不强调绝对意义上的优化，而是从相对意义上寻求所谓的最佳：当种群完全是由ESS对策者组成的时候，ESS对策者的适合度将大于所有突变对策者的适合度。因而，ESS是一个弱化了的最优化概念（Ehrlich & Roughgarden 1987）。,进化稳定策略的简介,进化稳定策略，又称演化稳定策略（ESS)，是evolutionarily stable strategy的简写，属于行为生态学的范畴。定义：如果任何策略yx，存在某个使得不等式对所有的都成立，那么是一个进化稳定策略。5种对策

4、：1 鹰式 2鸽式 3威吓4报复性威胁5试探性威胁,单态ESS,定义对所有不同于S*的个体策略S，如果有 E(S*, S*)=E(S, S*) 如果在上式中的等式成立，则 E(S*, S)E(S,S)那么，称S*为单态ESS在单种群进化博弈中，ESS是对称纳什均衡，但对称纳什均衡不一定是ESS。（交换经济博弈）,经济交换博弈,每个市民生产1或2单位的产品。然后拿到市场上与另一个市民交易。如果他们他们中的每个只生产1单位，交易不能增加他们的支付。然而如果他们生产2单位，他们将一单位交换一单位，增加消费多样性。,在纯策略模型中，有两个纳什均衡：（L,L)和(H,H),（L,L）不是单态ESS。策

5、略L用S*=（1，0）表示，策略H用S=（0，1）表示 E(S*, S*)=(1,0) =1E(S ,S*)=1= E(S*, S*) 而E(S*, S)= =12=E(S,S)所以策略L不是单态ESS,多态ESS（对于有多个个人策略）,定义对所有不同于S*的S m，如果有 E(S*, S*)=E(S, S*) 如果在上式中的等式成立，则 E(S*, S)E(S,S)那么，称S*为一个ESS。,设A= 为进化博弈的行为参与人的支付矩阵，如果存在使，则第个策略是进化稳定策略严格对称的纳什均衡是进化稳定策略，但是进化稳定策略不一定是严格的纳什均衡。（鹰鸽博弈）,鹰鸽博弈,有三个纳什均

6、衡：（鹰，鸽），（鸽，鹰）和一个混合策略纳什均衡（每个参与者以概率1/4选择鹰）ESS要求是对称的纳什均衡，两个纯策略不是。鹰策略的种群比例为p(0p1)，预期回报E(H)=P(-3)+2(1-P)=2-5P E(D)=P0+(1-p)1=1-p混合策略纳什均和要求E(H)=E(D),解得p=1/4。当p1/4时，则相反。所以进化将导致种群1/4的参与人使用鹰策略。混合策略（1/4,3/4）是ESS。证:S*=(1/4,3/4) S为任意其他策略(p,1-p),p1/4。E(S*,S*)= =3/4=E(S,S*) 而E(S*,S)= =5/4-2pE(S,S)= =1-4p2比较上面两式：

7、E(S*,S)E(S,S)恒成立混合策略（1/4,3/4）是ESS,协调博弈,设某一同质种群的成员任意配对。在这博弈中，(L,L)(D,D)都是严格对称纳什均衡，所以L和D都是ESS。(S*,S*)是对称混合策略均衡，其中S*=(1/4,3/4)。为了使它为ESS必须使E(S*, S)E(S,S)成立(S*S)在此博弈中参与人选择同一行动要好于选择不同行动，所以这个条件不满足，最可能背离在这个条件的S是纯策略L，这种情况下，E(S,S)=3, E(S*, S)=3/4，确实背离了条件E(S*, S)E(S,S).,局部渐进稳定性判断纳什均衡是否为ESS,动态方程复制者动态增长率等于参与人的

8、适合度减去他的平均适合度用此法进行协调博弈分析:将A带入得当初始状态p01/4时，参与人进化稳定策略是L注：,两种群进化稳定策略,定义：对于在mn中(x*,y*)的一些邻域中的所有其他(x,y)，要么x*AyxAy，要么y*BxyBx，那么称(x*,y*)为一个ESS.定理:如果(x*,y*)是双矩阵博弈的一个ESS，那么x*和y*分别是m和n 中的纯策略在单种群鹰鸽博弈中，混合策略是ESS，在两种群下则不是。,假设p是行参与人选择鹰策略(H)的概率，q是列参与人选择鹰策略的概率。行参与人的预期支付为： E(H)=q(-3)+2(1-q)=2-5q E(D)=q0+(1-q)1=1-q对于列

9、参与人其支付矩阵与行参与人相同，于是 E(H)=p(-3)+2(1-p)=2-5p E(D)=p0+(1-p)1=1-p,按照学习规则，当q1/4时，行参与人将p上调;当p1/4时，列参与人将q上调。(p,q)平面上的的点(1/4,1/4)处的纳什均衡不是稳定的，此时x*=(1/4,3/4)和y*=(1/4,3/4) 。现在考虑(x,y)=(p,1-p),(q,1-q)(x*,y*) ,检验是否为ESS x*Ay=1/4(2-5q)+3/4(1-q)=5/4-2q (1) xAy=p(2-5q)+(1-p)(1-q)=1+p-q-4pq (2)由上两式得x*Ay-xAy=4(1/4-p)(1/

10、4-q) (3),显然只有当p,q都超过1/4或两个都小于1/4时，(3)式才大于零，其他p,q组合都使(3)式小于零，就是x*AyxAy不成立，同理可证(x*,y*)的一些邻域使得 y*BxyBx不成立，因此(x*,y*) 不是一个ESS。下验证两个纯策略纳什均衡是ESS。引入动态方程复制者动态行参与者的复制者动态为,将A带入得 (4) 同理得列参与人的复制者动态为 (5) 以上两动态系统有5个平衡点(0,1),(1,0),(0,0),(1,1),(1/4,1/4).以上已经证明混合策略纳什均衡(1/4,1/4)不是ESS，而(0,0),(1,1)不是纳什均衡，只证(1,0)是否为ESS，对

11、于两种群两策略的双矩阵进化博弈，要证平衡点是否为ESS，只要证明复制者动态方程的平衡点是进化均衡。动态系统的雅可比矩阵为,雅可比行列式为 detJ=(1-2P)(1-2q)(1-4p)(1-4q)-16pq(1-p)(1-q)雅可比矩阵的迹为 trJ=(1-2p)(1-4q)+(1-2q)(1-4p)在平衡点(1,0),有detJ=30和trJ=-40。这样该点是局部渐进稳定的。同理可证(0,1)是ESS。,3.1 鹰鸽对策与进化稳定对策概念的提出,自然界的每一动物都经常要与其它个体争夺食物、领域和配偶等有限资源。进化稳定对策概念的起源很大程度上是和分析这些动物争斗行为联系在一起的（Mayna

12、rd Smith & Price 1973），其后又被推广应用到其它各式各样频率依赖选择（frequency-dependent selection）的情形（Maynard Smith 1982）。进化稳定对策理论与传统种群遗传学对频率依赖选择的研究相比，最明显的差别可能主要是强调的重点不同。种群遗传学家主要考察基因频率的动态以及平衡态的性质，目的是探讨不同类型的选择对一个位点上不同基因型的效应。为了分析上的方便，对策集经常被高度简化，经常是只考虑对应于两个等位基因的两个对策。而ESS理论家对于遗传学系统本身的问题考虑很少，经常假定对策可以无性繁殖或者有机体是单倍体。这种遗传学上的高度简化使得

13、人们可以考察更为复杂、更为广泛的对策集，以及对策之间更加微妙的适合度相互作用。用Maynard Smith 的话说，ESS概念的精髓就是假定简单化的遗传学而考察复杂的生态学（Hines 1987）。另外一点不同是，ESS只注重考虑种群达到平衡时的性质，而基本上忽略了动态。容易看到，种群遗传学和ESS理论各自都在不同方面上作了一些不现实的假定，因此二者之间更具有互补性，而不是相互对立。,Maynard Smith & Price（1973）最初的目的是希望理解动物个体之间的争斗为什么总是一场“有限的战争”，很少造成严重的伤害。例如，许多蛇类的雄性个体相互之间扭缠打斗时从不使用它们的毒牙。在May

14、nard Smith & Price研究这个问题之前，人们通常给出的解释是，否则许多个体将受到严重伤害，最终对物种生存不利。但是Maynard Smith & Price不满意这种群体选择的观点，并从个体选择的角度运用对策论提出了他们自己的生物学解释。他们的分析是以动物争斗为例进行的。首先让我们只考虑“鹰”“鸽”两种战斗对策。鹰对策者战斗起来总是全力以赴，除非身受重伤否则决不退让；如果争斗双方都是鹰对策者，那么其中一方将最终受到伤害并退让。而鸽对策者则只限于威胁恫吓，对方一旦表现出争斗升级迹象立刻退让；如果对方也是鸽对策者，那么相互对峙一定时间后便会有一方自动退却（鸽子通常视为和平的象征，这里

15、也取其这层含义。但我们都知道，事实上鸽子是非常好斗的）。这里我们假定鹰对策和鸽对策之间没有连续过渡的中间类型；对策集是离散的。,令V表示被争夺资源的价值；胜利的一方获得该资源并使适合度增加V；争斗失败的鹰对策者其适合度损失C。鹰鸽对策的赢得矩阵（payoff matrix）可以表示为表3.1。在完全由鸽对策者组成的种群里，鹰对策者一旦进入它的适合度将可增加V，而鸽对策者的适合度只能增加V/2（未考虑对峙带来的能量或时间消耗）；因此，我们得出结论：鸽对策属于在进化上不稳定的类型，它将很容易地被鹰对策侵入。那么完全的鹰对策种群是否就是进化稳定的呢？根据表3.1我们容易看到，鹰对策是否为进化稳定的对

16、策取决于V和C值的相对大小。在一个鹰对策种群里，鹰对策者的平均赢得为(V-C)/2，而侵入的鸽对策者的赢得为0。如果VC，那么鹰对策者的适合度大于鸽对策者的适合度；反之，如果VC，那么鸽对策者的适合度大于鹰对策者的适合度，它将能够侵入鹰对策种群。这时我们看到，无论是纯鹰对策种群还是纯鸽对策种群都不是进化稳定的。所以，种群必然是一个鹰、鸽对策的混合体。那么鹰、鸽对策者在种群内各自所占比例应该是多少呢？令p为种群内鹰对策者所占比例。鹰、鸽对策者的适合度可以分别表示为（3.1）其中，W0表示与对策无关的基本适合度。鹰对策者和鸽对策者的适合度都不是恒定值，依赖于种群内鹰、鸽对策的相对比例，因而我们称其

17、为频率依赖的选择（frequency-dependent selection）。假定个体无性生殖，鹰对策者生育的后代都是鹰对策者，鸽对策者生育的后代也都是鸽对策者，并且每个个体生育的后代数量与其适合度成正比。一代之后，鹰对策者的频率将为（3.2）其中。方程（3.2）准确地描述了系统的动态。知道了V和C的值以及初始的鹰对策者频率就可以很容易地计算种群内鹰对策者频率的变化过程。然而，对于这类频率依赖的选择，人们往往更关心的是系统将向什么状态趋近，或者说稳定的系统状态是什么。,在一个稳定种群内，鹰、鸽对策者的适合度应该相等，即Wh=Wd；据此我们可以求出鹰对策者的比例为。如果C值相对于V值来说很

18、大，那么种群内鹰对策者的比例将会很低，鹰-鹰争斗的情形也将极为罕见。我们当然不能期望这个高度简化的模型能够完全解释为什么动物个体间争斗不产生严重伤害的后果。但是这个模型至少可以帮助我们理解为什么在自然界导致严重伤害的激烈争斗非常罕见。上面我们假定个体要么是纯粹的鹰对策者、要么是纯粹的鸽对策者。或者说种群在遗传构成上是多态的。ESS也可以用另一种方式来达到：种群内每个个体都以一定概率采取两种对策，而且在每次博弈中所采取的对策必须是随机确定的。这时种群在遗传构成上是单态的，但表现型上是两种对策共存。以表3.1赢得矩阵为例，ESS对策是以V/C的概率采取鹰对策，以（1V/C）的概率采取鸽对策。在对策

19、论中，人们通常考虑遗传上单态的ESS，而往往忽略了遗传多态所带来的复杂性。隐含在上面这个模型中的一个重要假设是无性生殖。为了使问题简化，人们经常明确或暗含地假设无性（孤雌）生殖，或者真实遗传（breed true），即通俗地说就是“龙生龙，凤生凤”；后代与亲代之间由于有性生殖过程而必然存在的遗传差异被忽略了。因为我们面对的有机体绝大多数都是有性生殖的二倍体生物，所以这个假设只能理解为对非常复杂问题的一个初步探索。Maynard Smith（1982）认为，忽略有性生殖多数情形下不会产生太大的影响。值得注意的是，在ESS种群内每个个体的期望赢得为，而在纯鸽对策种群内每个个体的期望赢得为V/2。

20、虽然纯鸽对策种群个体平均适合度大于ESS种群内个体的平均适合度，但它是一个不稳定的种群，随时都有可能受到其它对策（鹰对策）的侵蚀。人们普遍相信，自然选择所选择的最终结果应该是稳定的、不会受到任何其它对策侵蚀的ESS种群。,ESS，与最优化理论一样，都是只能从可供选择的对策集（strategy set）中选取“最佳”的对策。所以进化稳定对策也将受到可供选择的对策范围所制约。为了说明这一点，让我们在上面的鹰鸽对策的博弈中再增加一种对策，中庸对策。中庸对策者表现的行为是：当自己是资源（例如一块领域）占有者时表现为鹰，当自己是入侵者时表现为鸽；并且假定中庸对策者表现为鹰（资源占有者）或鸽（入侵者）的概

21、率相等。赢得矩阵为表3.2。当两个中庸相遇时，一个肯定是资源占有者并采取鹰对策，而另一个则是入侵者并采取鸽对策。,我们容易证明，当VC时，中庸对策是进化稳定的对策，并且是唯一的ESS。所以ESS具体形式是什么依赖于有多少可供选择的对策.同时，这个博弈与前面的鹰鸽博弈还有一个不同之处:,鹰鸽博弈是对称的，而表3.2的博弈是非对称的。所谓对称是指争斗双方处于完全等同的地位：它们可选择的对策集相同，它们的期望赢得也相同。而在鹰-鸽-中庸博弈中，中庸对策者根据其对资源的拥有状况选取相应的对策，因而争斗双方在对策的选择上不是完全对等的。后面我们还将回到这个博弈问题上来。,对称的二人博弈,现在我们来考察

22、对称的、二人进化博弈的一些一般性质。假设有m个可能的对策，表示为1，2，m。博弈（争斗）可以发生在任何一对随机选取的动物个体之间。赢得矩阵 dij 为mm，其中dij表示采取对策i的动物与j对策者博弈时的赢得值（适合度增加值）。系统动态可以用两种稍有不同的方式进行分析。首先，我们假定一个个体总是采取相同的纯对策，并且这种特性被它所有后代所继承。令ni 为 i对策者在某一时刻的个体数量，pi 为它们的相对频率。一个 i对策者的适合度为（3.3）种群的平均适合度为（3.4）,各个对策的个体数量增加符合下列方程（3.5）因此，我们可以得到（3.6）当系统达到平衡时，即，必然有或者。因此在系统达到

23、平衡态时，所有频率不为零的对策它们的适合度必然相等。在频率依赖的选择下，各个类型的频率将受到调整以使它们的适合度正好相等。我们还需要确定一个系统平衡态是否是局域稳定的；数学上这可以通过解雅可比矩阵的特征根来判断。模型（3.6）的一个稳定平衡态，称为进化稳定的状态（evolutionarily stable state）；其中代表平衡种群内采用i对策的个体所占的比例。这个模型的结果是导致产生各种纯对策的多态，也被称为“纯对策模型”（pure strategy model; Bulmer 1994）。而另外一种在博弈论中更常见的途径是认为，个体可以采取混合对策，即是以一定概率采取各个纯对策。例如，

24、在前面介绍的鹰鸽博弈中，动物可能以50%的概率采取鹰对策，以50%的概率采取鸽对策。然后，我们来寻找这样的混合对策（或者纯对策），当它在种群内被所有成员采纳时，任何其它对策都不能成功地侵入。这样的一个对策就称为进化稳定对策，或者简称为ESS。这种途径的一个优点是我们不必明确考虑系统平衡态的动态稳定性问题。,考虑混合对策p和q，它们分别以概率pi 和qi采用纯对策i。一个p对策者与q对策者博弈时其平均赢得值（用表示）为（3.7）或者我们用矩阵形式表示，即（3.8）如果对策p是个ESS，那么当它的适合度必须大于突变对策q的适合度。用x表示q在种群内的频率，对策p和q的适合度分别为（3.9）p为E

25、SS的条件是当x无限小时，对于所有的qp都有WPWq；因此，如果满足条件（3.10）那么p即为ESS；如果则需要满足（3.11）p才是一个ESS。,（3.10）式是说，对策p是对自己的最好应答。如果你知道你的对手将采取对策p，那么你别无选择只能也采取对策p，因为采取任何其它对策都不如采取对策p好。换言之，这要求p是一个严格的Nash平衡（Nash 1951）。（3.11）式则是说，如果q是另外一个同样好的对于p的应答，那么p对q的应答就必须比q对自己的应答更好。这个条件保证了任何稀有突变，q-对策者，都不能侵入p-对策者组成的种群。这时的p我们说是一个弱Nash平衡。所有具有非零概率的纯对策组

26、分就称为混合对策p的支集（support）。支集中各个组分概率相加应该等于1。对于ESS混合对策p来说，支集中任一纯对策k都有（3.12）我们使用反证法证明这个结果。假设。定义一个新的q对策，它的支集除了纯对策k外所有其它组分均与p相同；相应的概率为qi=pi/(1-pk)，ik。重新整理E(p,p)如下:,因此有E(p,p) E(q,p)，与p为ESS的假设相矛盾。这个结果是由Bishop & Cannings (1978)最先给出的，在进化博弈论中被称为Bishop-Cannings定理。如果对策不是离散的而是连续的，Bishop-Cannings定理可以很容易地推广到连续对策的情形，此处

27、不再赘述。下面我们分析几个具体的生物学应用实例。,相互利他行为与囚犯的困境,Trivers（1971）提出，遗传上没有亲缘关系的个体之间也可以进化产生利他行为。这种相互利他行为的出现是因为利他付出代价很小而收益方得到的收获却很大；这样如果个体之间能够相互回报，它们都可以从利他行为中获得较大适合度收益。问题是，无论是进化上还是在人类社会里，怎样有效地防止欺骗对策侵入？由于在一个个体的利他行为和受益者的回报行为之间存在着一定的时间间隔，所以有可能一个个体会采取这样对策：今天它接受对方的帮助，但明天却拒绝给对方提供同样的帮助。这种欺骗行为能够为自然选择所淘汰吗？或者说，相互合作的利他行为能否抵抗住欺

28、骗行为的侵蚀？因为一个个体所采取对策是好还是坏依赖于对方所采取的对策是什么，所以这是频率依赖的选择，需要采用博弈论来分析。下面我们考虑一个简单的博弈。在一场博弈中，博弈双方（A和B）都面临着两个可能的抉择：或者合作或者欺骗。表3.3是这种博弈的赢得矩阵，它给出了博弈双方各种对策组合的赢得值。这些赢得值代表的是适合度得分，即所得到的后代数。采取合作行为的个体需要付出一定代价，可用c表示；但合作的行为可以给受益者带来较大的收益，用b来表示；这里我们假定收益大于代价,如果双方都欺骗，那么即无代价也无收获；如果双方合作，那么赢得值为收益减去代价，即b-c。容易看出，在这个博弈中只有欺骗是ESS。在ES

29、S种群内每个个体的赢得值都是0；但是，如果个体都采取合作对策，那么对它们都是有利的。这种类型的博弈使个体行为在进化上陷入了一种困境，说明自然选择可以在群体水平上产生消极影响。在进化生物学中，这类合作对大家都有利但最终却都陷入欺骗泥潭的问题通常被称为囚犯的困境（prisoners dilemma）。这个名称的由来是因为最初的博弈模型是以两个合谋犯罪的囚犯为原型而构造的；每个囚犯都可以揭发对方开脱自己（欺骗），或者是守口如瓶（合作）使法官对谁都无法定罪。如果一方检举而另一方守口如瓶，那么检举者将被无罪释放而由沉默一方承担所有的罪责。尽管合作可以使两个囚犯都得以释放，但互相揭发并均受到惩罚才是必然的

30、结果。表3.3所示的博弈如果在两个个体之间只进行一次，那么欺骗行为是不可避免的；但如果博弈可以反复进行多次，那么个体可以根据过去相互作用的历史而采取更为复杂的对策，并使得个体合作有了可能。,Axelrod (1984)曾经组织了一次比赛；他把来自世界各地博弈理论家所提出的62种不同行为对策在计算机内进行了演算。在比赛中，每个参赛对策都要与所有其它参赛对策相遇，并博弈200次，然后计算平均赢得值。获胜者是一个非常简单的“一还一报”（tit for tat）对策：第一轮相遇总是采取合作对策，以后再相遇时就采取对手上次相遇所使用的对策。Axelrod总结了一还一报对策成功的原因；善良，因为从不先欺骗

31、；宽容，对于对手的一次偶尔的欺骗行为只给予一次反击；报复，不管什么时候只要对方表现出欺骗行为它就不再合作。Axelrod与Hamilton（1981）一道共同探讨了一还一报对策在进化上的意义。我们已经看到，如果博弈只进行一次，只有欺骗才是稳定的对策。这个结论对于任何固定次数的博弈也同样成立，理由如下。在最后一轮的博弈中，只有欺骗才是稳定的；同样在次最后一轮也是如此，因为下一轮的对策是确定的。如此反复直到第一轮；每一轮博弈个体将都是采取欺骗对策。然而，更加现实的假设不是让博弈次数恒定，而是两个博弈者以某一概率再次相遇。这个博弈被叫做多次重复的囚犯困境（iterated prisoners dil

32、emma）；它已被广泛地用作为分析合作进化的模型（Axelrod & Dion 1988）。因为可能的对策非常多，所以理论分析常常太复杂。这里我们只限于三种对策情形：永远欺骗（AD），一还一报（TFT），和永远合作（AC）,首先考虑只有AD和TFT两个对策的情况。TFT和自己博弈时的赢得值为其它赢得值都很容易计算赢得矩阵如表3.4 ；,。在这个博弈里，AD在任何时候都是ESS；而且如果(b-c)/(1-p)b，或者pbc，TFT也是个ESS。虽然一还一报对策一旦固定下来就会保持稳定，但是它最初如何能够打入一个完全由不合作的骗子所组成的种群呢？要知道，骗子种群也是一个稳定的、可以抵抗其它对策侵蚀

33、的种群。Axelrod & Hamilton（1981）认为有两种可能的解决办法：（1）合作行为最初可能出现在有亲缘关系的个体之间（亲缘选择），然后散布开也包括了无亲缘关系的个体；自然选择将保留能够指示亲缘关系的一些特征。这些特征之一就是合作行为的相互回报。（2）具有合作倾向的TFT个体可能聚集在一起形成一个小圈子，然后再从这个小圈子向外散步；但从不合作向相互利他转变显然是困难的。,现在我们引入第三个对策，永远合作（AC）。赢得矩阵为表3.5。注意，在TFT和AC博弈时二者将表现完全相同； TFT对策的优越性只表现在它和AD博弈时。如果pbc，TFT将是一个弱Nash平衡，但不是ESS。在一个

34、纯粹TFT对策的种群里，AC个体与TFT个体有相同的适合度，因而可通过漂变侵入TFT种群。一旦AC在种群内拥有一定比例，AD对策就可以侵入，因为AD可以靠剥削AC而走向繁荣。,TFT对策还有一个缺陷是它对一次偶然失误很敏感；两个TFT博弈者之中任何一个如果因为失误欺骗了一次，他们今后将卷入到一个欺骗/合作交替系列当中，而不再是完全合作。TFT对策的这些缺点促使人们努力寻找更强健的替代对策。Nowak & Sigmund（1993）表明巴甫洛夫对策比一还一报（TFT）对策更优越，因为巴甫洛夫对策能够改正偶尔的错误，同时还能剥削永远合作（AC）的对策者。巴甫洛夫对策者采取的规则是：如果上次博弈是成

35、功的（赢得大于0）就重复上次的对策；如果上次博弈是不成功的（赢得等于或小于0）那么就采取和上次相反的对策。因此，对于巴甫洛夫对策者，无论上次双方合作还是双方不合作，这次都采取合作；只有上次一方合作而另一方欺骗时，被欺骗的一方才会采取欺骗行为。相互回报式利他行为的一个很好的实例就是吸血蝠的反吐喂食现象（Wilkinson 1984）。许多吸血蝠夜晚觅食时吸不到血；它们白天向其它个体乞食一些血液，这些昨晚吸饱了的个体常常反吐一些食物给饥饿的同伴。很少一点食物可以大大提高受惠者存活的机会，而施与者受到很小的影响。所以，相互回报利他的条件是满足的。然而，反吐喂食行为只发生在近亲个体，以及经常同栖一地的

36、个体之间。,很可能这个行为的出现是由亲属选择导致的；“同栖一地”被当做为“亲属”的指示器。既然这种反吐喂食行为已经散步开，它已成为相互回报式利他的一个稳定的例子，并且没有选择压力使个体使用比“同栖一地”更可靠的指示器。对于不是经常同栖一地的个体，反吐喂食行为的发生有两个障碍。首先，它们再次相遇的概率很小，因此反吐喂食将不是稳定的ESS；其次，非同栖一地的个体之间关系应处于一个不合作的ESS状态；个体将很难从这个不合作的ESS中解放出来。以上我们只考虑了离散对策问题。但在自然界中，许多博弈对策问题不是一个 “非此即彼”的有限形式，而是在两个或多个极端中间有无限多的连续过渡,连续对策的消耗战（wa

37、r of attrition）模型,消耗战模型考虑的情形与鹰鸽对策模型基本类似，但它不考虑使战斗升级并造成伤害的可能性。两个个体可以说都是“鸽对策者”，谁能取得胜利是由坚持的时间长短决定的。如果谁比对手坚持时间长，那么谁就是胜利者。坚持时间的长短（对策）是在争斗开始之前预决定好了的。令V为胜利后得到的适合度收益；c为消耗代价的速率参数：对峙时间为t时，累计适合度代价为ct。对于一个采取纯对策T的种群，平均赢得为（3.13）如果cTT都将可以侵入种群，因为（3.14）这里需要注意的是，由于T对策者首先放弃了等待，所以t对策者的实际等待时间是T，代价为cT。同样道理，如果cTV/2，那么t=0对

38、策总可以侵入种群。因此不存在纯对策的ESS。假设有一个混合对策，I，它以概率p(t)采取坚持时间长度为t的对策。如果I是一个ESS对策，那么任何一个纯对策t，即总是只坚持t时间，与I博弈都必须具有相同的赢得（连续对策情形下的Bishop-Cannings定理）。因此， =常数A（3.15）上式中的第一个积分项为t胜利时的适合度赢得，第二个积分项为t失败时的适合度损失。对它求导数我们有根据定义我们知道，所以最终我们可以解出（3.16）现在我们知道，ESS必须根据这个负指数概率分布来确定坚持时间。为了确定负指数分布真正是一个ESS，我们还须证明对于所有的J，当E(J,I)=E(I,I)时有E(I,

39、J)E(J,J)，即满足条件（3.11）的要求。对于J是纯对策的情形可以很容易地证明；Bishop & Cannings (1978)对于J为混合对策的情形也给出了一个严格的证明。Parker (1970a,b；1984) 对于牛粪堆上雄蝇为等待雌蝇到来交配所花费的时间问题开展了深入研究工作。Parker表明，随着时间推移雄蝇陆续离开，等待时间确实服从负指数分布，与上面消耗战理论预测的结果是一致的。但目前还不清楚，这种负指数分布是由于不同个体所等待的时间不同（遗传多态）还是由于每个个体都是混合对策者（即每个个体等待时间都是可变的）。而且有一点需要特别注意：消耗战理论是根据二人博弈建立的，而Pa

40、rker研究的例子却是一个多人博弈问题，即一个雄蝇不是只与另一个雄蝇进行成对的对抗（pairwise contest），而是同时与许多其它雄蝇进行多人集体博弈（playing the field；Maynard Smith 1982）。目前理论上还未严格证明等待时间为负指数分布在多人博弈时仍然成立。Parker还记录了每一只雄蝇所获得的交配机会，发现采取不同等待时间的雄蝇大体上都获得了相同的交配机会。这也与消耗战理论的预测相一致。,上式中的第一个积分项为t胜利时的适合度赢得，第二个积分项为t失败时的适合度损失。对它求导数我们有根据定义我们知道，所以最终我们可以解出（3.16）现在我们知道，ES

41、S必须根据这个负指数概率分布来确定坚持时间。为了确定负指数分布真正是一个ESS，我们还须证明对于所有的J，当E(J,I)=E(I,I)时有E(I,J)E(J,J)，即满足条件（3.11）的要求。对于J是纯对策的情形可以很容易地证明；Bishop & Cannings (1978)对于J为混合对策的情形也给出了一个严格的证明。Parker (1970a,b；1984) 对于牛粪堆上雄蝇为等待雌蝇到来交配所花费的时间问题开展了深入研究工作。Parker表明，随着时间推移雄蝇陆续离开，等待时间确实服从负指数分布，与上面消耗战理论预测的结果是一致的。但目前还不清楚，这种负指数分布是由于不同个体所等待的

42、时间不同（遗传多态）还是由于每个个体都是混合对策者（即每个个体等待时间都是可变的）。而且有一点需要特别注意：消耗战理论是根据二人博弈建立的，而Parker研究的例子却是一个多人博弈问题，即一个雄蝇不是只与另一个雄蝇进行成对的对抗（pairwise contest），而是同时与许多其它雄蝇进行多人集体博弈（playing the field；Maynard Smith 1982）。目前理论上还未严格证明等待时间为负指数分布在多人博弈时仍然成立。Parker还记录了每一只雄蝇所获得的交配机会，发现采取不同等待时间的雄蝇大体上都获得了相同的交配机会。这也与消耗战理论的预测相一致。,Parker还记录

43、了每一只雄蝇所获得的交配机会，发现采取不同等待时间的雄蝇大体上都获得了相同的交配机会。这也与消耗战理论的预测相一致。Parker表明，随着时间推移雄蝇陆续离开，等待时间确实服从负指数分布，与上面消耗战理论预测的结果是一致的。但目前还不清楚，这种负指数分布是由于不同个体所等待的时间不同（遗传多态）还是由于每个个体都是混合对策者（即每个个体等待时间都是可变的）。而且有一点需要特别注意：消耗战理论是根据二人博弈建立的，而Parker研究的例子却是一个多人博弈问题，即一个雄蝇不是只与另一个雄蝇进行成对的对抗（pairwise contest），而是同时与许多其它雄蝇进行多人集体博弈（playing t

44、he field；Maynard Smith 1982）。目前理论上还未严格证明等待时间为负指数分布在多人博弈时仍然成立。Parker还记录了每一只雄蝇所获得的交配机会，发现采取不同等待时间的雄蝇大体上都获得了相同的交配机会。这也与消耗战理论的预测相一致。,非对称博弈,以上我们主要分析了对称博弈问题，即两个博弈者是完全相同的：它们的回报相同；获胜几率至少就它们所知是相同的；而且也没有任何其它线索可以用来帮助决定采取何种对策。因此，任何一个可行解都必然是对称Nash平衡，其中两个博弈者都使用相同的对策，即是说平衡的对策必须是对自己为最佳的应答。然而真实世界中大多数成对的动物争斗都是非对称的，即是

45、说争斗者之间在角色上有所不同：它们可能是一个雄性个体、一个雌性个体；一个较大、另一个较小的雄体；一个领域占有者、一个入侵者，等等。两个博弈者角色的不同可能会影响争斗的结果或者各自的赢得。既使不影响赢得，在博弈开始时博弈者就知道的角色差异常常被用来作为决定采取何种对策的基础，导致出现非对称的Nash平衡。例如，在鹰-鸽-中庸对策中（表3.2），中庸对策者在作为资源占有者时总是鹰对策者，在作为入侵者时则总是鸽对策者。为了利用上面介绍的对称博弈方法来分析非对称博弈问题，我们可以通过引入条件对策的思想而把非对称博弈对称化。考虑两个角色不同的个体，A和B（如占有者/入侵者；雄体/雌体；大个体/小个体等）

46、。我们假定两个博弈者都知道它们各自的以及对方的角色。再假定A有m个可供挑选的对策；B有n个可供挑选的对策；这些对策可能相同也可能不同。我们用表示角色为A的个体在A采取对策i而对方采取对策j时的赢得值；则为B的赢得值。,现在我们引入总数为mn个的条件对策，i/j：“在角色A和角色B个体的争斗中，如果我是A采取对策i；如果我是B采取对策j。”在对策i/j的个体与对策k/l的个体博弈中，i/j个体有相同的可能性来扮演角色A或角色B；因此，它的赢得值为（3.17）这个式子定义了一个mn维的赢得矩阵。对于这个博弈，我们可以采取和上面相同的对称二人博弈方法来加以分析。上述的非对称博弈是一个完全信息博弈；

47、博弈双方都知道自己在博弈中的利益和代价所在。完全信息非对称博弈模型的一个普遍性质为，ESS肯定是纯对策（Selten 1980）。利用这个结果，我们能够很容易地鉴别哪些纯对策是ESS。我们只需比较对称化的赢得矩阵内对角线上的项是否比其它同列项大即可。,考虑一个资源占有者和一个入侵者之间的争斗。一个个体可以根据它是占有者还是入侵者来选择是鹰还是鸽。因此这是一个非对称博弈问题，并且共有四种条件对策：鹰/鹰（H/H）；鹰/鸽（H/D）；鸽/鹰（D/H）；鸽/鸽（D/D）。 H/H表示当个体无论是占有者还是入侵者时都是鹰；,H/D则表示，当个体是占有者时表现为鹰，是入侵者时表现为鸽；余者类推。表3.2

48、所分析的博弈没有包括D/H，即反中庸的可能性。赢得矩阵可以表示为表3.6。当VC时，H/H是唯一的ESS；而当VC时，H/D和D/H都是ESS。中庸对策（H/D）的特点是靠尊重所有权决定战斗的胜负；一个可能的例子是Davies（1978）对黄斑眼蝶（Pararge aegeria）争夺领域的研究。黄斑眼蝶的雄体试图保卫林内地面上的光斑，这将使它获得交配机会。当两个雄蝶在一块光斑上相遇时，它们盘旋飞上林冠层进行争斗，但光斑占有者总能获胜并回到光斑内。反中庸对策（D/H）在VC时同样也是ESS，Burgess（1976）所研究的墨西哥群居蜘蛛（Oecobius civitas）可能提供了一个实例。

49、,具有连续对策的多人博弈,到目前为止我们只考虑了二人博弈问题。但在许多情形下，个体之间的斗争不是成对进行的，而是多人集体的争斗。事实上，多人集体博弈可能更普遍。所以，我们有必要对多人博弈问题进行详细分析。因为多人博弈问题往往表现为连续对策的形式，所以下面的数学分析也将只考虑连续对策的多人博弈。令W(A,B)表示在B-对策者组成的种群内一个A-对策者的适合度。我们说I是一个ESS，如果对于所有的JI都满足下列条件（3.18）其中表示在J占比例为q，I占比例为（1-q）的种群里J对策者的适合度。条件（3.18）是说，对于弱Nash平衡，即W(J,I)=W(I,I)，一旦J在种群内占有不可忽视的比

50、例时其适合度必须小于I的适合度。条件（3.18）保证了I-对策者种群不会被任何突变对策所侵蚀。,考虑一个非常简单的对捕食者保持警戒的模型（Parker & Hammerstein 1985）。鸟类一起群居觅食；群的大小为n。每个鸟都花一定时间用于警戒，提防捕食者；其它剩余时间则用于觅食。假设捕食者每天只攻击一次，而且如果当时没有一只鸟正在警戒，每次攻击都捕杀一个个体；如果至少有一只鸟正处于警戒状态，那么全群所有鸟都会逃脱攻击。警戒的代价是觅食时间减少。我们假定一个把所有时间中v部分用于警戒的个体，如果它逃过了捕食者攻击，其适合度为1-v2。如果i个体花在警戒上的时间比例为vi，那么每个体受到捕

展开阅读全文