《博弈论7不完全信息动态博弈资料课件.ppt》由会员分享,可在线阅读,更多相关《博弈论7不完全信息动态博弈资料课件.ppt(70页珍藏版)》请在三一办公上搜索。
1、第七章 不完全信息动态博弈,至少部分博弈方没有关于得益全部信息的动态博弈,称“不完全信息动态博弈”或“动态贝叶斯博弈。,在不完全信息动态博弈中,按照海萨尼转换,博弈进行的先后顺序可以描述为:首先,“自然”选择参与人的类型,参与人自己知道,其他参与人不知道;其次,参与人开始行动,参与人的行动有先有后,后行动者能观测到先行动者的行动,但不能观测到先行动者的类型。,参与人的行动是类型依存的,每个参与人的行动都传递着有关自己类型的某种信息,后行动者可以通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念(概率分布),然后选择自己的最优行动。,先行动者预测到自己的行动将被后行动者所利用,就会
2、设法选择传递对自己最有利的信息,避免传递对自己不利的信息。因此,博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正“信念”的过程。,例题1:参与人i=1,2;参与人1的行动空间A1=L,R参与人1的类型空间T1=t11,t12参与人2的行动空间A2=A,B参与人2的类型空间T2=t2,单点集,因此参与人1对参与人2的信念p1=1;参与人2对参与人1的信念p2=(p,1-p);参与人1先行动,参与人2后行动。,按照海萨尼转换,该博弈表示为:,例题2:考察一个市场进入博弈参与人i=1,2;参与人1(在位者)的行动空间 A1=m1(低价格),m2(高价格)参与人1的类型空间 T1=t11(高成
3、本),t12(低成本)参与人2(进入者)的行动空间 A2=a1(进入),a2(不进入)参与人2的类型空间T2=t2,单点集,因此参与人1对参与人2的信念p1=1;参与人2对参与人1的信念p2=(p,1-p);,按照海萨尼转换,该博弈表示为:,注释:参与人i对其他参与人的类型(私人信息)t-i的信念 称为先验概率。当参与人 i在他的某个信息集h上观察到其他n-1个参与人行动组合,条件概率,是参与者i在观察到 的情况下,对参与者的类型t-i的修改,这个修正产生 的推断称为后验概率,在例1图7-1中,设R(t11),R(t12)是参与人1的两个战略。从而该博弈表示为完全但不完美的动态博弈图7-3。,
4、但(L,A)又排除不掉,因为没有子博弈。假设在参与人2的信息集h2上,观察到R产生的后验概率为 这时,参与者2选择A的期望收益为:0*q+0*(1-q)=0 选择B的期望收益为:1*q+1*(1-q)=10 所以参与人2一定会选择B.,参与人1知道理性的参与人2轮到他决策的信息集h2上会选择B,因此参与人的最优战略就是R(t12).既然参与人1决定选择R(t12),因此参与人2修正的信念推断是,所以就删掉了(L,A),7.1 精炼贝叶斯纳什均衡,7.1.1后续博弈引入精炼贝叶斯均衡的目的是:为了进一步强化(即加强对条件的要求)贝叶斯纳什均衡,这和子博弈精炼纳什均衡强化了纳什均衡是相同的。,用更
5、为广义的后续博弈的概念来代替子博弈,后续博弈可开始于任何信息集(而不论是否单结)。其后,进行相似的分析:如果参与者的战略要构成为博弈的一个精练贝叶斯均衡,它不仅必须是整个博弈的贝叶斯纳什均衡,而且必须构成每一个后续博弈的贝叶斯均衡。例子:市场进入博弈(该博弈的扩展式表述模型见图7.2),如果我们将从每一个信息集开始的博弈的剩余部分称为一个“后续博弈”(注意与子博弈的不同:子博弈必须开始于单结信息集),一个“合理”的均衡应该满足:给定每一个参与人有关其它参与人类型的后验信息,参与人的战略组合在每一个后续博弈上构成贝叶斯均衡。,精炼贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求:
6、(1)在每一个信息集上,决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念);(2)给定该信息集上的概率分布和其他参与人的后续战略,参与人的行动必须是最优的;(3)每一个参与人根据贝叶斯法则和均衡战略修正后验概率。,7.1.2 贝叶斯法则,统计学上,修正之前的判断称为“先验概率”,修正之后的判断称为“后验概率”。贝叶斯法则是人们根据新的信息从“先验概率”得到“后验概率”的基本方法。,一个不完全信息博弈中,假定参与人的类型是独立分布的,参与人i有K个可能类型,有H个可能行动。用tk和ah分别代表一个特定的类型和一个特定的行动。,假定i属于类型tk的先验概率为给定i属于tk,i选
7、择ah的条件概率为 则i选择ah的全概率是:,根据概率公式,观测到i选择了行动ah,i属于类型tk的后验概率为:,注意:精炼贝叶斯均衡假定参与人是根据贝叶斯法则修正先验概率的。不过,贝叶斯法则要求Probah0,即参与人i必须以正的概率选择ah,否则,后验概率没有定义。,如果Probah0,允许Probtk|ah在0,1区间取任何值,只要所取的值与均衡战略相容。在动态博弈中,Probah=0对应的是非均衡路径上的信息集。,7.1.3精炼贝叶斯均衡,假定有n个参与人,参与人i的类型是是私人信息,p(t-i|ti)是属于类型ti的参与人认为其他n-1参与人属于类型t-i=(t1,ti-1,t i+
8、1,tn)的先验概率。,令Si是i的战略空间,siSi是一个特定战略(它依赖类型ti),ah-i=(ah1,ahi-1,ahi+1,ahn)是在第h信息集上参与人i观测到的其他n-1个参与人的行动组合,它是战略组合s-i=(s1,s i-1,s i+1,sn)的一部分(即s-i规定的行动),,定义:精炼贝叶斯均衡s*(t)=(s*1(t1),s*n(tn)是一个战略组合,和一个后验概率组合,满足:(1)对于所有的参与人i,在每一个信息集h,(2)是使用贝叶斯法则从先验概率p(t-i|ti),观测到的ah-i和最优战略s*-i 得到(在可能情况下)。,上述定义中,(1)是精炼条件,即精炼贝叶斯均
9、衡要求均衡战略在每一个“后续博弈”上构成贝叶斯均衡;条件(2)对应的是贝叶斯法则的运用。,7.1.4 精炼贝叶斯均衡的等价定义,不完全信息静态博弈的海萨尼转换也适用于不完全信息动态博弈,经过海萨尼转换的不完全信息动态博弈与完全但不完美信息动态博弈没有多少差别。,等价定义:精炼贝叶斯均衡是一个战略组合和一个后验概率组合,满足下列要求R1-R4:,要求1:在每一信息集中,应该行动的参与者必须对博弈进行到该信息集中的哪个节有一个推断。对于非单节信息集,推断是在信息集中不同节点的一个概率分布;对于单节的信息集,参与者的推断就是到达单一决策节的概率为1。,要求2:给定参与者的推断,参与者的战略必须满足序
10、贯理性的要求。即在每一个信息集中应该行动的参与者(以及参与者随后的战略),对于给定的该参与者在此信息集中的推断,以及其他参与者随后的战略必须是最优反应。要求1意味着如果博弈的进行达到参与者2的非单节信息集,则参与者2必须对具体到达哪一个节(也就是参与者1选择了L还是R)有一个推断。这样的推断就表示为到达这两个节的概率p和1p。,给定参与者2的推断,选择R 的期望收益就等于p0+(1p)1=1p。选择L的期望收益等于p1+(1p)2=2p。由于对任意的p,都有2p lp,要求2排除了2选择R的可能性。图7.4,R,定义:对于一个给定的扩展式博弈中给定的均衡,如果博弈根据均衡战略进行时将以正的概率
11、达到某信息集,我们称此信息集处于均衡路径之上。反之,如果博弈根据均衡战略进行时,肯定不会达到某信息集,我们称之为处于均衡战略路径之外的信息集。,要求3:在处于均衡路径之上的信息集中,推断由贝叶斯法则及参与者的均衡战略给出。要求4:对处于均衡路径之外的信息集,推断由贝叶斯法则以及可能情况下的参与者的均衡战略决定。,在图7.3的子博弈精炼纳什均衡(L,L)中,参与者2的推断一定是p=1:给定参与者1的均衡战略,参与者2知道已经到了信息集中的哪一个节。作为要求3的另一种说明,设想在图7.3中存在一个混合战略均衡,其中参与者1选择L的概率为q1,M的概率为q2,选择R的概率为1-q1-q2。要求3则强
12、制性规定参与者2的推断必须是p=q1/(q1+q2)。,7.2 例题分析,例1、完全信息但不完美动态博弈如下:,(1,2),(2,1),(3,1),(0,1),(1,0),(3,1),1,求:(1)NE;(2)SPNE;(3)PBNE,B,A,y1,x,L,y2,R,M,L,M,R,解:(1)NE(A,L),(B,R).具体 略(2)无子博弈,因此为SPNE.(3)下面求PBNE.按照PBNE的定义,需要满足条件:R1-R4.R1:参与人1的信息集h1=x,显然信念 p1=1;参与人2的信息集h2=y1,y2,信念 p2=(p,1-p),其中0p1;,R2:给定参与人2的信念p2=(p,1-p
13、),其中0p1;参与人2选择L,M,R的期望收益为:E2L=2*p+1*(1-p)=1+pE2M=1*p+0*(1-p)=pE2R=1*p+1*(1-p)=1任意的0p1,都有E2M E2R E2L,所以 参与人2的最优战略:s*2=L.,给定参与人2的最优战略:s*2=L.参与人1的最优战略:s*1=A.所以(L,A)是一组均衡。R3:(L,A)穿过了参与人2的多信息集 由均衡(L,A)和Bayes法则有:修正的后验推断,R4:没有多信息集在均衡路径之外,自动满足。综上,该博弈的PBNE为:,再讨论例1,用不完全信息动态博弈如下:,(1,2),(2,1),(3,1),(0,1),(1,0),
14、(3,1),N,t11,L,2,R,M,L,M,R,B,A,1,1,t12,p,1-p,例2、不完全信息动态博弈如下:,(4,1),(0,0),(3,0),(0,1),1,求:(1)NE;(3)PBNE,B,A,p,L,1-p,R,L,R,C,(2,2),解:(1)NE(A,L),(C,R).具体 略(2)下面求PBNE.按照PBNE的定义,需要满足条件:R1-R4.R1:参与人1的信息集是单点,p1=1;参与人2在信息集h2的信念 p2=(p,1-p),其中0p1;,R2:给定参与人2的信念p2=(p,1-p),其中0p1;参与人2选择L,R的期望收益为:E2L=1*p+0*(1-p)=pE
15、2R=0*p+1*(1-p)=1-p当1/2 p1,都有E2R E2L,s*2=L.当 0p1/2,都有E2L E2R,s*2=R.,先分析(A,L),给定参与人2的最优战略:s*2=L,1/2 p1.参与人1的最优战略:s*1=A.所以(L,A)是一组均衡。R3:(L,A)穿过了参与人2的多信息集 由均衡(L,A)和Bayes法则有:修正的后验推断,R4:没有多信息集在均衡路径之外,自动满足。综上,该博弈的PBNE为:,再分析(C,R),给定参与人2的最优战略:s*2=R,0p1/2.参与人1的最优战略:s*1=C.所以(C,R)是一组均衡。R3:(C,R)没有穿过参与人2的多信息集 自动满
16、足,R4:多信息集在均衡路径(C,R)之外,由可能的均衡路径和Bayes法则有:因为如果博弈方1不选C,但也不能选B,因为B相对于A来说是弱劣策略,因此会选A,给定A,博弈方2的最优选择是L。综上,(C,R)不是PBNE,例2的另一种方法:,设参与人1的一个混合策略为:注意,纯策略是混合策略的特例,(4,1),(0,0),(3,0),(0,1),1,B,A,L,R,L,R,C,(2,2),例3、不完全信息动态博弈如下:,(1,2,1),(2,0,0),(3,3,3),(0,1,2),(0,1,1),2,求:(1)NE;(2)PBNE,B,A,L,U,V,R,1,U,V,P,1-P,3,解:(1
17、)NE:(A,L,U),(A,R,U).(A,R,V),(B,L,V).(2)下面求PBNE.该博弈有唯一的子博弈,该博弈有唯一的子博弈,(2,1),(3,3),(1,2),(1,1),2,L,U,V,R,U,V,P,1-P,有唯一NE(L,V),3,所以(B,L,V)是唯一的SPNE,只需要检验(B,L,V)是否是PBNE?,按照PBNE的定义,需要满足条件:R1-R4.R1:参与人1的信念 p1=1;参与人2的信念 p2=1;参与人3的信念 p3=(p,1-p),其中0p1;,R2:给定参与人3的信念p3=(p,1-p),其中0p1;参与人3选择U,V的期望收益为:E3U=1*p+2*(1
18、-p)=2-pE3V=3*p+1*(1-p)=1+2p当1/3p1,都有E3U E3V,s*3=V.当 0p1/3,都有E3V E3U,s*3=U.,R3:给定参与人1,2的最优战略是B和L,参与人3观测到博弈进入到自己的信息集左侧结点,产生相应的推断:接下来讨论s*=(B,L,V)与 的相容性.对参与人1来说:s*-1=(L,V),参与人1的最优选择是B.对参与人2来说:s*-2=(B,V),参与人2的最优选择是L.,对参与人3来说:s*-3=(B,L),由于,根据R2的分析p=11/3,所以参与人3的最优选择是V.(相容).R4:自动满足。,综上,该博弈的PBNE为:,一个说明:,其实,我
19、们可以直接排除:(A,R,U)(A,R,V)。因为对参与人2来说,R相对于L来说,是严格劣策略,所以理性的参与人不会选择R.,例4、不完全信息动态博弈如下:,(3,0),(0,1),(0,1),(3,0),1,求:(1)NE;(3)PBNE,M,L,p,L,1-p,R,L,R,R,(2,2),解:(1)NE(R,(1/2.1/2),具体 略,注:混合策略严格劣策略,(2)下面求PBNE.按照PBNE的定义,需要满足条件:R1-R4.R1:参与人1的信息集是单点,p1=1;参与人2在信息集h2的信念 p2=(p,1-p),其中0p1;,R2:给定参与人2的信念p2=(p,1-p),其中0p1;参与人2选择L,R的期望收益为:E2L=0*p+1*(1-p)=1-pE2R=1*p+0*(1-p)=p由于L,R对player 2无差异,所以p=1/2,给定,(1/2.1/2),player 1的最优策略是R.,R3:自动满足R4:混合策略(0,0,1),(1/2,1/2)处在多信息集之外,由于L,R对player 2无差异,所以。综上,该博弈的PBNE为:,练习,1、塞尔腾的马(Seltens horse),(4,4,4),(1,1,1),(5,5,0),(2,2,2),1,求:(1)NE;(2)SPNE;(3)PBNE,D,A,L,B,R,C,L,R,(3,3,0),2,3,