《第8章马尔可夫决策ppt课件.ppt》由会员分享,可在线阅读,更多相关《第8章马尔可夫决策ppt课件.ppt(17页珍藏版)》请在三一办公上搜索。
1、1,第8章 马尔可夫决策8.1马尔可夫链的定义 定义8.1 设 是一个随机序列,状态空间E为有限集,对于任意的正整数m,n若,有则称 为一个马尔可夫链(简称马氏链)。定义8.2 设 是一个马氏链,如果等式(13)的右边的条件概率与n无关,即则称 为齐次的马氏链。称 为系统由状态i经过m个时间间隔(或步)转移到状态j的转移概率。(14)式称为齐次性。它的含义是:系统由状态i到状态j的转移概率只依赖于时间间隔的长短,与起始的时刻无关。以后无特殊的说明,马氏链都是齐次的。8.2 转移概率矩阵及柯尔莫哥洛夫定理,(1),(2),2,(1)转移概率矩阵 对于一个马尔可夫链,称 为由状态i经过m步转移到状
2、态j的概率。其概率为:式中;例 已知一次转移矩阵试求二次转移矩阵。解 由公式(15)得:,(3),3,(2)柯尔莫哥洛夫-开普曼方程 由递推关系:所以8.3 应用问题(1)市场占有率的计算,(5),(4),4,例 假设市场上有A、B、C三种品牌的方便面,经市场调查:上月购买A品牌的顾客,有60%在本月仍购买A品牌,有20%转移购买C 品牌,有20%转移购买B品牌;上月购买B品牌的顾客,有70%在本月仍购买B品牌,有20%转移购买C 品牌,有10%转移购买A品牌;上月购买C品牌的顾客,有80%在本月仍购买C品牌,有10%转移购买B 品牌,有10%转移购买A品牌。上月市场占有率为:=(0.3,0.
3、4,0.3)。试求本月和下月三种方便面的市场占有率。解:由已知条件构造转移矩阵:由公式(5),本月市场占有率:,本 月 购 买,ABC,A B C,上月购买,5,同理,可算出下月的市场占有率:(2)占有率平衡态决策 当处于平衡态时,上月各牌的市场占有率等于本月市场占有率。其平衡态模型为:左式=令左式=右式,有,6,将转移概率代入上式:经整理,得去掉第三个多余方程,则,7,即得(3)人力资源决策 例 某高校对教师进行分类,可分为5种状态:助教、讲师、副教授、教授、流失(退休)。目前状态向量:S0=(135,240,115,60,0)。根据历史资料,各类职称的转移概率矩阵为:试分析三年后的教师结构
4、及三年内为保持编制不变应进多少研究生充实教师队伍。解;一年后的人员分布为:,8,由于要保持135+240+115+60+0=550人的总编制,流失走76人,因而第一年需进76位研究生充实教师队伍。此时人员分布为:S1=(81+76,198,123,72,0)=(157,198,123,72,0)第二年人员分布:第二年流失74人,因而补充74位研究生。各类人员的结构为S2=(168,182,117,83,0)第三年人员分布:,9,第三年流失72人,因而补充72位研究生。各类人员的结构为S3=(173,176,110,91,0)(4)吸收态马尔可夫链及应用基本概念:设有一四个状态马尔可夫链,其转移
5、概率矩阵P为 根据转移矩阵可以画出状态转移图,方框代表状态,箭头指向转移方向,箭头上数字表示转移概率,见图1。图1 状态转移图,1,2,3,4,1/4,1/4,1/4,1/3,1/2,2/3,1,1/2,1/4,10,连通性:对于马尔可夫链的状态空间S=(S1,S2,Sn),若从Si 状态可以转移到S j状态而且也可以从S j状态转移到Si状态,则称Si 状态与S j状态是连通的。例状态1、2。封闭类:若连通状态空间内的任何一状态都不可能到达状态空间外的任何一状态,称为封闭类,例状态1、2。过渡类:若一个连通空间之内的状态可以到达连通空间之外的状态,但外面的状态不可转入其内,称之为过渡类。例状
6、态3。吸收态:若封闭类仅由一个状态构成且只有转进没有转出称为吸收态,例状态4。含有吸收态的马尔可夫链,称为吸收态马尔可夫链马尔可夫链的标准形:或其中,I为单位阵;0为零矩阵;R为过渡态到吸收态转移概率矩阵,Q为过渡态之间的转移概率矩阵。,11,例在转移矩阵:中过渡态分析:过渡态分析的目的:在到达吸收态前的过渡态中停留的平均时间;从某一过渡态出发,在其被吸收前所经历的期望步数;转移过程从某一过渡态出发,最终为某特殊吸收态或为封闭类所吸收的概率。基本矩阵:。M的每一行和表示从某一状态出发,最终转至吸收态之前的总期望转移步数;M中的元素 表示过渡态Si 转到过渡态S j平均次数。吸收态转移矩阵:,1
7、2,式中,bij表示从过渡态Si出发,访问过渡态S j后进入吸收态的概率。例 已知 试对其进行过渡态分析。解:将其标准化则有,13,m 11 表示状态3在吸收前平均有1个转移期花费在第3状态;m 12 表示状态3在吸收前平均有0.8个转移期花费在第4状态;m 13 表示状态3在吸收前平均有0.4个转移期花费在第5状态;m 21 表示状态4在吸收前不会经过第3状态;m 22 表示状态4在吸收前平均有1个转移期花费在第4状态;m 23 表示状态4在吸收前平均有0.5个转移期花费在第5状态;b 11 表明状态3进入吸收态1的概率为0.88;b 12 表明状态3进入吸收态2的概率为0.12;b 21
8、表明状态4进入吸收态1的概率为0.85;b 22 表明状态4进入吸收态2的概率为0.15;b 31 表明状态5进入吸收态1的概率为0.7;b 32 表明状态5进入吸收态2的概率为0.3。,14,应用:(1)银行短期贷款回收 例 某银行把它应收的短期贷款期限定为1个季度,即转移期为一季度,并规定超过3个季度不能回收的短期贷款划为呆帐,据以下资料,计算短期贷款回收率。贷款状态划分为:S=(结请,呆帐,欠1季,欠2季,欠3季)。假定未来应分期收回贷款向量K=(4,2,1),单位:千万元。据经验估计,转移概率矩阵为解:由已知 M1 表明处于欠一季度状态的短期贷款经2.2步便可望进入吸收态:结清或成呆帐
9、;m 11 表明状态3(欠一季度款)在吸收态前,平均有1个转移期花费在欠一季状态上;m 12 表明状态3(欠一季度款)在吸收态前,平均有0.8个转移期花费在欠二季状态上;m 13 表明状态3(欠一季度款)在吸收态前,平均有0.4个转移期花费在欠三季状态上;,15,b 11 表明状态3(欠一季度款)经过逐次转移有0.88可能性进入结清状态;b 12 表明状态3(欠一季度款)经过逐次转移有0.12可能性进入呆帐状态;设Y为银行预期回收的贷款及呆帐向量,则即预期可加收贷款5.92千万元,呆帐1.08千万元,即贷款回收率为:85%(2)保修费用估计 例 假定某耐用消费品投放市场,提供三年保修服务。保修期内,修理一件产品的平均成本为30元(维修期内只能维修一次)三年内已售产品的向量为 1 2 3S=(3.5万 2.8万 1.5万)假定转移概率矩阵为:,16,试估计维修费用。解:由已知估计售后的维修费用:,17,总计维修费用为:即预计保修费用为36.5万,平均每件商品预期保修费为4.68元。,