动态规划讲解+例子课件.ppt

上传人:牧羊曲112 文档编号:1622252 上传时间:2022-12-11 格式:PPT 页数:52 大小:1.37MB
返回 下载 相关 举报
动态规划讲解+例子课件.ppt_第1页
第1页 / 共52页
动态规划讲解+例子课件.ppt_第2页
第2页 / 共52页
动态规划讲解+例子课件.ppt_第3页
第3页 / 共52页
动态规划讲解+例子课件.ppt_第4页
第4页 / 共52页
动态规划讲解+例子课件.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《动态规划讲解+例子课件.ppt》由会员分享,可在线阅读,更多相关《动态规划讲解+例子课件.ppt(52页珍藏版)》请在三一办公上搜索。

1、第一讲 动态规划(Dynamic Programming),动态规划的基本概念和思想 最短路径问题 投资分配问题 背包问题 排序问题,1,t课件,动态规划是运筹学的一个分支,是求解多阶段决策过程最优化问题的数学方法。动态规划在经济管理、工程技术、工农业生产及军事部门中都有着广泛的应用,并且获得了显著的效果。学习动态规划,我们首先要了解多阶段决策问题。,2,t课件,最短路径问题:给定一个交通网络图如下,其中两点之间的数字表示距离(或运费),试求从A点到G点的最短距离(总运输费用最小)。,1,2,3,4,5,6,A,B1,B2,C1,C2,C3,C4,D1,D2,D3,E1,E2,E3,F1,F2

2、,G,5,3,1,3,6,8,7,6,3,6,8,5,3,3,8,4,2,2,2,1,3,3,3,5,2,5,6,6,4,3,3,t课件,背包问题 有一个徒步旅行者,其可携带物品重量的限度为a 公斤,设有n 种物品可供他选择装入包中。已知每种物品的重量及使用价值(作用),问此人应如何选择携带的物品(各几件),使所起作用(使用价值)最大?,类似的还有工厂里的下料问题、运输中的货物装载问题、人造卫星内的物品装载问题等。,4,t课件,生产决策问题:企业在生产过程中,由于需求是随时间变化的,因此企业为了获得全年的最佳生产效益,就要在整个生产过程中逐月或逐季度地根据库存和需求决定生产计划。,机器负荷分配

3、问题:某种机器可以在高低两种不同的负荷下进行生产。要求制定一个五年计划,在每年开始时,决定如何重新分配完好的机器在两种不同的负荷下生产的数量,使在五年内产品的总产量达到最高。,航天飞机飞行控制问题:由于航天飞机的运动的环境是不断变化的,因此就要根据航天飞机飞行在不同环境中的情况,不断地决定航天飞机的飞行方向和速度(状态),使之能最省燃料和完成飞行任务(如软着陆)。,5,t课件,根据过程的特性可以将过程按空间、时间等标志分为若干个互相联系又互相区别的阶段。在每一个阶段都需要做出决策,从而使整个过程达到最好的效果。各个阶段决策的选取不是任意确定的,它依赖于当前面临的状态,又影响以后的发展。当各个阶

4、段的决策确定后,就组成了一个决策序列,因而也就决定了整个过程的一条活动路线,这样的一个前后关联具有链状结构的多阶段过程就称为多阶段决策问题。,多阶段决策过程的特点:,6,t课件,针对多阶段决策过程的最优化问题,美国数学家Bellman等人在20世纪50年代初提出了著名的最优化原理,把多阶段决策问题转化为一系列单阶段最优化问题,从而逐个求解,创立了解决这类过程优化问题的新方法:动态规划。,对最佳路径(最佳决策过程)所经过的各个阶段,其中每个阶段始点到全过程终点的路径,必定是该阶段始点到全过程终点的一切可能路径中的最佳路径(最优决策),这就是Bellman提出的著名的最优化原理。简言之, 一个最优

5、策略的子策略必然也是最优的。,Bellman在1957年出版的Dynamic Programming是动态规划领域的第一本著作。,7,t课件,例1、从A 地到E 地要铺设一条煤气管道,其中需经过三级中间站,两点之间的连线上的数字表示距离,如图所示。问应该选择什么路线,使总距离最短?,二. 最短路径问题,A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,1,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,8,t课件,解:整个计算过程分四个阶段,从最后一个阶段开始。,第四阶段(D E): D 有两条路线到终点E 。,显然有,A,B2,B1,B3

6、,C1,C3,D1,D2,E,5,2,14,1,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,9,t课件,首先考虑经过 的两条路线,第三阶段(C D): C 到D 有 6 条路线。,(最短路线为 ),A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,10,t课件,A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,(最短路线为 ),考虑经过 的两条路线,

7、11,t课件,A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,(最短路线为 ),考虑经过 的两条路线,12,t课件,A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,(最短路线为 ),第二阶段(B C): B 到C 有 9 条路线。,首先考虑经过 的3条路线,13,t课件,A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,12,6,10,10,4,3,12,11,13,9,6,

8、5,8,10,5,2,1,C2,(最短路线为 ),考虑经过 的3条路线,14,t课件,A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,(最短路线为 ),考虑经过 的3条路线,15,t课件,A,B2,B1,B3,C1,C3,D1,D2,E,5,2,14,12,6,10,10,4,3,12,11,13,9,6,5,8,10,5,2,1,C2,(最短路线为 ),第一阶段(A B): A 到B 有 3 条路线。,(最短距离为19),16,t课件,动态规划是用来解决多阶段决策过程最优化的一种数量方法。

9、其特点在于,它可以把一个n 维决策问题变换为几个一维最优化问题,从而一个一个地去解决。 需指出:动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是一种算法。必须对具体问题进行具体分析,运用动态规划的原理和方法,建立相应的模型,然后再用动态规划方法去求解。,即在系统发展的不同时刻(或阶段)根据系统所处的状态,不断地做出决策;,动态决策问题的特点:,系统所处的状态和时刻是进行决策的重要因素;,找到不同时刻的最优决策以及整个过程的最优策略。,17,t课件,动态规划方法的关键:在于正确地写出基本的递推关系式和恰当的边界条件(简称基本方程)。 要做到这一点,就必须将问题的过程分成几个相互联系

10、的阶段,恰当的选取状态变量和决策变量及定义最优值函数,从而把一个大问题转化成一组同类型的子问题,然后逐个求解。 即从边界条件开始,逐段递推寻优,在每一个子问题的求解中,均利用了它前面的子问题的最优化结果,依次进行,最后一个子问题所得的最优解,就是整个问题的最优解。,18,t课件,2、在多阶段决策过程中,动态规划方法是既把当前一段和未来一段分开,又把当前效益和未来效益结合起来考虑的一种最优化方法。因此,每段决策的选取是从全局来考虑的,与该段的最优选择答案一般是不同的.,最优化原理:作为整个过程的最优策略具有这样的性质:无论过去的状态和决策如何,相对于前面的决策所形成的状态而言,余下的决策序列必然

11、构成最优子策略。也就是说,一个最优策略的子策略也是最优的。,3、在求整个问题的最优策略时,由于初始状态是已知的,而每段的决策都是该段状态的函数,故最优策略所经过的各段状态便可逐段变换得到,从而确定了最优路线。,19,t课件,动态规划求解的多阶段问题的特点:每个阶段的最优决策过程只与本阶段的初始状态有关,而与以前各阶段的决策(即为了到达本阶段的初始状态而采用哪组决策路线无关)。换言之,本阶段之前的状态与决策,只是通过系统在本阶段所处的初始状态来影响本阶段及以后各个阶段的决策。或者说,系统过程的历史只能通过系统现阶段的状态去影响系统的未来。具有这种性质的状态称为无后效性(即马尔科夫性)状态。动态规

12、划方法只适用于求解具有无后效性状态的多阶段决策问题。,20,t课件,现有数量为a(万元)的资金,计划分配给n 个工厂,用于扩大再生产。 假设:xi 为分配给第i 个工厂的资金数量(万元);gi(xi)为第i 个工厂得到资金后提供的利润值(万元)。 问题:如何确定各工厂的资金数,使得总的利润为最大。,据此,有下式:,三. 投资分配问题,21,t课件,令:fk(x) 表示 以数量为 x 的资金分配给前k 个工厂,所得到的最大利润值。 用动态规划求解,就是求 fn(a) 的问题。,当 k=1 时, f1(x) = g1(x) (因为只给一个工厂),当1kn 时,其递推关系如下: 设:y 为分给第k

13、个工厂的资金(其中 0y x ),此时还剩 x y(万元)的资金需要分配给前 k1 个工厂,如果采取最优策略,则得到的最大利润为fk1(xy) ,因此总的利润为: gk(y) fk1(xy),22,t课件,如果a 是以万元为资金分配单位,则式中的y 只取非负整数0,1,2,x。上式可变为:,所以,根据动态规划的最优化原理,有下式:,23,t课件,例2:设国家拨给60万元投资,供四个工厂扩建使用,每个工厂扩建后的利润与投资额的大小有关,投资后的利润函数如下表所示。,解:依据题意,是要求 f4(60) 。,24,t课件,按顺序解法计算。第一阶段:求 f1(x)。显然有 f1(x) g1(x),得到

14、下表,第二阶段:求 f2(x)。此时需考虑第一、第二个工厂如何进行投资分配,以取得最大的总利润。,25,t课件,最优策略为(40,20),此时最大利润为120万元。,同理可求得其它 f2(x) 的值。,26,t课件,最优策略为(30,20),此时最大利润为105万元。,27,t课件,最优策略为(20,20),此时最大利润为90万元。,最优策略为(20,10),此时最大利润为70万元。,28,t课件,最优策略为(10,0)或( 0 , 10 ) ,此时最大利润为20万元。,f2(0) 0。最优策略为(0,0),最大利润为0万元。 得到下表,最优策略为(20,0),此时最大利润为50万元。,29,

15、t课件,第三阶段:求 f3(x)。此时需考虑第一、第二及第三个工厂如何进行投资分配,以取得最大的总利润。,30,t课件,最优策略为(20,10,30),最大利润为155万元。,同理可求得其它 f3(x) 的值。得到下表,31,t课件,第四阶段:求 f4(60)。即问题的最优策略。,32,t课件,最优策略为(20,0,30,10),最大利润为160万元。,33,t课件,有一个徒步旅行者,其可携带物品重量的限度为a 公斤,设有n 种物品可供他选择装入包中。已知每种物品的重量及使用价值(作用),问此人应如何选择携带的物品(各几件),使所起作用(使用价值)最大?,这就是背包问题。类似的还有工厂里的下料

16、问题、运输中的货物装载问题、人造卫星内的物品装载问题等。,四、背包问题,34,t课件,设 xj 为第 j 种物品的装件数(非负整数)则问题的数学模型如下:,用动态规划方法求解,令 fk(y) = 总重量不超过 y 公斤,包中只装有前k 种物品时的最大使用价值。 其中y 0, k 1,2, , n 。所以问题就是求 fn(a),35,t课件,其递推关系式为:,当 k=1 时,有:,36,t课件,例3:求下面背包问题的最优解,解:a5 ,问题是求 f3(5),37,t课件,38,t课件,39,t课件,40,t课件,41,t课件,所以,最优解为 X(1 . 1 . 0),最优值为 Z = 13。,总

17、结:解动态规划的一般方法:从终点逐段向始点方向寻找最小(大)的方法。,42,t课件,排序问题指n 种零件经过不同设备加工是的顺序问题。其目的是使加工周期为最短。,1、n 1 排序问题 即n 种零件经过1 种设备进行加工,如何安排?,例5.1,五、排序问题,43,t课件,(1)平均通过设备的时间最小,按零件加工时间非负次序排列顺序,其时间最小。(即将加工时间由小到大排列即可),零件加工顺序,平均通过时间,延迟时间 = 13 6 = 7,44,t课件,(2)按时交货排列顺序,零件加工顺序,平均通过时间,延迟时间 = 0,45,t课件,(3)既满足交货时间,又使平均通过时间最小,零件加工顺序,延迟时间 = 0,平均通过时间,46,t课件,2、n 2 排序问题 即n 种零件经过2 种设备进行加工,如何安排?,例5.2,47,t课件,经变换为,加工顺序图如下:,A,B,T,3,7,5,6,8,9,5,4,3,2,+2,+2,-5,加工周期 T = 3+7+5+6+8+2 = 31,48,t课件,3、n 3 排序问题 即n 种零件经过 3 种设备进行加工,如何安排?,例5.3,A,B,C,T,49,t课件,A,B,C,T,变换,50,t课件,排序,复原,51,t课件,计算,T = 6+10+8+7+6+4+3 = 44,计算依据:,52,t课件,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号