智能控制第6章学习控制-增强学习.ppt

上传人:牧羊曲112 文档编号:5989750 上传时间:2023-09-11 格式:PPT 页数:51 大小:652KB
返回 下载 相关 举报
智能控制第6章学习控制-增强学习.ppt_第1页
第1页 / 共51页
智能控制第6章学习控制-增强学习.ppt_第2页
第2页 / 共51页
智能控制第6章学习控制-增强学习.ppt_第3页
第3页 / 共51页
智能控制第6章学习控制-增强学习.ppt_第4页
第4页 / 共51页
智能控制第6章学习控制-增强学习.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《智能控制第6章学习控制-增强学习.ppt》由会员分享,可在线阅读,更多相关《智能控制第6章学习控制-增强学习.ppt(51页珍藏版)》请在三一办公上搜索。

1、第6章 学习控制增强学习,智能控制基础,6.2.1 增强学习的基本思想,6.2.2 增强学习的主要算法,6.2.3 增强学习在控制中的应用,6.2 增强学习,增强学习的基本思想,强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。,心理学基础,19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classical conditioning)理论。美国心理学家桑代克(Thorndike)也通过动物实验发现了效果律(law of effect),即动物可以根据试错尝试(trial-and-e

2、rror)中得到的赏罚信息,学得情景下的有效行为。这种行为的效果被随后的斯肯纳(Skinner)称为强化作用(reinforcement),而相应的学习则被称为操作条件学习(operant conditioning)。,发展历史,二十世纪五十年代,Minsky 首次提出。六十年代,Waltz和付京孙 将这种思想应用在智能控制中。八十年代以后,大量标志性的成果涌现。,系统结构图,增强学习的建模,有限Markov决策过程MDP(Markov Decision Processes)。系统状态集合为S;允许行为集合为As,As与状态s有关;行动为at下的状态转移概率P(st+1|st,at)得到即时回

3、报(immediate reward)rt+1的期望为,确定系统,其中,为状态转移函数,即时回报,举例,增强学习的问题,目标函数构造如何获得最优决策和最优目标函数值,目标函数,用累计回报(return)期望来作为学习的价值函数。无限折扣模型(infinite-horizon discounted model)有限模型(finite-horizon model)平均回报模型(average-reward model),为策略,目标函数求解,迭代策略计算IPE(Iterative Policy Evaluation),目标函数可写作递推形式V(s)是递推公式的不动点,可用迭代逼近,存在的问题,需要

4、了解整个系统的模型(状态转移、即时回报等)。,Monte Carlo法,目标函数为期望,在统计上可以用累计回报采样的平均值来逼近。,存在的问题,要完成整个尝试才能进行目标函数估计的更新。离线学习。,瞬时差分法(Temporal Difference),Sutton在1988年提出。根据 可得:,特点,结合了迭代策略计算法和Monte Carlo法。不需要完整的模型可进行在线学习,最优策略的求解,动态规划法,将递推公式两边取最优得到,推广策略迭代GPI,推广策略迭代GPI(Generalized Policy Iteration)特点,6.2.1 增强学习的基本思想,6.2.2 增强学习的主要算

5、法,6.2.3 增强学习在控制中的应用,6.2 增强学习,6.2.2 增强学习的主要算法,1.Q-学习算法,定义一个与行为有关的价值函数 Q函数:可知策略选取,具体算法,因为借鉴瞬时差分的思想,确定MDP下的收敛性,定理6-7:在确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q 0(s,a)有界,01,n=1,则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。,证明,n时,Qn0,不确定MDP下的收敛性,定理6-6:在不确定MDP下采取Q学习算法,如果对任意允许的(s,a),有|r(s,a)|和Q 0(s,a)有界,01,0n1,且满足

6、 则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。其中,N(n,s,a)为第n次迭代时,单元(s,a)被访问的累计次数。,学习步长选择,上述定理告诉我们学习步长既不可衰减太快慢、又不可衰减太快,一般可取n为:,遍历性条件的策略选择,隐含了贪婪原则的选择策略,,无法同时保证遍历性,需要寻找其它选择策略,在下面的迭代过程中,-贪婪方法,其中|A(st)|为决策集合的大小,为探索概率,一般随时间的增长而递减。,Boltzman分布法,模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。的取值一般也随时间的增长而减小

7、。,2.Sarsa算法,Rummery和Niranjan于1994年提出 由于算法中只用到了st、at、r、st1和at1五个量,所以Sutton在其书中将其命名为Sarsa。一种策略有关(on-policy)的学习算法,Sarsa学习算法的收敛性,定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(Greedy in the Limit with Infinite Exploration)条件或RRR(Restricted Rank-based Randomized)条件,且Varr(s,a)有界,0n1,满足 则当n,收敛于最优值Q*(s,a)。,策略选择条件,GLIE

8、(Greedy in the Limit with Infinite Exploration)条件 每一个(s,a)会被无限访问;Q函数的策略选择随着迭代次数的增长,以概率1收敛于贪婪方法 RRR条件是另一类常见的策略选择思想,这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系,即:,存在问题,收敛速度慢(状态空间、决策空间规模)因为在一步学习中,获得的即时回报只能影响相邻状态的价值函数值预测。Markov条件,3.多步学习算法,学习公式改为:en(s)资格迹(eligibility trace)(时间信度)01为衰减因子,dn(st,at,st+1)为TD误差,例如:,6.2.

9、1 增强学习的基本思想,6.2.2 增强学习的主要算法,6.2.3 增强学习在控制中的应用,6.2 增强学习,6.2.3 在控制中的应用,西洋跳棋倒立摆控制任务调度机器人动作学习与神经网络结合,1.pH值控制,连续搅拌釜CSTR(Continuous Stirred Tank Reactor)控制系统,该控制系统的目的是保持搅拌釜中溶液的pH值保持在一个给定的水平。pH值y(t)可由pH计读出。pH值的控制由一个滴定系统完成,控制信号u(t)由计算机给出。,状态设计,High if y(t)SP+1 High:if SP+0.2 y(t)SP+1Goal:if SP-0.2 y(t)SP+0.2Low:if SP-1 y(t)SP-0.2Lower:if y(t)SP-1,行为设计,滴定系统采用增量式控制a为行为编号,具体有:大减、减、小减、等待、小增、增、大增7种,依次编号。例如等待的行为编号为4。,状态转移图,即时回报设计,除了在Goal区域,其余区域的回报均是惩罚,学习策略,单步Q-学习控制行为选择采用贪婪算法,具体参数如下:折扣因子0.98,学习率0.3,探索概率0.3。,控制效果,假设机器人欲前往目的地G,不同行为的即时回报r如下图所示。,2.移动机器人路径规划,一步迭代,第2步迭代,第3步迭代,第4步迭代,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号