强化学习入门第二讲基于模型的强化学习ppt课件.pptx

上传人:牧羊曲112 文档编号:1330851 上传时间:2022-11-10 格式:PPTX 页数:17 大小:610.63KB
返回 下载 相关 举报
强化学习入门第二讲基于模型的强化学习ppt课件.pptx_第1页
第1页 / 共17页
强化学习入门第二讲基于模型的强化学习ppt课件.pptx_第2页
第2页 / 共17页
强化学习入门第二讲基于模型的强化学习ppt课件.pptx_第3页
第3页 / 共17页
强化学习入门第二讲基于模型的强化学习ppt课件.pptx_第4页
第4页 / 共17页
强化学习入门第二讲基于模型的强化学习ppt课件.pptx_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《强化学习入门第二讲基于模型的强化学习ppt课件.pptx》由会员分享,可在线阅读,更多相关《强化学习入门第二讲基于模型的强化学习ppt课件.pptx(17页珍藏版)》请在三一办公上搜索。

1、强化学习入门第二讲,郭宪2017.3.4,强化学习的形式化,强化学习目标:,max ,策略:,累积回报:, = + =0 1 , ,折扣回报:,= =0 ,值函数,最优策略:,序贯决策问题,强化学习方法分类,动态规划,动态规划是一类算法:包括离散和连续。,动态:蕴含着序列决策规划:蕴含着优化,如线性优化,二次优化或者非线性优化。,动态规划可以解决的问题:,1. 整个优化问题可以分解成多个子优化问题,2. 子优化问题的解可以被存储和重复利用,马尔科夫决策过程(MDP),贝尔曼最优性原理,得到贝尔曼最优化方程:, = max + ss , , = + max ,动态规划可以解决MDP的问题,核心:

2、动态规划通过值函数来迭代构造最优解,策略评估(policy evaluation),模型已知,方程组中只有值函数是未知数,方程组是线性方程组。未知数的数目等于状态的数目。,采用数值迭代算法,策略评估(policy evaluation),高斯-赛德尔迭代,策略评估(policy evaluation),状态空间:S=1,2.14动作空间:东,南,西,北,回报函数:-1,直到终止状态,均匀随机策略:, 东| =0.25, 南| =0.25, 西| =0.25, 北| =0.25,策略评估(policy evaluation),策略改进(policy improvement),计算策略值的目的是为

3、了帮助找到更好的策略,在每个状态采用贪婪策略。, +1 argmax ,=, 0 均匀策略:, 1 贪婪策略:,策略迭代(policy iteration),策略评估,策略改进,值函数迭代,策略改进一定要等到值函数收敛吗?,当K=1时便进行策略改进,得到值函数迭代算法, = max + ss ,值函数迭代与最优控制,值函数迭代算法,状态方程:,性能指标函数:,最优控制问题:,Bellman 最优性原理:,2. 利用变分法,将微分方程转化成变分代数方程,在标称轨迹展开,得到微分动态规划DDP,1. 将值函数进行离散,进行数值求解。,值函数迭代与最优控制,值函数迭代算法,此式是关于值函数的偏微分方程,利用数值算法可进行迭代计算值函数。,From 胡亚楠博士论文,值函数迭代与最优控制,值函数迭代算法, , = min , + 0 , , = min 0 0 + , , + +,+,贪婪策略:,利用变分法,将微分方程转化成变分代数方程,微分动态规划方法,微分动态规划:,1. 前向迭代:给定初始控制序列 正向迭代计算标称轨迹,(1),(3),(2),3. 正向迭代新的控制序列:,值函数迭代与最优控制,值函数迭代算法,基于模型的其他方法,逼近动态规划(逼近值函数)基于模型的策略搜索(dynamic)异步动态规划实时动态规划Guided policy search,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号