强化学习入门第二讲基于模型的强化学习ppt课件.pptx

资源描述

《强化学习入门第二讲基于模型的强化学习ppt课件.pptx》由会员分享，可在线阅读，更多相关《强化学习入门第二讲基于模型的强化学习ppt课件.pptx（17页珍藏版）》请在三一办公上搜索。

1、强化学习入门第二讲,郭宪2017.3.4,强化学习的形式化,强化学习目标：,max ,策略：,累积回报:, = + =0 1 , ,折扣回报:,= =0 ,值函数,最优策略：,序贯决策问题,强化学习方法分类,动态规划,动态规划是一类算法：包括离散和连续。,动态：蕴含着序列决策规划：蕴含着优化，如线性优化，二次优化或者非线性优化。,动态规划可以解决的问题：,1. 整个优化问题可以分解成多个子优化问题,2. 子优化问题的解可以被存储和重复利用,马尔科夫决策过程（MDP），贝尔曼最优性原理，得到贝尔曼最优化方程：, = max + ss , , = + max ,动态规划可以解决MDP的问题,核心：

2、动态规划通过值函数来迭代构造最优解,策略评估(policy evaluation),模型已知，方程组中只有值函数是未知数，方程组是线性方程组。未知数的数目等于状态的数目。,采用数值迭代算法,策略评估(policy evaluation),高斯-赛德尔迭代,策略评估(policy evaluation),状态空间：S=1,2.14动作空间:东，南，西，北,回报函数：-1，直到终止状态,均匀随机策略：, 东| =0.25，南| =0.25，西| =0.25，北| =0.25,策略评估(policy evaluation),策略改进(policy improvement),计算策略值的目的是为

3、了帮助找到更好的策略，在每个状态采用贪婪策略。, +1 argmax ,=, 0 均匀策略：, 1 贪婪策略：,策略迭代(policy iteration),策略评估,策略改进,值函数迭代,策略改进一定要等到值函数收敛吗？,当K=1时便进行策略改进，得到值函数迭代算法, = max + ss ,值函数迭代与最优控制,值函数迭代算法,状态方程：,性能指标函数：,最优控制问题：,Bellman 最优性原理：,2. 利用变分法，将微分方程转化成变分代数方程，在标称轨迹展开，得到微分动态规划DDP,1. 将值函数进行离散，进行数值求解。,值函数迭代与最优控制,值函数迭代算法,此式是关于值函数的偏微分方程，利用数值算法可进行迭代计算值函数。,From 胡亚楠博士论文,值函数迭代与最优控制,值函数迭代算法, , = min , + 0 , , = min 0 0 + , , + +,+,贪婪策略：,利用变分法，将微分方程转化成变分代数方程,微分动态规划方法,微分动态规划：,1. 前向迭代：给定初始控制序列正向迭代计算标称轨迹,（1）,（3）,（2）,3. 正向迭代新的控制序列：,值函数迭代与最优控制,值函数迭代算法,基于模型的其他方法,逼近动态规划（逼近值函数）基于模型的策略搜索（dynamic）异步动态规划实时动态规划Guided policy search,

展开阅读全文