强化学习精要：核心算法与TensorFlow实现课件.pptx

资源描述

《强化学习精要：核心算法与TensorFlow实现课件.pptx》由会员分享，可在线阅读，更多相关《强化学习精要：核心算法与TensorFlow实现课件.pptx（31页珍藏版）》请在三一办公上搜索。

1、强化学习精要：核心算法与TensorFlow实现,演讲人,2025-11-11,01.,02.,03.,04.,目录,第一部分强化学习入门与基础知识,第二部分最优价值算法,第三部分基于策略梯度的算法,第四部分其他强化学习算法,第一部分强化学习入门与基础知识,01,第一部分强化学习入门与基础知识,M.94275.CN,01,03,1 引言,2 数学与机器学习基础,3 优化算法,02,04,05,06,4 TensorFlow入门,5 Gym与Baselines,6 强化学习基本算法,第一部分强化学习入门与基础知识,1 引言,1.1 强化学习的概念,01,1.2 站在被实验者的角度看

2、问题,02,1.3 强化学习效果的评估,03,1.4 强化学习与监督学习,04,1.5 强化学习的实验环境,05,1.6 本书的主要内容,06,1 引言,1.7 参考资料,第一部分强化学习入门与基础知识,第一部分强化学习入门与基础知识,2 数学与机器学习基础,2.1 线性代数基础,A,2.2 对称矩阵的性质,B,2.3 概率论,C,2.4 重要性采样,D,2.5 信息论基础,E,2.6 KL散度,F,第一部分强化学习入门与基础知识,2 数学与机器学习基础,2.7 凸函数及其性质,2.8 机器学习的基本概念,2.10 总结,2.9 机器学习的目标函数,第一部分强化学习入门与基础知识,3

3、优化算法,D,3.4 自然梯度法,E,3.5 总结,A,3.1 梯度下降法,B,3.2 动量算法,C,3.3 共轭梯度法,第一部分强化学习入门与基础知识,4 TensorFlow入门,4.1 TensorFlow的基本使用方法,4.3 TensorFlow的分布式训练,4.5 总结,4.2 TensorFlow原理介绍,4.4 基于TensorFlow实现经典网络结构,4.6 参考资料,2,第一部分强化学习入门与基础知识,5 Gym与Baselines,5.2 Baselines,02,5.3 总结,03,5.1 Gym,01,第一部分强化学习入门与基础知识,6 强化学习基本算法,6.2

4、策略迭代,02,6.1 马尔可夫决策过程,01,6.3 价值迭代,03,6.4 泛化迭代,04,6.5 总结,05,第二部分最优价值算法,02,第二部分最优价值算法,7 Q-Learning基础8 DQN的改进算法,第二部分最优价值算法,7 Q-Learning基础,7.1 状态转移概率：从掌握到放弃,7.3 探索与利用,7.5 时序差分法与SARSA,7.2 蒙特卡罗方法,7.4 蒙特卡罗的方差问题,7.6 Q-Learning,第二部分最优价值算法,7 Q-Learning基础,3,1,5,7.9 Deep Q Network,7.7 Q-Learning的收敛性分析,7.11

5、参考资料,4,7.10 总结,2,7.8 从表格形式到价值模型,第二部分最优价值算法,8 DQN的改进算法,8.1 Double Q-Learning,01,8.2 Priority Replay Buffer,02,8.3 Dueling DQN,03,8.4 解决DQN的冷启动问题,04,8.5 Distributional DQN,05,8.6 Noisy Network,06,第二部分最优价值算法,8 DQN的改进算法,8.7 Rainbow,01,8.8 总结,02,8.9 参考资料,03,第三部分基于策略梯度的算法,03,第三部分基于策略梯度的算法,9 基于策略梯度的算法1

6、0 使策略单调提升的优化算法11 Off-Policy策略梯度法,第三部分基于策略梯度的算法,9 基于策略梯度的算法,9.1 策略梯度法,1,9.2 Actor-Critic算法,2,9.3 总结,3,9.4 参考资料,4,第三部分基于策略梯度的算法,10 使策略单调提升的优化算法,D,10.4 总结,E,10.5 参考资料,A,10.1 TRPO,B,10.2 GAE,C,10.3 PPO,第三部分基于策略梯度的算法,11 Off-Policy策略梯度法,11.4 总结,11.5 参考资料,11.1 Retrace,11.2 ACER,11.3 DPG,第四部分其他强化学习算法,04

7、,第四部分其他强化学习算法,12 稀疏回报的求解方法13 Model-based方法14 反向强化学习入门15 反向强化学习算法2.0,第四部分其他强化学习算法,12 稀疏回报的求解方法,01,12.1 稀疏回报的困难,12.2 层次强化学习,02,03,04,05,12.3 HER,12.4 总结,12.5 参考资料,第四部分其他强化学习算法,13 Model-based方法,13.1 AlphaZero,01,13.2 iLQR,02,13.4 参考资料,04,13.3 总结,03,第五部分反向强化学习,05,第四部分其他强化学习算法,14 反向强化学习入门,01,03,14.1 基本概念,14.2 从最优策略求解回报,14.3 求解线性规划,02,04,05,06,14.4 无限状态下的求解,14.5 从样本中学习,14.6 总结,14 反向强化学习入门,14.7 参考资料,第四部分其他强化学习算法,第四部分其他强化学习算法,15 反向强化学习算法2.0,01,03,15.1 最大熵模型,15.2 最大熵反向强化学习,15.3 GAIL,02,04,05,06,15.4 GAIL实现,15.5 总结,15.6 参考资料,感谢聆听,2020,

展开阅读全文