强化学习精要:核心算法与TensorFlow实现课件.pptx

上传人:小飞机 文档编号:3048081 上传时间:2023-03-09 格式:PPTX 页数:31 大小:1.17MB
返回 下载 相关 举报
强化学习精要:核心算法与TensorFlow实现课件.pptx_第1页
第1页 / 共31页
强化学习精要:核心算法与TensorFlow实现课件.pptx_第2页
第2页 / 共31页
强化学习精要:核心算法与TensorFlow实现课件.pptx_第3页
第3页 / 共31页
强化学习精要:核心算法与TensorFlow实现课件.pptx_第4页
第4页 / 共31页
强化学习精要:核心算法与TensorFlow实现课件.pptx_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《强化学习精要:核心算法与TensorFlow实现课件.pptx》由会员分享,可在线阅读,更多相关《强化学习精要:核心算法与TensorFlow实现课件.pptx(31页珍藏版)》请在三一办公上搜索。

1、强化学习精要:核心算法与TensorFlow实现,演讲人,2025-11-11,01.,02.,03.,04.,目录,第一部分 强化学习入门与基础知识,第二部分 最优价值算法,第三部分 基于策略梯度的算法,第四部分 其他强化学习算法,第一部分 强化学习入门与基础知识,01,第一部分 强化学习入门与基础知识,M.94275.CN,01,03,1 引言,2 数学与机器学习基础,3 优化算法,02,04,05,06,4 TensorFlow入门,5 Gym与Baselines,6 强化学习基本算法,第一部分 强化学习入门与基础知识,1 引言,1.1 强化学习的概念,01,1.2 站在被实验者的角度看

2、问题,02,1.3 强化学习效果的评估,03,1.4 强化学习与监督学习,04,1.5 强化学习的实验环境,05,1.6 本书的主要内容,06,1 引言,1.7 参考资料,第一部分 强化学习入门与基础知识,第一部分 强化学习入门与基础知识,2 数学与机器学习基础,2.1 线性代数基础,A,2.2 对称矩阵的性质,B,2.3 概率论,C,2.4 重要性采样,D,2.5 信息论基础,E,2.6 KL散度,F,第一部分 强化学习入门与基础知识,2 数学与机器学习基础,2.7 凸函数及其性质,2.8 机器学习的基本概念,2.10 总结,2.9 机器学习的目标函数,第一部分 强化学习入门与基础知识,3

3、优化算法,D,3.4 自然梯度法,E,3.5 总结,A,3.1 梯度下降法,B,3.2 动量算法,C,3.3 共轭梯度法,第一部分 强化学习入门与基础知识,4 TensorFlow入门,4.1 TensorFlow的基本使用方法,4.3 TensorFlow的分布式训练,4.5 总结,4.2 TensorFlow原理介绍,4.4 基于TensorFlow实现经典网络结构,4.6 参考资料,2,第一部分 强化学习入门与基础知识,5 Gym与Baselines,5.2 Baselines,02,5.3 总结,03,5.1 Gym,01,第一部分 强化学习入门与基础知识,6 强化学习基本算法,6.2

4、 策略迭代,02,6.1 马尔可夫决策过程,01,6.3 价值迭代,03,6.4 泛化迭代,04,6.5 总结,05,第二部分 最优价值算法,02,第二部分 最优价值算法,7 Q-Learning基础8 DQN的改进算法,第二部分 最优价值算法,7 Q-Learning基础,7.1 状态转移概率:从掌握到放弃,7.3 探索与利用,7.5 时序差分法与SARSA,7.2 蒙特卡罗方法,7.4 蒙特卡罗的方差问题,7.6 Q-Learning,第二部分 最优价值算法,7 Q-Learning基础,3,1,5,7.9 Deep Q Network,7.7 Q-Learning的收敛性分析,7.11

5、参考资料,4,7.10 总结,2,7.8 从表格形式到价值模型,第二部分 最优价值算法,8 DQN的改进算法,8.1 Double Q-Learning,01,8.2 Priority Replay Buffer,02,8.3 Dueling DQN,03,8.4 解决DQN的冷启动问题,04,8.5 Distributional DQN,05,8.6 Noisy Network,06,第二部分 最优价值算法,8 DQN的改进算法,8.7 Rainbow,01,8.8 总结,02,8.9 参考资料,03,第三部分 基于策略梯度的算法,03,第三部分 基于策略梯度的算法,9 基于策略梯度的算法1

6、0 使策略单调提升的优化算法11 Off-Policy策略梯度法,第三部分 基于策略梯度的算法,9 基于策略梯度的算法,9.1 策略梯度法,1,9.2 Actor-Critic算法,2,9.3 总结,3,9.4 参考资料,4,第三部分 基于策略梯度的算法,10 使策略单调提升的优化算法,D,10.4 总结,E,10.5 参考资料,A,10.1 TRPO,B,10.2 GAE,C,10.3 PPO,第三部分 基于策略梯度的算法,11 Off-Policy策略梯度法,11.4 总结,11.5 参考资料,11.1 Retrace,11.2 ACER,11.3 DPG,第四部分 其他强化学习算法,04

7、,第四部分 其他强化学习算法,12 稀疏回报的求解方法13 Model-based方法14 反向强化学习入门15 反向强化学习算法2.0,第四部分 其他强化学习算法,12 稀疏回报的求解方法,01,12.1 稀疏回报的困难,12.2 层次强化学习,02,03,04,05,12.3 HER,12.4 总结,12.5 参考资料,第四部分 其他强化学习算法,13 Model-based方法,13.1 AlphaZero,01,13.2 iLQR,02,13.4 参考资料,04,13.3 总结,03,第五部分 反向强化学习,05,第四部分 其他强化学习算法,14 反向强化学习入门,01,03,14.1 基本概念,14.2 从最优策略求解回报,14.3 求解线性规划,02,04,05,06,14.4 无限状态下的求解,14.5 从样本中学习,14.6 总结,14 反向强化学习入门,14.7 参考资料,第四部分 其他强化学习算法,第四部分 其他强化学习算法,15 反向强化学习算法2.0,01,03,15.1 最大熵模型,15.2 最大熵反向强化学习,15.3 GAIL,02,04,05,06,15.4 GAIL实现,15.5 总结,15.6 参考资料,感谢聆听,2020,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号