学员论坛阿尔法狗原理ppt课件.pptx

上传人:牧羊曲112 文档编号:1412523 上传时间:2022-11-21 格式:PPTX 页数:11 大小:2.92MB
返回 下载 相关 举报
学员论坛阿尔法狗原理ppt课件.pptx_第1页
第1页 / 共11页
学员论坛阿尔法狗原理ppt课件.pptx_第2页
第2页 / 共11页
学员论坛阿尔法狗原理ppt课件.pptx_第3页
第3页 / 共11页
学员论坛阿尔法狗原理ppt课件.pptx_第4页
第4页 / 共11页
学员论坛阿尔法狗原理ppt课件.pptx_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《学员论坛阿尔法狗原理ppt课件.pptx》由会员分享,可在线阅读,更多相关《学员论坛阿尔法狗原理ppt课件.pptx(11页珍藏版)》请在三一办公上搜索。

1、,Deep Learning,Aamzing,Alpha Go,PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载: PPT论坛:,Deep Learning,TensorFlow,如何获取,http:/,Alpha Go,围棋棋盘19x19路,共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白子-1,0表示无子。,PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT图表下载: 优秀

2、PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载: PPT论坛:,Alpha Go,01,向人类学习,利用人类经验建立的,人类棋手围棋神经网络策略围棋程序,深度卷积神经网络,02,蒙特卡洛搜索树,03,利用阿尔法狗自我对弈训练起来的,针对现有局势评估的神经网络,局势评估神经网络,阿尔法狗的核心算法,利用蒙特卡洛方法建立起的局部最优解策略,深度卷积神经网络,右图为卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图

3、像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。,左图为一个神经网络示意图,蒙特卡洛搜索树,蒙特卡罗算法:采样越多,越近似最优解;举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法尽量找好的,但不保证是最好的。,Alpha Go,第一次改进后的阿尔法狗,通过卷积神经网络得到的P_human()的落子概率

4、,在可以落子的点上,利用蒙特卡洛搜索树在进行搜索,并重新修改得分胜利后的奖励分数方法,新分数= 初始分+ 通过模拟得到的赢棋概率,Alpha Go,自我博弈阿尔法狗再次引入利用深度学习网络构建了第二个大脑,局势评估网络,用来评估局面,是对整个棋局的输赢概率进行评判,如这个图,颜色越深就代表赢的可能性越大。训练这个大脑,人类的棋谱的数量已经无法胜任了,但是阿尔法狗可以通过自己和自己下棋,不断产生新的棋局来进行训练这个大脑。,新分数=初始分+ 0.5 * 通过模拟得到的赢棋概率 + 0.5 * 局面评估分,Alpha Go,One,Two,Three,可以评估结果的神经网络,蒙特卡洛搜索树,模仿人类下法的神经网络,学习人类下棋思路,训练出一个深度学习网络,通过第一个深度学习网络,找出下一步棋的数个备选走法,通过“蒙树”不断模拟走下去的情况,找出相对最优的走法,通过第二个深度学习网络,对整个棋局局势进行评估,进一步优化下一步走法,两个大脑结合,反复模拟,直到找出最终的走法,Alpha Go,Why not try,Alpha Go,Here is what you need,https:/,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号