神经网络的优化学习.ppt_三一办公31ppt.com

资源描述

《神经网络的优化学习.ppt》由会员分享，可在线阅读，更多相关《神经网络的优化学习.ppt（67页珍藏版）》请在三一办公上搜索。

1、2023/10/3,1,第六章：神经网络的优化学习,6.1感知器学习规则6.2Widrow-Hoff学习算法6.3反向传播(BP)学习算法,2023/10/3,2,可以说，神经网络的优化学习一直是神经网络研究热点1943年,Warren McCulloch和Walter Pitts,人工神经元模型1949年,Donald O.Hebb,联想式学习规则1957年,Frank Rosenblatt等人,感知器(Perceptron)及其学习规则1960年,Bernard Widrow和Marcian Hoff,自适应线性神经元，WidrowHoff学习算法,第六章：神经网络的优化学习,2023/1

2、0/3,3,1969年,Marvin Minsky和Seymour Papert,感知器,神经网络研究陷入低潮。直到80年代,改进的(多层)感知器网络和学习规则,唤起人们对神经网络研究的兴趣。,第六章：神经网络的优化学习,2023/10/3,4,感知器是第一个完整的人工神经网络，具有联想记忆的功能，可以用于模式识别，并且在工程中得到实现。当前，人们仍然认为感知器网络是一种重要的神经网络。因为，对于某些应用问题而言，感知器仍是一种快速可靠的求解方法。对感知器网络行为的理解将会为理解更加复杂的神经网络奠定良好基础。,6.1 感知器学习规则,2023/10/3,5,一、单神经元感知器,6.1.1 感

3、知器的结构,二、多神经元感知器,2023/10/3,6,输出,权值向量,输入向量,单神经元感知器,单神经元感知器结构与MP神经元模型十分相似,作用函数,类别界限,净输入,阈值,输出,2023/10/3,7,若，则,若，则,单神经元感知器,二输入单神经元感知器,2023/10/3,8,三输入单神经元感知器,类别界限,相当于在三维空间中定义了一个平面，该平面将输入模式分为两类。,单神经元感知器,n()输入单神经元感知器，类别界限对于在 n 维向量空间上的线性可分模式，通过一个 n 输入的单神经元感知器一定可以找到一个超平面，将该模式分为两类。,2023/10/3,9,输出向量,连接权系数矩阵,输

4、入向量,阈值向量,作用函数,多神经元感知器,2023/10/3,10,第 i 个神经元的类别界限,其中：是输入向量与第 i 个神经元的连接权值；,是第 i 个神经元的阈值；,由 m 个神经元构成的感知器网络最多可以区分出种输入模式。,多神经元感知器,2023/10/3,11,感知器主要用作模式分类，感知器的学习实质是通过改变输入向量与神经元的连接权值或神经元的阈值，使感知器具有能够正确区分目标数据的能力。设有 P 组样本数据为：,其中是第组样本输入向量；是该输入相应的目标输出。,6.1.2 感知器的学习,在感知器网络尚未训练的情况下，可能与相差甚远。感知器学习就是通过调整权系数和阈值，使其实际

5、输出逐步逼近目标输出。,2023/10/3,12,Frank Rosenblatt的贡献在于提出了训练神经网络用于解决模式识别问题的学习规则，并证明了只要求解问题的权值存在，那么其学习规则通常会收敛到正确的网络权值上。整个学习过程较为简单，而且是自动的。只要把反映网络行为的样本数据对提交给网络，网络就能够根据样本数据从随机初始化的权值和偏置值开始自动地进行学习。,6.1.2 感知器的学习,2023/10/3,13,设有样本数据为：,，,，,目标输出为0的两个输入向量用空心圆表示，目标输出为1的输入向量用实心圆表示。,单神经元感知器的学习,2023/10/3,14,为了简化学习过程，取感知器的神

6、经元没有阈值。,类别界限为,单神经元感知器的学习,类别界限穿过原点，而且和是正交的。为了保证感知器能够有效将和，区分开，必须找到一条合适的类别界限。,2023/10/3,15,计算实际输出：首先将送入：,样本输入向量的目标值，说明感知器没有给出正确的值。,在开始训练时需要赋初始权值：随机取,单神经元感知器的学习,为了正确分类，应该调整权值使其逐渐指向。,2023/10/3,16,解决方法:是将加到上，使得更加偏向于。,如果，且，则,调整,调整后,单神经元感知器的学习,2023/10/3,17,计算的实际输出,单神经元感知器的学习,的目标向量，被错误地划分。,让远离，具体操作过程,如果，且

7、，则,调整,调整后,2023/10/3,18,计算的输出,单神经元感知器的学习,的目标输出，被错误的划分了。,调整后,调整,2023/10/3,19,若感知器能够正确工作，则保持权值向量不变。即：,如果,，,单神经元感知器的学习,则。,2023/10/3,20,定义一个新的误差变量,感知器学习的规则,如果,，则,如果,，则,如果,，则,单神经元感知器的学习,总结为,若考虑阈值,2023/10/3,21,权值向量的第 i 行,式中,阈值向量第 i 个元素的学习规则,多神经元感知器的学习,权值向量的第 i 行的学习规则,2023/10/3,22,多神经元感知器的学习,多神经元感知器的学习规则,式中

8、,2023/10/3,23,多层感知器,图中所示的异或关系是线性不可分的，单层感知器不能将其正确分类。历史上，Minsky正是利用这个典型的例子指出了感知器的致命弱点，从而导致了70年代神经元的研究低潮。,2023/10/3,24,第q层的输出向量,第q层的连接权系数矩阵,第q层的输入向量,第q层的阈值向量,作用函数,多层感知器,Q层网络，每层nq个神经元，q=1,Q。第0层为输入层，有n0个神经元。,2023/10/3,25,多层感知器,L1:P2(1),P1 P3 P4(-1),L2:P4(-1),P1 P2 P3(1),L3:Q2(-1),Q1 Q3(1),2023/10/3,26,19

9、60年，Bernard Widrow和Marcian Hoff，自适应线性神经元(ADALINE)网络，最小均方(LMS)学习算法。ADALINE网络在结构上与感知器非常相似，区别在于它的作用函数是线性函数而不是硬极限函数。,6.2Widrow-Hoff学习算法,2023/10/3,27,输出向量,连接权矩阵,输入向量,阈值向量,作用函数,6.2.1 ADALINE网络的结构,第 i 个神经元的输出,连接权值,阈值,2023/10/3,28,净输入,神经元输出,两输入的ADALINE,6.2.1 ADALINE网络的结构,2023/10/3,29,LMS算法也是有监督学习算法，设有组样本数据

10、,其中是第组样本输入向量；是该输入相应的目标输出。,当输入向量作用到ADALINE网络时，其实际输出为。在网络尚未训练的情况下，可能与相差甚远。LMS学习算法就是通过调整ADALINE网络的权系数和阈值，使网络实际输出逐步逼近目标输出，以便使均方误差最小。,6.2.2 LMS学习算法,2023/10/3,30,多输入的单神经元,定义广义权值向量,连接权值,定义广义输入向量,6.2.2 LMS学习算法,网络输出,有,输入向量,2023/10/3,31,定义误差,网络的均方误差,6.2.2 LMS学习算法,进一步，有,若令，时，上式改写为,相关系数，相关矩阵。,2023/10/3,32,假设正定

11、，则有且仅有一个强极小点,6.2.2 LMS学习算法,性能函数的梯度,方法1：利用*直接计算。方法2：利用*使用最速下降法迭代计算。方法3：对梯度进行估计，利用*使用最速下降法迭代计算。,*,*,2023/10/3,33,均方误差估计,梯度估计,其中,6.2.2 LMS学习算法,2023/10/3,34,6.2.2 LMS学习算法,2023/10/3,35,具有固定的学习速度的最速下降算法,被代替，有,或写为,6.2.2 LMS学习算法,上式即最小均方(LMS)算法，又称Widrow-Hoff学习算法。,2023/10/3,36,对多神经元网络，第 i 个神经元权值迭代公式,其中，是第

12、i 个神经元在第 k 次迭代时的偏差。第 i 个神经元的阈值迭代公式,6.2.2 LMS学习算法,多神经元ADALINE网络的LMS学习算法,其中,2023/10/3,37,LMS迭代学习算法实质是如何调整值，使得趋向于。,现在关心的是如果按照上式对进行迭代，LMS算法能否收敛，且权值向量能否收敛于？,6.2.3 LMS学习算法收敛性分析,2023/10/3,38,被代替,独立于,取，,即,6.2.3 LMS学习算法收敛性分析,求数学期望,2023/10/3,39,所有特征值落入单位圆内，系统趋于稳定。即,6.2.3 LMS学习算法收敛性分析,其中是的特征值。由于R正定,其特征值实数且大

13、于零，所以,迭代参数的稳态解,即,LMS算法不仅收敛，而且能够收敛到性能函数的极小值上。,2023/10/3,40,LMS学习算法非常重要:1它是多层网络中BP算法的先驱;2它被广泛使用于现在的信号处理应用中。,6.2.3 LMS学习算法收敛性分析,2023/10/3,41,感知器学习规则和LMS学习算法，只能用来训练单层神经网络。单层神经网络故有的局限性就是只能解线性可分的分类问题。Rosenblatt和Widrow提出了采用多层神经网络的解决方法，但没有找到训练多层神经网络合适的学习算法。,6.3 反向传播(BP)学习算法,1974,Paul Werboss,训练多层神经网络的反向传播算法

14、，该算法未受到重视。20世纪80年代中期，David Rumelhart和James McClelland，训练多层神经网络的BP学习算法（并行分布式处理），反向传播算法开始受到重视。,2023/10/3,42,输入层:n个神经元,线性函数作用函数。隐含层:l个神经元，非线性作用函数。输出层:m个神经元,非线性作用函数。,6.3.1 多层前向神经网络,BP神经网络：基于误差反向传播学习算法的前向神经网络。,2023/10/3,43,单层感知器或ADALINE网络:解决线性可分的模式分类问题。多层神经网络:解决不是线性可分的模式分类问题，而且它能够逼近任意非线性函数。在控制领域中得到青睐，即可以

15、反映出过程的动态特性（建模），也能够反映出期望输出与控制量间的对应关系（控制）。,6.3.1 多层前向神经网络,一个三层神经网络（隐含层神经元采用S型作用函数，输出层采用线性函数），可以以任意精度逼近任何感兴趣的函数。,2023/10/3,44,多层神经网络的学习属于有监督学习，其学习过程由信息正向传播和误差反向传播两部分组成。,6.3.2 BP学习算法,2023/10/3,45,输入层：,隐含层：,神经网络的前向计算,输入信息从输入层经隐含层逐层处理，并传向输出层，每层神经元的状态只影响下一层神经元的状态。,输出层：,2023/10/3,46,若网络输出和期望输出不一致，则将其误差信号，从输

16、出端反向传播，并在传播过程中对网络中各神经元之间的连接权值不断修正，使神经网络的输出趋向于期望输出值。,误差反向传播和连接权的调整,2023/10/3,47,设有 Q 组样本数据,其中第 q 组样本输入向量，是该输入对应的目标输出。,性能函数,误差反向传播和连接权的调整,用近似代替,改写成,2023/10/3,48,调整神经元的连接权系数，使性能函数趋于最小。为了在线学习，将写成迭代形式,采用最速下降法调整权值参数，并且用代替，对,误差反向传播和连接权的调整,其中是学习步长。,有,2023/10/3,49,输出层神经元权系数的调整,权系数的迭代公式,权系数的修正量,误差反向传播和连接权

17、的调整,学习速率,2023/10/3,50,求,定义误差反向传播系数,误差反向传播和连接权的调整,2023/10/3,51,误差反向传播和连接权的调整,2023/10/3,52,输出层权系数的修正量,或,输出层权值迭代公式,误差反向传播和连接权的调整,2023/10/3,53,隐含层神经元权系数的调整,权系数的迭代公式,权系数的修正量,学习速率,误差反向传播和连接权的调整,2023/10/3,54,定义误差反向传播系数,误差反向传播和连接权的调整,2023/10/3,55,误差反向传播和连接权的调整,2023/10/3,56,隐含层权系数调整量,隐含层权值迭代公式,误差反向传播和连接权的调整,

18、2023/10/3,57,提供训练样本数据,初始化,设置神经网络中神经元的初始权系数，一般取较小的随机数。,提供训练样本数据,BP学习算法计算过程,计算神经网络的输出,输入样本，按照前向计算公式计算网络中各神经元的输入、输出。最终由输入层经隐层至输出层，求得神经网络输出层各神经元的输出，即神经网络的输出。,2023/10/3,58,反向传播计算,按照梯度下降法计算权系数的调整量，逐层调整神经元的权值。,BP学习算法计算过程,判断一个训练周期是否结束,检测训练集中是否有未训练的样本，如果有返回，若没有进入。,判断是否满足终止条件,2023/10/3,59,计算神经网络输出与期望输出之间的偏差,B

19、P学习算法计算过程,若满足上述条件，神经网络学习结束；否则，进入开始新一周期的训练。,给出评价准则,或,2023/10/3,60,BP学习算法存在的缺陷,6.3.3 BP学习算法的改进,收敛速度慢,陷入局部极小值,BP神经网络的优势,万能逼近,容错性较好,泛化性能较好,2023/10/3,61,收敛速度慢的原因为避免权值过大，采用较小的学习速率，从而造成收敛速度慢。收敛速度慢的解决办法变化的学习速率或自适应的学习速率。,收敛速度慢,2023/10/3,62,由于BP学习算法采用梯度下降法，它可以收敛到一个极小值，但并不能保证全局极小。,陷入局部极小值,2023/10/3,63,迭代公式,其中：

20、为连接权向量，为迭代次数；为次的梯度，是次的梯度；为学习速率，；为动量因子，。,附加动量法,2023/10/3,64,自适应学习速率,准则：判断权值的修正是否真正降低了误差函数，若误差函数确实得到了抑制，则说明所选取的学习速率值小了，可以使其增在一些；否则，说明对误差的调整过大，那么就应该减小学习速率的值。判断条件：当新误差超过旧误差一定的倍数时，学习速率将减少；否则其学习速率保持不变；当新误差小于旧误差时，学习速率将被增加。,2023/10/3,65,弹性BP学习算法,弹性BP算法只取偏导数的符号，不考虑偏导数的幅值。偏导数的符号决定权值更新的方向，而权值变化的大小由一个独立的“更新值”确定

21、。若在两次连续的迭代中，目标函数对某个权值的偏导数的符号不变号，则增大相应的“更新值”(如在前一次的基础上乘1.3)；若变号，则减小相应的“更新值”(如在前一次的基础上乘0.5)。,2023/10/3,66,弹性BP学习算法,权值修正的迭代过程,其中为供设计者选择的参数；符号函数；为前一次的“更新值”，其初始值要根据实际应用预先设定。,在弹性BP学习算法中，当训练发生振荡时，权值的变化量将减小；当在几次迭代过程中权值均朝一个方向变化时，权值的变化量将增大。,2023/10/3,67,三种改进算法的存储量要求相差不大，各算法的收敛速度依次加快。其中，弹性BP算法的收敛速度远快于前两者。大量实际应用已证明弹性BP算法非常有效。,6.3.3 BP学习算法的改进,

展开阅读全文