神经网络专题ppt课件.ppt_三一办公31ppt.com

资源描述

《神经网络专题ppt课件.ppt》由会员分享，可在线阅读，更多相关《神经网络专题ppt课件.ppt（69页珍藏版）》请在三一办公上搜索。

1、1,第3讲人工神经网络,文志强计算机与通信学院,2,主要内容,人工神经网络的发展神经元与网络结构感知器（Perceptron）反向传播网络(BP)应用实例,3,3.1人工神经网络的发展,1.1940以前代表人物有von Hemholtz,Mach,Pavlov等学习、训练的一般理论没有具体神经元的数学模型,2.20世纪40年代代表人物有McCulloch and Pitts,Hebb等生物神经元的学习机制神经网络可以计算任何算术函数,4,当其处于兴奋状态时，输出侧的轴突就会发出脉冲信号，每个神经元的树状突起与来自其它神经元轴突的互相结合部(称为突触)接收由轴突传来的信号。如果神经元

2、所接收到的信号的总和超过了它本身的“阈值”，则该神经元就会处于兴奋状态，并向它后续连接的神经元发出脉冲信号。,1943年，WSMcCulloch提出神经元模型，称为MP模型：当神经元处于兴奋状态时，其输出为1；处于非兴奋状态时，输出为0。1949年，赫伯(Hebb Donala)提出了神经元的学习法Hebb法则（目前仍在使用）。,5,3.20世纪50年代代表人物有Rosenblatt,Widrow and Hoff等快速实用的神经网络和学习规则,50年代末，FRosenblatt提出感知机模型。1962年Block用解析法证明了感知机的学习收敛定理，引发了60年代以感知机为代表的第一次神经网

3、络研究发展的高潮。,4.20世纪60年代代表人物有Minskey and Papert 说明了神经网络的局限性，新的学习算法很少提出，有些研究被取消。在Minskey关于感知机的悲观研究结果发表后，特别是在美国，神经网络信息处理的研究被蒙上了阴影，大多数人都转向符号推理人工智能技术的研究。,6,5.20世纪70年代代表人物有Amari,Anderson,Fukushima,Grossberg,Kohonen经过一段时间的沉寂后，研究继续进行,1972年，芬兰的TKohonen提出了一个与感知机等神经网络不同的自组织映射理论(SOM)。1975年，福岛提出了一个自组织识别神经网络模型。1976年

4、CVMalsburg et al发表了“地形图”的自形成模型。,7,6.20世纪80年代 20世纪80年代：Grossberg,Hopfield,Kohonen,Rumelhart随着PC机和工作站计算能力的急剧增强神经网络得到广泛应用新的概念不断引入克服了摆在神经网络研究面前的障碍人们对神经网络的研究热情空前高涨,1982年，Hopfield提出了所谓Hopfield神经网络模型。以Rumelhart为首的PDP(Parallel Distributed Processing)并行分布处理研究集团对联结机制(connectionist)进行了研究。1986年由Rumelhart和Hinton

5、提出误差反向传播神经网络BP,8,关于神经网络的主要国际性杂志有：(1)Neural Networks(国际神经网络协会会刊)(2)IEEE Transactions on Neural Networks(3)IEEE Transactions on Parallel Distributed System(4)Connections Science(5)Neurocomputing(6)Neural Computation(7)International Journal of Neural Systems,关于神经网络的国际交流第一届神经网络国际会议于1987年6月21至24日在美国加州圣地亚

6、哥召开，标志着神经网络研究在世界范围内已形成了新的热点。1988年，我国在北京召开了神经网络的国际研究工作会议，并出版了论文集。1989年10月在北京又召开了神经网络及其应用讨论会。1990年12月在北京召开了我国首届神经网络学术大会，并决定以后每年召开一次年会。1991年冬在南京召开的第二届中国神经网络学术大会上，宣布成立中国神经网络学会。深圳桑拿 S,9,神经元是大脑处理信息的基本单元，它的结构如图所示。它是以细胞体为主体，由许多向周围延伸的不规则树枝状纤维构成的神经细胞，其形状很像一棵枯树的枝干。它主要由细胞体、树突、轴突和突触(Synapse，又称神经键)组成。,3.2 神经元与网络结

7、构,人脑大约由1012个神经元组成，而其中的每个神经元又与约102104个其他神经元相连接，如此构成一个庞大而复杂的神经元网络。,输入,处理,输出,10,神经网络是一个并行和分布式的信息处理网络结构，一般由许多个神经元组成。,生物神经网络的模型化人工神经网络,11,神经元结构,xi(i1，2，n)为输入端(突触)上的输入信号；i为相应的突触连接权系数，它是模拟突触传递强度的一个比例系数，表示突触后信号的空间累加；表示神经元的阈值，表示神经元的响应函数。该模型的数学表达式为：,12,如果：x1=1 x2=2,神经元计算：s=1(1)+2 0 0.1=1.1,计算最后输出：y=0(s=1.1 0)

8、,13,响应函数,阈值单元线性单元,非线性单元S型(Sigmoid)函数,响应函数的基本作用：控制输入对输出的激活作用；对输入、输出进行函数转换；将可能无限域的输入变换成指定的有限范围内的输出。根据响应函数的不同，人工神经元有以下几种类型：,14,1.前向网络,网络的结构如左图所示，网络中的神经元是分层排列的，每个神经元只与前一层的神经元相连接。最上一层为输出层，隐含层的层数可以是一层或多层。前向网络在神经网络中应用很广泛。例如，感知器就属于这种类型。,人工神经网络的构成,15,2.从输出到输入有反馈的前向网络,网络的结构如左图所示。网络的本身是前向型的，与前一种不同的是从输出到输入有反馈回

9、路。例如，Fukushima网络就属于这种类型。,16,3.层内互连前向网络,可以实现同一层神经元之间横向抑制或兴奋的机制，从而限制层内能同时动作的神经数可把层内神经元分为若干组，让每组作为一个整体来动作。一些自组织竞争型神经网络就属于这种类型。,17,4.互连网络,互连网络有局部互连和全互连两种。全互连网络中的每个神经元都与其他神经元相连。局部互连是指互连只是局部的，有些神经元之间没有连接关系。Hopfield网络和Boltzmann机属于互连网络的类型。,18,人工神经网络的学习,学习方法就是网络连接权的调整方法。人工神经网络连接权的确定通常有两种方法：根据具体要求：直接计算出来，如Ho

10、pfield网络做优化计算；通过学习得到的，大多数人工神经网络都用这种方法。学习方法是多种多样的。一些基本的、通用的学习规则：,19,一些基本的、通用的学习规则,1Hebb学习规则是Donall Hebb根据生理学中条件反射机理，于1949年提出的神经元连接强度变化的规则。2学习规则用已知样本作为教师对网络进行学习，又称误差校正规则。3相近学习规则,20,3.3 感知器（Perceptron）,感知器是由美国计算机科学家罗森布拉特（F.Roseblatt）于1957年提出的。感知器可谓是最早的人工神经网络。单层感知器是一个具有一层神经元、采用阈值激活函数的前向网络。通过对网络权值的训练，可

11、以使感知器对一组输入矢量的响应达到元素为0或1的目标输出。,21,如果：x1=1 x2=2,神经元计算：s=1(1)+2 0 0.1=1.1,计算最后输出：y=0(s=1.1 0),22,其中，每一个输入分量pj(j1，2，r)通过一个权值分量wj，进行加权求和，并作为阈值函数的输入。偏差b的加入使得网络多了一个可调参数，为使网络输出达到期望的目标矢量提供了方便。感知器特别适合解决简单的模式分类问题。F.Roseblatt已经证明，如果两类模式是线性可分的（指存在一个超平面将它们分开），则算法一定收敛。,23,感知器的网络结构,感知器的网络是由单层的s个感知神经元，通过一组权值ij(i1，2s

12、；jl，2r)与r个输入相连组成。对于具有输入矢量Pr和目标矢量Ts的感知器网络的简化结构，如图所示。,感知器简化结构图,24,人工神经网络的构成,根据网络结构，可以写出第i个输出神经元(i1，2，s)的加权输入和ni及其输出ai为：,感知器的输出值是通过测试加权输入和值落在阈值函数的左右来进行分类的，即有：,25,感知器的图形解释,为了简单起见，以下取s1，即输出为一个节点的网络情况来进行作图解释。,以输入矢量r2为例，对于选定的权值w1、w2和b，可以在以p1和p2分别作为横、纵坐标的输入平面内画出W*P+bw1 p1+w2 p2+b0的轨迹，它是一条直线直线上的及其线以上部分的所有p1

13、、p2值均使w1 p1+w2 p2+b0，这些点若通过由w1、w2和b构成的感知器则使其输出为1；该直线以下部分的点则使感知器的输出为0。,26,感知器学习规则,对于输入矢量P，输出矢量A，目标矢量为T的感知器网络，感知器的学习规则是根据以下输出矢量可能出现的几种情况来进行参数调整的。如果第i个神经元的输出是正确的，即有：aiti，那么与第i个神经元联接的权值wij和偏差值bi保持不变；如果第i个神经元的输出是0，但期望输出为1，即有ai0，而ti1，此时权值修正算法为：新的权值wij为旧的权值wij加上输入矢量pj；类似的，新的偏差bi为旧偏差bi加上1；如果第i个神经元的输出为1，但期望输

14、出为0，即有ai1，而ti0，此时权值修正算法为：新的权值wij等于旧的权值wij减去输入矢量pj；类似的，新的偏差bi为旧偏差bi减去1。,27,感知器学习规则,感知器学习规则的实质为：权值的变化量等于正负输入矢量。具体算法总结如下。对于所有的i和j，il，2，s；j1，2，r，感知器修正权值公式为：,用矢量矩阵来表示为：,此处，E为误差矢量，有ETA。,感知器的学习规则属于梯度下降法，该法则已被证明：如果解存在，则算法在有限次的循环迭代后可以收敛到正确的目标矢量。,(3.1),28,网络的训练,人工神经网络权值通过网络的自身训练来完成的。在输入矢量P的作用下，计算网络的实际输出A，并与相应

15、的目标矢量T进行比较，检查A是否等于T，然后用比较后的误差量，根据学习规则进行权值和偏差的调整；重新计算网络在新权值作用下的输入，重复权值调整过程，直到网络的输出A等于目标矢量T或训练次数达到事先设置的最大值时训练结束。注意：若网络训练成功，那么训练后的网络在网络权值的作用下，对于被训练的每一组输入矢量都能够产生一组对应的期望输出；若在设置的最大训练次数内，网络未能够完成在给定的输入矢量P的作用下，使AT的目标，则可以通过改用新的初始权值与偏差，并采用更长训练次数进行训练。,29,感知器设计训练的步骤,1)对于所要解决的问题，确定输入矢量P，目标矢量T，并由此确定各矢量的维数以及确定网络结构大

16、小的神经元数目：r，s和q；2)参数初始化：a)赋给权矢量w在(-l,1)的随机非零初始值；b)给出最大训练循环次数max_epoch；3)网络表达式：根据输入矢量P以及最新权矢量W，计算网络输出矢量A；4)检查：检查输出矢量A与目标矢量T是否相同，如果是，或已达最大循环次数训练结束，否则转入5)；5)学习：根据(3.1)式感知器的学习规则调整权矢量，并返回3)。,30,感知器神经网络应用的局限性,感知器的输出只能取0或1。单层感知器只能对线性可分的向量集合进行分类。,31,感知器神经网络设计实例,下面给出例题来进一步了解感知器解决问题的方式，掌握设计训练感知器的过程。例考虑一个简单的分类问题

17、。设计一个感知器，将二维的四组输入矢量分成两类。输入矢量为：P-0.5-0.5 0.3 0；-0.5 0.5-0.5 1；目标矢量为：T1.0 l.0 0 0,32,方程求解,通过前面对感知器图解的分析可知，感知器对输入矢量的分类实质是在输入矢量空间用W*P+b0的分割界对输入矢量进行切割而达到分类的目的。,输入矢量为：P-0.5-0.5 0.3 0；-0.5 0.5-0.5 1；目标矢量为：T1.0 l.0 0 0,33,感知器求解,采用具有阈值激活函数的神经网络：设计网络的模型结构；训练网络权值Ww11,w12和b；根据学习算法和训练过程进行程序编程；运行程序，让网络自行训练其权矢量，直至

18、达到不等式组的要求。所需实现的输入节点r，以及输出节点数，已被问题所确定而不能任意设置。,34,感知器求解,根据题意，网络结构图如图所示。设置最大循环次数和赋予权值初始值后利用程序设计语言，根据题意以及感知器的学习、训练过程来编写自己的程序。,35,3.4 反向传播网络,前面讲到的感知器神经网络为单层网络结构，其传递函数都十分简单，感知器为单边符号函数。推广到多层网络，并且将传递函数变为非线性可微分函数，这就是BP网络。反向传播网络(Back Propagation Network，简称BP网络)是对非线性可微分函数进行权值训练的多层网络。,36,BP网络,由于感知器神经网络中神经元的变换函

19、数采用符号函数，其输出为二值量，因此它主要用于模式分类。BP网络是一种多层前向反馈神经网络，其神经元的变换函数是S型函数，因此输出量为0到1之间的连续量，它可以实现从输入到输出的任意的非线性映射。由于其权值的调整采用反向传播（Back propagation）的学习算法，因此被称为BP网络。,37,BP神经网络的主要应用,BP网络主要用于：1)函数逼近：用输入矢量和相应的输出矢量训练一个网络逼近一个函数；2)模式识别：用一个特定的输出矢量将它与输入矢量联系起来；3)分类：把输入矢量以所定义的合适方式进行分类；4)数据压缩：减少输出矢量维数以便于传输或存储。在人工神经网络的实际应用中，8090的

20、人工神经网络模型是采用BP网络或它的变化形式，是前向网络的核心部分，体现了人工神经网络最精华的部分。,38,BP网络模型与结构,神经网络通常由输入层、输出层和隐藏层组成，输入层的神经元个数等于样本的特征数，输出层就是分类判决层，它的神经元个数等于样本的类别数。特点：对噪声数据具有较高的承受能力，但训练需要花费较长的时间。,39,BP网络的激活函数,BP网络S型激活函数,感知器的激活函数是二值型的，BP网络的激活函数必须是处处可微的，所以它就不能采用二值型的阀值函数0，1或符号函数-1，1，BP网络经常使用的是S型的对数或正切激活函数和线性函数。,40,BP算法,BP算法通过迭代地处理一组训练样

21、本，将每个样本的网络预测与实际知道的类标号比较，进行学习。对于每个训练样本，修改连接权值，使得网络预测与实际类之间的均方误差最小。这种修改“后向”地进行,即由输出层，经由每个隐藏层，到第一个隐藏层。,41,BP算法修改权值方法的推导,研究处于某一层的第j个计算单元，脚标i代表其前层第i个单元，脚标k代表后层第k个单元，Oj代表本层输出，wij是前层到本层的权值，如图所示。当输入某个样本时，从前到后对每层各单元作如下计算（正向计算）,42,BP算法修改权值方法的推导,对于输出层而言，是实际输出值，是理想输出值，此样本下的误差为：,为使式子简化，定义局部梯度,考虑权值对误差的影响，可得,权值修正

22、应使误差最快地减少，修正量为,如果节点j是输出单元，则,43,BP算法修改权值方法的推导,如果节点j不是输出单元，由图可知，Oj对后层的全部节点都有影响。因此，,对于Sigmoid函数,有,或者当,时有,44,BP算法修改权值方法的推导,在实际计算时，为了加快收敛速度，往往在权值修正量中加上前一次的权值修正量，一般称之为惯性项，即,45,BP算法步骤,一个小的随机数,46,BP算法步骤,以上算法是对每个样本作权值修正，也可以对各样本计算后求和，按总误差修正权值。算法中每一个神经元可以引入一个偏置(或叫偏差或叫阈值），该偏置的加入使得网络多了一个可调参数，为使网络输出达到期望的目标矢量提供了方便

23、。反向传播算法解决了隐层权值修正问题，但它是用梯度法求非线性函数极值，因而有可能陷入局部极小点，不能保证收敛到全局极小点。,47,BP算法的基本步骤,终止条件：更新权值较小正确分类的样本百分比(系统总误差小于)超过预先指定的训练周期（实践中，权收敛可能需要数十万个周期）,48,3.5 径向基网络,1985年，Powell提出了多变量插值的径向基函数（Radial-Basis Function,RBF）方法。1988年，Broomhead和Lowe首先将RBF应用于神经网络设计，构成了径向基函数神经网络，即RBF神经网络。结构上看，RBF神经网络属于多层前向神经网络。它是一种三层前向网络：输入层

24、由信号源节点组成；第二层为隐含层，隐单元的个数由所描述的问题而定，隐单元的变换函数是对中心点径向对称且衰减的非负非线性函数；第三层为输出层，它对输入模式的作用做出响应。,49,径向基网络,RBF神经网络的基本思想是：用径向基函数（RBF）作为隐单元的“基”，构成隐含层空间，隐含层对输入矢量进行变换，将低维的模式输入数据变换到高维空间内，通过对隐单元输出的加权求和得到输出。RBF神经网络结构简单、训练简洁而且学习收敛速度快，能够逼近任意非线性函数。因此RBF网络有较为广泛的应用。如时间序列分析，模式识别，非线性控制和图像处理等。,50,3.5.1 RBF神经网络模型,RBF网络是单隐层的前向网络

25、。根据隐单元的个数，RBF网络有两种模型：正规化网络（Regularization Network）和广义网络（Generalized Network）。（1）正规化网络正规化网络的隐单元就是训练样本，所以正规化网络其隐单元的个数与训练样本的个数相同。,51,52,当网络输入训练样本Xk时，网络第j个输出神经元的实际输出为：一般“基函数”选为格林函数记为：当格林函数G(Xk,Xi)为高斯函数时：,53,（2）广义网络,正规化网络的训练样本Xi与“基函数”(Xk,Xi)是一一对应的，当N很大时，网络的实现复杂，且在求解网络的权值时容易产生病态问题（ill conditioning）。解决这一问

26、题的方法是减少隐层神经元的个数。,54,隐层个数小于训练样本数,55,当网络输入训练样本Xk时，网络第j个输出神经元的实际输出为：,当“基函数”为高斯函数时：,56,3.3.2 RBF网络的学习算法,RBF网络要学习的参数有三个：中心、方差和权值。根据径向基函数中心选取方法的不同，RBF网络有多种学习方法，其中最常用的四种学习方法有：随机选取中心法，自组织选取中心法，有监督选取中心法和正交最小二乘法。自组织选取中心法由两个阶段构成：自组织学习阶段，即学习隐层基函数的中心与方差的阶段。有监督学习阶段，即学习输出层权值的阶段。,57,（1）学习中心,自组织学习过程要用到聚类算法，常用的聚类算法是K

27、-均值聚类算法。假设聚类中心有I个（I的值由先验知识决定），设ti(n)（i=1,2,I）是第n次迭代时基函数的中心，K-均值聚类算法具体步骤如下：第一步：初始化聚类中心，即根据经验从训练样本集中随机选取I个不同的样本作为初始中心ti(0)（i=1,2,I）。,58,第二步：随机输入训练样本Xk。第三步：寻找训练样本Xk离哪个中心最近，即找到 i(Xk)使其满足第四步：调整基函数的中心。第五步：n=n+1转到第二步，直到学完所有的训练样本且中心的分布不再变化。,59,（2）确定方差,当RBF选用高斯函数，即：方差为：I为隐单元的个数，dmax为所选取中心之间的最大距离。,60,（3）学习权值

28、,权值的学习可以用LMS方法，也可以直接用伪逆的方法求解，即：式中D=d1,dk,dNT是期望响应，G+是矩阵G的伪逆,61,需注意几点：,K-均值聚类算法的终止条件是网络学完所有的训练样本且中心的分布不再变化。在实际应用中只要前后两次中心的变化小于预先设定的值即|ti(n+1)-ti(n)|（i=1,2,I），就认为中心的分布不再变化了。“基函数”(X,Xi)除了选用高斯函数外也可使用多二次函数和逆多二次函数等中心点径向对称的函数，如：,62,自组织选取中心法时设所有的基函数其方差都是相同的，实际上每个基函数都有自己的方差，需要在训练过程中根据自身的情况确定。K-均值聚类算法实际上是自组织映

29、射竞争学习过程的特例。其缺点是过分依赖于初始中心的选择，容易陷入局部最优值。为克服此问题，Chen于1995年提出了一种改进的K-均值聚类算法，这种算法使聚类不依赖初始中心的位置，最终可以收敛于最优解或次优解。,63,3.3.3 RBF网络与多层感知器的比较,RBF网络与多层感知器都是非线性多层前向网络，它们都是通用逼近器。对于任一个多层感知器，总存在一个RBF网络可以代替它，反之亦然。但是，这两个网络也存在着很多不同点：RBF网络只有一个隐层，而多层感知器的隐层可以是一层也可以是多层的。多层感知器的隐层和输出层其神经元模型是一样的。而RBF网络的隐层神经元和输出层神经元不仅模型不同，而且在网

30、络中起到的作用也不一样。,64,RBF网络的隐层是非线性的，输出层是线性的。多层感知器解决模式分类问题时，它的隐层和输出层通常选为非线性的。当用多层感知器解决非线性回归问题时，通常选择线性输出层。RBF网络的基函数计算的是输入向量和中心的欧氏距离，而多层感知器隐单元的激励函数计算的是输入单元和连接权值间的内积。,65,多层感知器是对非线性映射的全局逼近，而RBF网络使用局部指数衰减的非线性函数（如高斯函数）对非线性输入输出映射进行局部逼近。这也意味着，逼近非线性输入输出映射，要达到相同的精度，RBF网络所需要的参数要比多层感知器少得多。,66,应用实例-手写体数字识别,1.预处理：二值化平滑处理细化规范化：规范化和尺寸(大小)规范化,67,2.特征提取,点特征孤立点或内部点端点或边界点连接点分支点交叉点区域笔划方向特征把输入的待识别字符划分为四个区域，统计区域的水平、垂直、45 四方向的笔划密度特征（统计穿过笔划的次数）,68,3.BP网络结构设计,输入与输出层的设计：输入层结点数即为输入特征向量的维数(19)。输出层的结点数为10,分别代表0,1,9十个类别。隐单元数目的选择：,其中m为输出神经元,n为输入神经元数,a为110,取隐单元数为10,4.学习策略：动量法和学习速度自适应调整的策略,69,谢谢大家！,

展开阅读全文