《神经网络基本原理课件.ppt》由会员分享,可在线阅读,更多相关《神经网络基本原理课件.ppt(65页珍藏版)》请在三一办公上搜索。
1、第一讲 神经网络基本原理,主要内容,人工神经网络的提出人工神经网络的研究发展人工神经网络基本要素神经元介绍神经元作用函数神经元之间的连接形式网络的学习(训练)感知器神经网络,人工神经网络(简称神经网络,Neural Network)是模拟人脑思维方式的数学模型。 神经网络是在现代生物学研究人脑组织成果的基础上提出的,用来模拟人类大脑神经网络的结构和行为。神经网络反映了人脑功能的基本特征,如并行信息处理、学习、联想、模式分类、记忆等。 20世纪80年代以来,人工神经网络(ANN,Artificial Neural Network)研究取得了突破性进展。神经网络控制是将神经网络与控制理论相结合而发
2、展起来的智能控制方法。它已成为智能控制的一个新的分支,为解决复杂的非线性、不确定、未知系统的控制问题开辟了新途径。,人工神经网络的提出,3/65,目前,关于神经网络的定义尚不统一,按美国神经网络学家Hecht Nielsen 的观点,神经网络的定义是:“神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统靠其状态对外部输入信息的动态响应来处理信息”。综合神经网络的来源特点和各种解释,它可简单地表述为:人工神经网络是一种旨在模仿人脑结构及其功能的信息处理系统。 作为一门活跃的边缘性交叉学科,神经网络的研究与应用正成为人工智能、 认识科学、 神经生理学、 非线性动力学
3、等相关专业的热点。近十几年来,针对神经网络的学术研究大量涌现,它们当中提出上百种的神经网络模型,其应用涉及模式识别联想记忆、信号处理、自动控制组合优化故障诊断及计算机视觉等众多方面,取得了引人注目的进展。,人工神经网络的提出,4/65,(1)第一次热潮(40-60年代未) 1943年,美国心理学家W.McCulloch和数学家W.Pitts在提出了一个简单的神经元模型,即MP模型。1958年,F.Rosenblatt等研制出了感知机。(2)低潮(70-80年代初):人工智能的创始人之一Minsky和Papert 对以感知器为代表的网络系统的功能及局限性从数学上做了深入研究,于1969年发表了轰
4、动一时Perceptrons 一书,指出简单的线性感知器的功能是有限的,它无法解决线性不可分的两类样本的分类问题。开始了神经网络发展史上长达10 年的低潮期。 (3)第二次热潮:1982年,美国物理学家J.J.Hopfield提出Hopfield模型,它是一个互联的非线性动力学网络.他解决问题的方法是一种反复运算的动态过程,这是符号逻辑处理方法所不具备的性质. 1987年首届国际ANN大会在圣地亚哥召开,国际ANN联合会成立,创办了多种ANN国际刊物。,神经网络研究的发展,5/65,人工神经网络基本要素,人工神经网络(简称神经网络)是由人工神经元(简称神经元)互 连组成的网络,它是从微观结构和
5、功能上对人脑的抽象、简化,是模 拟人类智能的一条重要途径,反映了人脑功能的若干基本特征,如并 行信息处理、学习、联想、模式分类、记忆等。 人工神经网络(ANN)可看成是以人工神经元为节点,用有向加权弧连接起来的有向图。 在此有向图中,人工神经元就是对生物神经元的模拟,而有向弧则是轴突突触树突对的模拟。有向弧的权值表示相互连接的两个人工神经元间相互作用的强弱。,6/65,每个小圆圈表示一个神经元。各个神经元之间的连接并不只是一个单纯的传送信号的通道,而是在每对神经元之间的连接上有一个加权系数,这个加权系数起着生物神经系统中神经元的突触强度的作用,它可以加强或减弱上一个神经元的输出对下一个神经元的
6、刺激。这个加权系数通常称为权值。,在神经网络中,连接权值并非固定不变,而是按照一定的规则和学习算法进行自动修改。这也体现出神经网络的“进化”行为。,人工神经网络基本要素,7/65,神经元模型、数量及互连模式确定了神经网络的结构,而神经网络结构和学习算法又决定了其信息处理的能力。 最初的神经网络只由输入层和输出层组成。这种结构的神经网络信息处理能力极为有限,不能进行复杂的计算。后来在这种结构的基础上引入了隐含层,大大地提高了神经网络的计算能力。 研究表明由具有Sigmoid型作用函数的隐含层和具有线性作用函数的输出层构成的三层神经网络,经过训练后,可以以任意精度逼近绝大多数的函数。 在人工神经网
7、络设计及应用研究中,通常需要考虑三个方面的内容,即神经元作用函数、神经元之间的连接形式和网络的学习(训练)。,人工神经网络基本要素,8/65,人工神经网络基本要素 神经元,1、生物神经元的结构 神经细胞是构成神经系统的基本单元,称之为生物神经元,简称神经元。神经元由细胞体及其发出的许多突起构成。细胞体内有细胞核,突起的作用是传递信息。作为引入输入信号的若干个突起称为“树突”或“晶枝” ,而作为输出端的突起只有一个称为“轴突” 。一个神经元的轴突末梢经过多次分支,最后每一小支的末端膨大呈杯状或球状,叫做突触小体。这些突触小体可以与多个神经元的细胞体或树突相接触,形成突触。 每个神经元的突触数目有
8、所不同,而且各神经元之间的连接强度和极性有所不同,并且都可调整,基于这一特性,人脑具有存储信息的功能。图1.1 生物神经元的结构,9/65,大脑Brain,图1.1 生物神经元结构,神经生理学和神经解剖学的研究结果表明,神经元是脑组织的基本单元,是神经系统结构与功能的单位。,人工神经网络基本要素 神经元,10/65,2、人工神经元结构神经元是构成神经网络的最基本单元(构件)。人工神经元模型应该具有生物神经元的六个基本特性。1)神经元及其联接;2)神经元之间的联接强度决定信号传递的强弱;3)神经元之间的联接强度是可以随训练改变的;4)信号可以是起刺激作用的,也可以是起抑制作用的;5)一个神经元接
9、受的信号的累积效果决定该神经元的状态;6) 每个神经元可以有一个“阈值”。,人工神经网络基本要素 神经元,10/65,11/65,单输入神经元,对照生物神经元网络结构,可以得到一个单输入神经元如图所示。其权值 w 对应于突触的连接强度,细胞体对应于累加器和作用函数,神经元输出 y 即轴突的信号。,神经元的输出 y=f(w*u+ ),人工神经网络基本要素 神经元,12/65,可见,神经元的实际输出还取决于所选择的作用函数f(x)。神经元的阈值可以看作为一个输入值是常数1对应的连接权值。根据实际情况,也可以在神经元模型中忽略它。关于作用函数的选择将在后面详细讨论。在上述模型中,w和是神经元可调节的
10、标量参数。设计者可以依据一定的学习规则来调整它。,多输入神经元生物学研究结果表明一个神经元不止一个输入,每个神经元约与104105个神经元通过突触连接。可见,神经元具有多输入特性。一般结构如右图1.2所示:,人工神经网络基本要素 神经元,图1.2 多输入神经元,13/65,3、人工神经网络模型1943年由美国心理学家Warren McCulloch和数理逻辑学家Walter Pitts首先提出了一个简单的多输入人工神经元模型,被称为MP的人工神经元模型。神经网络拉开了研究的序幕。 1958 年Rosenblatt在原有 MP模型的基础上增加了学习机制。他提出的感知器模型,它把神经网络的研究从纯
11、理论探讨引向了从工程上的实现。,人工神经网络基本要素 神经元,14/65,MP神经元的结构模型,与第 i 个神经元连接的其它神经元的输出;,是非线性函数,又称为作用函数。,图中:yi是第 i 个神经元的输出,它可与其它多个神经元连接;,分别是指其它神经元与第i个神经元,连接权值:,是第 i 个神经元的阈值;,是第 i 个神经元的净输入;,分别是指,这是一个多输入单输出的非线性信息处理单元。其主要特点是把神经元输入信号的加权和与其阈值相比较,以确定神经元的输出。如果加权和小于阈值,则神经元输出为零;如果加权和大于阈值,则神经元输出为1。,人工神经网络基本要素 神经元,15/65,第 i 个神经元
12、的输出为:,设,则,f(x)是作用函数,也称激发函数。,MP神经元模型中作用函数为单位阶跃函数,见图1.2所示。,图1.2,人工神经网络基本要素 神经元,16/65,人工神经元在输入信号作用下产生输出信号的规律由神经元功能函数f给出(也称激活函数或转移函数或作用函数),这是神经元模型的外特性。它包含了从输入信号到净输入、再到激活值、最终产生输出信号的过程。综合了净输入、f 函数的作用。f 函数形式多样,利用它们的不同特性可以构成功能各异的神经网络。 在神经元模型中,作用函数除了单位阶跃函数之外,还有其它形式。常见的神经元功能函数有:,非对称型Sigmoid函数,非对称型Sigmoid函数如图
13、1.3(a)所示,可以用下式表示,神经元功能函数非对称型Sigmoid函数,17/65,Sigmoid函数也称为S型作用函数,是可微分的。有时为了需要,也可表达为如下的形式: , 见图 1.3(b)。,式中, 。,图 1.3(b),图 1.3(a),神经元功能函数非对称型Sigmoid函数,18/65,对称型Sigmoid函数,对称型Sigmoid函数如图1.4,可以用式表示 见图1.4(a),式中,=2。见图1.4(b),一般形式:,图1.4(a),图1.4(b),神经元功能函数对称型Sigmoid函数,19/65,对称型阶跃函数,图所示的作用函数,为对称型阶跃函数,也称之为符号函数。如右图
14、1.5可以表示为:,采用阶跃作用函数的神经元,称为阈值逻辑单元。,如右图1.5,图1.5,神经元功能函数对称型阶跃函数,20/65,线性函数,线性作用函数的输出等于输入,即 :,饱和线性作用函数:,对称饱和线性作用函数:,各函数图见图1.6,神经元功能函数线性函数,21/65,线性作用函数如图所示,线性 饱和线性对称饱和线性,图1.6,神经元功能函数线性函数,22/65,高斯函数,图所示的作用函数是高斯函数,可以表示为:,式中的反映出高斯函数的宽度。,神经元功能函数高斯函数,23/65,神经网络强大的计算功能是通过神经元的互连而达到的。它一个复杂的互连系统,单元之间的互连模式将对网络的性质和功
15、能产生重要影响。互连模式也称为拓扑结构,它种类繁多,这里介绍一些典型的神经网络拓扑结构。,根据神经元的拓扑结构形式不同,神经网络可分成以下两大类:,前向网络(前馈网络),人工神经网络的拓扑结构,网络可以分为若干“层”,各层按信号传输先后顺序依次排列,第 i 层的神经元只接受第(i -1)层神经元给出的信号,各神经元之间没有反馈。前馈型网络可用一有向无环路图表示,如图1.7所示:,24/65,图1.7,可以看出,输入节点并无计算功能,只是为了表征输入矢量各元素值。各层节点表示具有计算功能的神经元,称为计算单元。每个计算单元可以有任意个输入,但只有一个输出,它可送到多个节点作输入。称输入节点层为第
16、零层。计算单元的各节点层从下至上依次称为第1 至第N 层,由此构成 N 层前向网络。 第一节点层与输出节点统称为“可见层”,而其他中间层 则称为隐含层,这些神经元称为隐节点。BP网络就是典型的前向网络。,25/65,互连型神经网络,图1.8(b),反馈网络 典型的反馈型神经网络如图1.8(a),每个节点都表示一个计算单元,同时接受外加输入和其它各节点的反馈输入,每个节点也都直接向外部输出。Hopfield 网络即属此种类型。在某些反馈网络中,各神经元除接受外加输入与其它各节点反馈输入之外,还包括自身反馈。有时,反馈型神经网络也可表示为一张完全的无向图,如图 1.8( b )。图中,每一个连接都
17、是双向的。这里,第i 个神经元对于第j 个神经元的反馈与第j 至i 神经元反馈之突触权重相等,也即wij= wji 。,图1.8(a),26/65,在无反馈的前向网络中,信号一旦通过某个神经元,过程就结束了。而在反馈网络中,信号要在神经元之间反复往返传递,神经网络处在一种不断改变状态的动态过程中。它将从某个初始状态开始,经过若干次的变化,才会到达某种平衡状态,根据神经网络的结构和神经元的特性,还有可能进入周期振荡或其它如浑沌等平衡状态。 以上介绍了两种最基本的人工神经网络结构,实际上,人工神经网络还有许多种连接形式,例如,从输出层到输入层有反馈的前向网络,同层内或异层间有相互反馈的多层网络等等
18、,如下图。,互连型神经网络,27/65,神经网络的工作过程主要分为学习期和工作期两个阶段:在学习期,神经元之间的连接权值按照一定的学习规则进行自动调整,调整的目标是使性能函数达到最小。当性能指标满足要求时,学习过程结束;在工作期,神经网络中各神经元的连接权值固定,由网络输入信号计算出网络的输出结果。 由于人工神经网络的“知识”主要存储在网络中各神经元之间的连接权系数上,因此根据神经元的输入状态、连接权值及网络学习的评价标准来调整连接权系数,即可完成学习过程。需要说明的是神经网络的学习是按照一定的学习规则和学习方式进行的。各种学习算法的研究,在人工神经网络理论与实践发展过程中起着重要作用。当前,
19、人工神经网络研究的许多课题都致力于学习算法的改进、更新和应用。,人工神经网络的学习(训练),神经网络学习机理,28/65,学习规则是修正神经元之间连接强度或加权系数的算法,使获得知识结构适用周围环境的变换 。目前,神经网络常用的学习规则,主要有Hebb学习规则、 学习规则及概率式学习规则等。,联想式学习Hebb规则,由 Hebb 提出来的,是最早,最著名的训练算法,至今仍在各种神经网络模型中起着重要作用。Hebb规则假定:当两个细胞同时兴奋时,他们之间的连接强度应该增强,这条规则与“条件反射”学说一致,后来得到了神经细胞学说的证实。Hebb学习是一类相关学习,算法的基本思想是:如果有两个神经元
20、同时兴奋,则它们之间的连接强度的增强与它们的激励的乘积成正比。,学习规则Hebb规则,29/65,在Hebb学习规则中,学习信号简单地等于神经元的输出:即用yi(k)表示单元i 在k 时刻的激活值(输出),yj (k)表示单元j在 k 时刻的激活值,wij(k)表示单元i到单元j的连接权值,则Hebb学习规则可表示如下:Wij(k)=Wij(k+1)-Wij(k)=*yi(k) *yj(k+1),式中为学习速率上式表明,权值调整量与输入输出的乘积成正比。显然,经常出现的输入模式将对权向量有较大的影响。在这种情况下,Hebb学习规则需预先设置权饱和值,以防止输入和输出正负始终一致时出现权值无约束
21、增长。,30/65,纠正误差式学习Delta( )学习规则,如图给出的神经网络结构,其中 是输入时第 i 个神经元在 k 时刻的实际输出, 表示相应的期望输出,则误差信号为,Delta()学习规则,纠正误差学习的最终目的是使基于ei(k)的目标函数达到最小,以使神经网络中的每一个输出单元的实际输出逼近于期望输出。,31/65,可见,目标函数一旦确定,纠正误差学习过程实质上就是一个典型的函数最优化过程。这样就可以用函数最优化求解方法来纠正误差。通常目标函数可以定义为下列误差准则函数:,其中,是神经网络中第 i 个神经元的期望输出(教师信号);,为神经网络中第 i 个神经元的实际输出;,是神经网络
22、中第 i 个神经元的作用函数;,w(k)是与第 i 个神经元的权值向量,即,u(k)为输入向量,即,Delta学习规则,32/65,现在的问题是如何调整权值 ,使准则函数最小。由多变量函数求极值问题可知,若沿着准则函数的负梯度方向不断调正 值,可以使 达到最小。即,实际就是第 i 个神经元的净输入 ,那么,定义误差传播系数为,于是可以得到wij(k)的修正量为,学习规则又称误差修正规则。规则是根据的负梯度方向调整神经元间的连接权值,因此能够使误差函数E达到最小值。,Delta学习规则,其中是 功能函数f的导数要求功能函数可导,因此它只适用于有导师学习中,定义功能函数为连续函数的情况。,33/6
23、5,利用大量神经元相互连接组成的人工神经网络,将显示出人脑的若干特征,人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重wij值,以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统,可以发展知识,以至超过设计者原有的知识水平。通常,它的学习(或训练) 方式可分为两种,一种是有监督(supervised) 或称有导师的学习,这时利用给定的样本标准进行分类或模仿;另一种是无监督(unsupervised) 学习或称无导师学习,这时,只规定学习方式或某些规则,而具体的学习内容随系统所处环境(即输入信号情况)而异,系统可以自
24、动发现环境特征和规律性,具有更近似于人脑的功能。,人工神经网络学习方式,人工神经网络的学习方式,有监督学习(SL-Supervised Learning),网络的输出有一个评价的标准,网络将实际输出和评价标准进行比较,由其误差信号决定连接权值的调整。,评价标准是由外界提示给网络的,相当于由有一位知道正确结果的教师示教给网络,称为有导师学习,35/65,无监督的学习(ULS-Unsupervised Learning),自我调整,不存在外部环境的示教,也不存在来自外部环境的反馈来指示网络期望输出什么或者当前输出是否正确,又称为无导师学习,人工神经网络的学习方式,36/65,感知器神经网络结构 单
25、层感知器模型,1958年,美国学者Frank Rosenblatt 首次定义了一个具有单层计算单元的神经网络结构,取名为感知器。如果包括输入层在内,应为两层。单计算节点感知器结构如图1.10。单神经元感知器结构与McCulloch和Pitts提出的M-P神经元模型十分 相似,它们之间的区别在于神经元间连接权的变化。感知器的连接权定义为可变的,这样感知器就被赋予了学习的特性。,图1.10,感知器神经网络,37/65,对于图1.10给出的感知器神经元,其净输入及输出为,若令 ,则,其中:和是感知器神经元的输出和阈值;,是输入与神经元之间的权值向量;,是感知器的输入向量;,是感知器神经元的作用函数,
26、这里取阶跃函数。即,感知器神经网络,38/65,为了便于分析,以二输入单神经元感知器为例说明感知器的分类性能。此时,类别界限为:,由于单神经元感知器作用函数是阶跃函数,其输出只能是0或1。感知器主要用作模式分类。当神经元净输入x0 时 f(x)=0 ,当净输入x0 时f(x)=1 。可见,单神经元感知器可以将输入向量分为两类,类别界限为,若将w1、w2和看作为确定的参数,那么上式实质上在输入向量空间(u1,u2) 中定义了一条直线。该直线一侧的输入向量对应的网络输出为0,而直线另一侧的输入向量对应的网络输出则为1。两点决定一条直线, 为了获得这条直线,只要找出该直线与空间坐标轴的交点即可。,感
27、知器神经网络感知器模型,39/65,若令u1=0,则可求出该直线在u2 轴上的截距:,同样,若令u2=0,则可求出该直线在u1轴上的截距:,(当时),(当时),由上式可得单神经元感知器的类别界限如图1.11。当,时或当,时,感知器输出;反之,感知器输出。,图1.11,感知器神经网络感知器模型,40/65,对于三输入单神经元感知器,其类别界限为:,若将、和看作为确定的参数,那么上式相当在三空间(u1,u2,u3)中定义了一个平面,该平面将输入模式分为两类。三点决定一个平面,为了获得这个平面,同样需要找出该平面与空间坐标轴的交点。,若令,由上式可求出该平面在 轴上的截距:,(当时),令,由上式可求
28、出该平面在 轴上的截距:,(当时),令,由上式可求出该平面在 轴上的截距:,(当时),以上三点确定的平面即感知器的类别界限,该平面一侧的输入向量对应的输出为0,而另一侧的输入向量对应的输出则为1。,感知器神经网络感知器模型,41/65,多神经元感知器模型,由于单神经元感知器的输出只有0或1两种状态,所以只能将输入模式分为两类。而事实上输入向量模式的种类可能有许多种,为了将它们有效地分开,需要建立由多个神经元组成的感知器,其结构如右图。,当单神经元感知器的输入为 n ()时,其类别界限为对于在 n 维向量空间上的线性可分模式,通过一个 n 输入的单神经元感知器一定可以找到一个超平面,将该模式分为
29、两类。,感知器神经网络感知器模型,42/65,图所示的神经网络输出为,其中:是感知器网络的输出向量;,是各神经元间的连接权系数矩阵;,是感知器网络的输入向量;,是感知器网络的阈值向量;,是感知器神经网络中的作用函数,感知器神经网络感知器模型,43/65,对于多神经元感知器而言,每个神经元都有一个类别界限。那么第 i 个神经元的类别界限为:,其中:是输入向量ui与第 i 个神经元的连接权值;,是第 i 个神经元的阈值;,多神经元感知器可以将输入向量分为许多类,每一类由不同的向量表示。由于输出向量的每个元素可以取0或1两个值,所以一个由 m 个神经元构成的感知器网络最多可以区分出 种输入模式。,感
30、知器神经网络感知器模型,44/65,感知器神经网络感知器的学习,感知器的学习实质是通过改变输入向量与神经元的连接权值或神经元的阈值,使感知器具有能够正确区分目标数据的能力。可以看出,感知器的学习属于有监督学习。设有 P 组样本数据为:,其中是第i组样本输入向量;是该输入相应的目标输出(i=1,2,P),当输入向量作用到感知器网络时,其实际输出为。在感知器网络尚未训练的情况下, 可能与相差甚远。感知器学习就是通过调整权系数和阈值,使其实际输出逐步逼近目标输出。,Frank Rosenblatt的主要贡献在于提出了训练神经网络用于解决模式识别问题的学习规则。他证明了只要求解问题的权值存在,那么其学
31、习规则通常会收敛到正确的网络权值上。整个学习过程较为简单,而且是自动的。只要把反映网络行为的样本数据对提交给网络,网络就能够根据样本数据从随机初始化的权值和偏置值开始自动地进行学习。,45/65,下面根据样本数据,讨论感知器的学习过程。设有样本数据为:,单神经元感知器的学习过程,,,,,上面的样本数据对可以在平面坐标上表示出来。 图中目标输出为0的两个输入向量用空心圆表示,目标输出为1的输入向量用实心圆表示。,感知器神经网络感知器的学习,46/65,根据感知器性能分析结果可知,欲对样本数据实现有效分类,感知器网络应该有两个输入和一个输出。为了简化学习过程,取感知器的神经元没有阈值。这样,需要调
32、整的参数只有w1 和w2两个,见图1.12。,由前面讨论可知,当=0时,类别界限为,感知器神经网络感知器的学习,47/65,由上式可知,感知器的类别界限一定穿过坐标轴的原点,而且权值向量w和输入向量u是正交的。为了保证感知器能够有效将和,区分开,必须找到一条合适的类别界限。由图可以看出,实际上有无数条类别界限可供选择。,对于图 1.13中的单神经元感知器,在开始训练时需要为其赋初始权值。这里将 的两个元素设置为如下的两个随机数:,感知器神经网络感知器的学习,48/65,现在将样本数据中的输入向量提供给感知器。首先将送入:,即感知器的实际输出 ,而样本输入向量的目标值 ,说明感知器没有给出正确的
33、值。这是因为当时,根据式得到的类别界限直线为:,感知器神经网络感知器的学习,49/65,类别界限及权值向量在平面坐标系上位置见图,使其逐渐指向,这样就可以保证被正确地划分。,可见类别界限和相应的权值向量w是垂直的。由式子确定了类别界限与权值向量正交,说明类别界限取决于权值向量。对于图1.14给出的感知器,由于其初始权值向量是随机选取的,导致了感知器对输入向量错误划分。为了让感知器能够对 正确分类,那么就应该调整权值,图1.14,感知器神经网络感知器的学习,50/65,一种简捷的调整方法是令,那么一定等于1。是因为,那么,而,故。说明这种权值调整方法可以对进行正确的分类。,感知器神经网络感知器的
34、学习,51/65,但是,对于其它一些线性可分的问题,这种权值调整方法则无能为力。图1.15所示的输入向量模式就属于这种情况。如果令权值向量w,直接取输入向量或,那么将不是问题的正确解。因为不管,还是,两个输入向量中总有一个被错误地划分。这样,感知器权值的求解将处于一个振荡过程中,永远得不到正确的权值。,感知器神经网络感知器的学习,52/65,另一种调整方法是将加到 上,使得 更加偏向于。重复这一操作,将使 逐步指向并达到。这个过程可以描述为:,如果t=1 ,且y=0 ,则:,调整:,调整后感知器输出为:,单神经元感知器的学习,,是学习速率,取=1,53/65,说明输入向量得到正确的划分。权值向
35、量w的操作过程如图6.1.9所示。,现在将输入向量送入感知器网络时,其输出为:,单神经元感知器的学习,54/65,由样本数据知, 的目标向量 , 而感知器实际输出 显然,属于0类的输入向量被错误地划分到1类了。现在要做的工作是让远离,使得重新回到0类。具体操作过程为:,如果t=0 ,且y=1 ,则:,调整w:,调整后感知器输出为:,感知器神经网络感知器的学习,55/65,输入向量得到正确划分。权值向量w操作过程见图6.1.10。,现在将输入向量送入感知器网络时,有:,感知器神经网络感知器的学习,56/65,而对应的目标输出 , 说明感知器对的分类是错误的。调整,即:,权值调整后,感知器网络的输
36、出为:,感知器神经网络感知器的学习,57/65,输入向量得到正确划分。权值向量操作过程见图1.16。,由图1.16可知,权值向量经过三次调整后,感知器能够对上述三个输入向量进行正确的分类。若感知器能够正确工作,则保持权值向量不变,即:,如果,,则,图1.16,感知器神经网络感知器的学习,58/65,单神经元感知器的学习规则,感知器的学习属于有监督学习方式,学习的目的是为了消除其实际输出y与目标输出t间的偏差。现在定义一个新的误差变量 : e=t-y,其中,感知器神经网络感知器的学习,如果e=0,则,如果e=-1,则,如果e=1,则,59/65,当然式也可以用一个统一的形式表达出来,即 :,单神
37、经元感知器权值的学习规则也可扩展到神经元阈值的训练过程中:可以将偏置值看作是一个输入总是1的权值,这样就可以得到感知器阈值的学习规则。,感知器神经网络感知器的学习,60/65,离散感知器学习规则只适用二进制神经元(它的作用函数是阶跃函数),初始权值可取任意值。单计算节点感知器仅对线性可分问题具有分类能力,而无法解决线性不可分问题。如简单的线性感知器不可能实现“异或”的逻辑关系等。这也就是人工智能的创始人之一Minsky和Papert 在Perceptrons 一书中指出的简单的线性感知器的局限性。下面对这一问题作一简单分析。,61/65,Y=f(w1x1+w2x2+)(1)“与”运算。当取w1
38、w21,-1.5时,上式完成逻辑“与”的运算。(2)“或”运算, 当取wlw21, -0.5时,上式完成逻辑“或”的运算。(3)“非”运算,当取wl=-1,w20, 1时完成逻辑“非”的运算。 可见能找到一组 ,w1j,w2j,能满足相应的逻辑运算,也就是说,单计算节点感知器对逻辑“与”问题具有分类能力。,感知器神经网络感知器局限性,对逻辑“异或”Y=f(w1x1+w2x2 +) 0*w1+w2*0+0 0 0*w1+w2*1+0 w2+ 0 0 1*w1+w2*0+0 w1+ 0 w1+w2+2* 0 1*w1+w2*1+0 w1+w2+ 0 w1+w2+ 0 很明显,上式式是无解的,不存在
39、任何一组 , w1j , w2j 满足上式,也就是说,简单的线性感知器不可能实现“异或”的逻辑关系。,x=w1x1+w2x2+,感知器神经网络感知器局限性,多神经元感知器的学习,感知器神经网络感知器的学习,单层感知器只能求解线性问题,对求解非线性问题时,需要用到多层感知器,即网络应具有隐层,但对隐层神经元的学习规则尚无所知。就感知器学习规则来说,其权值的调整取决于网络期望输出与实际输出之差,而对各隐层节点来说,不存在期望输出,因而该学习规则对隐层权值调整不适用。多层网络的权值如何确定,即网络如何进行学习,在感知器上没有得到解决。当年Minsky等人就是因为对于非线性空间的多层感知器学习算法未能得到解决,使其对神经网络的研究作出悲观的结论。此时需要用到误差反向传播的BP神经网络学习规则。,64/65,