语音信号处理第6章.ppt_三一办公31ppt.com

资源描述

《语音信号处理第6章.ppt》由会员分享，可在线阅读，更多相关《语音信号处理第6章.ppt（30页珍藏版）》请在三一办公上搜索。

1、6.1 概述6.2 人工神经网络简介6.3 人工神经网络的构成6.4几种用于模式识别的神经网络模型及其主要算法6.5 用神经网络进行模式识别的主要做法6.6 人工神经网络模型的应用举例,第6章人工神经网络初步,6.1概述,所谓人工神经网络(Artificial Neural Network，简称为ANN)，是在模拟人脑神经组织的基础上发展起来的全新的计算系统，它是由大量计算单元通过丰富联结构成的复杂的网络。在一定程度上反映了人脑功能的若干基本特性，是一种更接近于人的认知过程的计算模型。人工神经网络模型对于语音信号处理这类问题特别有意义。传统的语音信号处理系统都只是一种符号化系统，是对语音

2、信号进行符号（序列）串行处理，与人的感知过程有很大的差别。与此不同的是，人工神经网络是由大量简单处理单元（称之为神经元或节点）广泛地相互连接而组成的一个并行处理网络系统。虽然每个神经元的结构和功能十分简单，但大量神经元构成的网络系统对知识的存储方式是分布式的，这种分布式并行处理的特性，使得神经网络具有很强的自组织和自学习能力以及很高的容错力和顽健性。,6.2 人工神经网络简介,长期以来，人们一直企盼着通过对人类神经系统的研究，能够发明一种仿效人脑信息处理模式的智能型计算机。构造人工神经网络就是希望通过类似于人类神经元的模型，在信号处理上使计算机具有近似人类的智能。人工神经网络是由大量简单处理单

3、元，即神经元互相联接而构成的独具特色的信息处理系统。这种系统是可以训练的，它可以积累经验而不断改善自身的性能。同时，由于高度的并行性，所以它们可以进行快速判别并具有容错性。这些特点使它特别适用于用来进行语音信号处理。,人工神经网络可采用物理可实现的器件或利用现有的计算机来模拟生物神经网络的某些结构与功能。构成人工神经网络的三个基本要素是：（1）神经元，即人工神经网络的基本处理单元，在网络中称为节点或网点。（2）网络拓朴，即网络的结构以及神经元彼此联接的方式。根据联接方式的不同，网络可以分为反馈（Recurrent）型网（又称循环网）以及非反馈型网。（3）网络的训练（学习）算法。训练算法是指一些

4、决定联接各神经元的初始权值和阈值以及如何随着训练模式的加入而调整这些权值和阈值的方法。,6.3 人工神经网络的构成,人工神经网络由神经元、网络拓扑、学习算法（即权重迭代更新方式）三者构成。它在结构上与目前广泛使用的Von Neumann机不同，组成网络的大量神经元集体的、并行的活动可得到预期的处理结果，且运算速度快。同时，人工神经网络具有非常强的学习功能，神经元之间的联接权及网络的结构可通过学习获得。,神经元人工神经网络模型是模仿人脑构成的，其构成的基本单元为人造神经元，又称节点或网点。其作用是把若干个输入加权求和，并将这个加权和非线性处理后输出。,神经元的学习算法几乎所有神经网络学习算法都

5、可以看作是Hebb学习规则的变形。Hebb学习规则的基本思想是：如果神经元接收来自另一神经元的输出，则当这两个神经元同时兴奋时，从到的权值就得到加强。具体到前述的神经元模型，可以将Hebb规则表现为如下的算法形式：公式中是对第i个权值的修正值，是控制学习速度的系数。,网络拓扑网络拓扑是指网络的结构以及神经元之间的联接方式。根据联接方式的不同，可分为反馈型人工神经网络和非反馈型人工神经网络。前者神经元之间存在着反馈环路，后者神经元之间则不存在着反馈环路。对于非反馈型人工神经网络，若结构是分层的，且每一层神经元只与上一层神经元相联，则该网络称为前馈型人工神经网络。,网络的学习算法网

6、络的学习算法是以满足网络所需的性能为目标，决定联接各神经元的初始权值及在训练中调整权值的方法。学习方法可分为监督学习与非监督学习。前者为有导师学习，训练时，同时向网络提供输入模式及输出的样板模式（导师），在不断输入不同训练模式的同时调整权值，从而使输出模式尽量接近样板模式；后者是无导师学习，它是一种自动聚类过程，通过输入训练模式的加入，不断调整权值以使输出能够反映输入训练模式的分布特点。,6.4几种用于模式识别的神经网络模型及其主要算法,由于人在识别速度及判别能力方面常超过一般典型的计算机所作的识别，故人们有兴趣研讨与神经网络有关的识别机理，希望能有所借鉴或启发。诸如利用简单网络的高度并行处理

7、，多层处理法等。从模式识别学的角度来看，现在所讨论的方法属于借鉴于神经网络识别机理所拟定的模式识别方法，它与统计识别法联系密切，但在方法、思路、识别灵活性及识别能力、速度等方面均有其特点。,单层感知器单层感知器（Single Layer Pereceptron，简称为SLP）可作为分类器。单输出的SLP，其结构就是如图6-1所示的人工神经元。输入的N个元可为连续的或二进制的标量信号。表示一个维空间的超平面。图6-3表示可由这个超平面对A、B类进行分类。SLP结构的前部分为一线性加权装置(权为，附有阀值)，其输出经一个性能函数为的硬限幅非线性装置，然后输出到判决器。按当其输入为+1时判属A类

8、；当其输入为-1时判属B类的准则来判类。,两类分类处理,双层感知器实际上实用的最简单的M类分类的感知器（Pereceptron）也应该是一种双层神经网络模型。它是一个两层前馈神经网络，一层为输入层，另一层具有计算单元，可以通过监督学习建立模式判别的能力，如图6-4所示。,学习的目标是通过改变权值使神经网络由给定的输入得到给定的输出。作为分类器，可以用已知类别的模式向量（向量维数等于输入节点数）作为训练集，当输入为属于第j类的特征向量时，应使对应于该类的输出神经元的输出为1，而其它输出神经元的输出则为0（或1）。应使对应于该类的输出神经元的输出为1，而其它输出神经元的输出则为0（或1）。设理

9、想的输出为：实际的输出为：为了使实际的输出逼近理想输出，可以反复依次输入训练集中的输入向量，然后计算出实际的输出，再对权值作如下的修改双层感知器的学习过程与求取线性判别函数的过程是等价的，它只能用于解决线性可分问题。它的特点是学习过程收敛很快，且与初始值无关。,多层感知器当类别不能用一超平面完善分割时，需用更复杂结构的感知器，即所谓的“多层感知器”。（Multi-Layer Perceptron，简称为MLP）如果感知器的活化函数具有非线性，则这种网络具有较强的分类能力。多层感知器网是由若干层感知器以及可修正的权连接而构成的多层前馈网络。,多层感知器的结构由一个输入层，一个以上隐藏层和一个

10、输出层组成。所有的连接均为相邻层之间的节点的连接，同层之间不连接。输入层不作任何运算，它只是将每个输入量分配到各个输入节点。图6-5 是一个三层MLP神经网络。,对于多层感知器，Werbos曾于1974年提出，并且由Rumelhart等人的工作而得到完善和推广的一种学习算法，即著名的BP（Back Propagation）算法，它是一种修正连接权的算法。所以MLP的训练大都采用这种反向传播算法。训练分两步，第一步是计算MLP的输出值；第二步是用BP算法更新网络的连接权值。具体步骤如下(假定有N个输入节点，M个输出节点。)：第l步：设置初始权值及阈值，即设所有的权值及节点的阈值为一个小的随机数。

11、第2步：给定新的输入值及相应的理想输出信号。第3步：计算当输入通过网络时的实际输出值。第4步：修正每个权值和阀值。从输出节点开始逐步向前递推，直到第一层。第5步：转移到第2步重复进行，直到各，稳定为止。,径向基函数神经网络的分类特性为了在取得较好的分类效果的同时，又能降低网络的训练和识别时间，除了上面介绍的采用Sigmoid函数的前馈网络外，还有一种较常用的前馈神经网络，称为径向基函数（Radial Basis Function，简称为RBF）神经网络作分类器。所谓径向基函数是指一种有中心的辐射状函数，例如高斯核函数、二次型函数等。RBF神经网络就是利用RBF作为特性函数构成的前馈网络。RB

12、F神经网络的特点是只有一个隐藏层，隐藏层单元采用径向基函数作为其输出特性，所以RBF神经网络是一个三层前馈网络。,RBF神经网络结构示意图,自组织特征映射模型 Kohonen提出的自组织特征映射（Self Organization Feature Mapping，简称为SOFM）模型是基于脑科学研究中得到的认识提出的。模仿人脑的这种功能，构造一种神经网络，它能将多维空间的输入矢量集映射到一个称为特征图的二维阵列，而能保持与原训练矢量集近似相同的拓扑结构，这种神经网络称为SOFM模型，其结构如图6-7所示。它的输出层是一个二维网络，其节点即从输入层的各节点接受刺激，同时也从当前层中其它节点接受输

13、入。,自组织神经网络结构示意图,SOFM模型的训练有多种算法。在训练过程中，它无需规定所要求的输出（即导师），只要足够的输入矢量加入以后，输入层和输出层之间的连接会自动形成聚类中心。实际应用中，常常采用一种简化算法。这种简化算法的推导是从神经网络的概念入手的，但最终做法实际是矢量量化码书生成算法中随机梯度法的变形。其基本步骤如下：1）采用随机扰动法产生一组初始权值：2）每次输入一个N维的训练矢量，采用欧几里德距离测度，计算各输入节点到每一输出节点j的距离。3）选择最佳匹配的输出节点。既选出最小对应的输出节点。4）调整及相邻近节点的权值。5）如果已达到预定的迭代次数，停止迭代，否则转向2）继

14、续迭代，或像矢量量化那样根据相对失真值观察收敛情况，决定是否结束。,时延神经网络时间归一化处理得到的固定长度的语音输入模式，不能反映帧间变化的动态特性。为了使神经网络能够处理语音中的动态特性，理想的方法应该是一帧一帧或者几帧几帧依次地连续地输入语音特征参数。为了解决这些问题，美国卡内基-梅隆大学（CMU）的Waibel等提出了一种时延神经网络（Time-Delay Neural Network，简称为TDNN）结构。,时延神经网络应满足的要求：（1）网络是多层的，各层间有足够的连接权，以使网络具有学习复杂非线性判决面的能力。（2）网络有能力表达语音特征在时间上的关系。（3）网络通过学习而提取的

15、特征应具有在时间变化过程中的不变性。（4）学习过程不要求对所学的标记进行精确的时间定位。（5）与训练数据相比，网络的权数应当足够少，从而可使网络能够更好地提取训练数据中的特征。,循环神经网络循环神经网络（Recurrent Neural Network，简称为RNN）既有前馈通路，又有反馈通路。反馈通路可将某一层神经元的激活输出经过一个或几个时间节拍之后送到同一层的神经元（例如节点的自反馈通路），或送到较低层次的神经元。在网络中加入反馈通路可以处理与时间有关的状态序列，使得网络可以“记忆”以前输入所引起激活特性。这对于处理语音信号是很有用的。处理循环网络时，可以引入“关联节点”（Contex

16、t node）的概念。它是一个假设的节点，用来暂存相关节点的输出，并经过一定时延再送到由反馈通路决定的相关节点中。对在第n层的某一个神经元，它在t时刻的输出存在其关联节点中，然后在t+1时刻再输入到有关的神经元。关联节点与其所有输入的神经元之间的互联权称为关联权。图6-10给出了一个最简单的自反馈与关联节点关系的例子。,关联接点结构,6.5 用神经网络进行模式识别的典型做法,在各种人工神经网络模型中，在模式识别中应用最多的也是最成功的当数多层前馈网络，其中又以采用BP学习算法的多层感知器（习惯上也简称为BP网络）为代表。由于网络采用的是监督学习方式进行训练，因此只能用于监督模式识别问题。在利用

17、人工神经网络模型进行模式识别时，由于网络模型结构一旦确定，网络的输入节点数就是固定不变的，所以输入模式的长度必须是一定的。对于语音信号处理方面的应用来讲，这往往首先要进行语音参数的时间归一化处理。而对于网络结构的输出节点的选择，决定了以下两种人工神经网络模型在模式识别中的应用方式。,多输出型所谓多输出型，即对于多个类别，只有一个人工神经网络模型，而这个网络有多个输出节点，每一个输出节点对应一个类别。网络的结构是输入节点数对应于样点数或者样本的特征维数，而输出层的节点数等于类别数。在训练阶段，如果用于训练的输入训练样本的类别标号是i，则训练时设第i个节点的期望输出设为1,而其余输出节点期望输出

18、均为0。并且对于这个人工神经网络模型，利用每个类别的训练数据，对其进行有监督训练。在识别阶段，当一个未知类别的样本作用到输入端时，考查各输出节点的输出，并将这个样本的类别判定为与输出值最大的那个节点对应的类别。,单输出型所谓单输出型，即一个人工神经网络模型只有一个输出。很多实验表明，在多输出方式中，由于网络要同时适应所有类别，势必需要更多的隐层节点，而且学习过程往往收敛较慢，此时可以采用多个多输入单输出形式的网络，让每个网络只完成识别两类分类，即判断样本是否属于某个类别。具体作法是，网络的每一个输入节点对应样本一个特征（或输入特征矢量的一维），而输出层节点只有一个。为每个类建立一个这样的网络（网络的隐层节点数可以不同）。对每一类进行分别训练，将属于这一类的样本的期望输出设为1，而把属于其他类的样本的期望输出设为0。在识别阶段，将未知类别的样本输入到每一个网络，如果某个网络的输出接近1（或大于某个阈值，比如0.5），则判断该样本属于这一类；而如果有多个网络的输出均大于阈值，则或者将类别判断为具有最大输出的那一类，或者做出拒绝；当所有网络的输出均小于阈值时也可采取类似的决策方法。,6.6 人工神经网络模型的应用举例,人工神经网络模型可以应用在各个领域。下面是利用主分量分析神经网络（PCANN）进行特征向量主分量分析的例子。,

展开阅读全文