语音信号处理第10章声源定位课件.ppt

资源描述

《语音信号处理第10章声源定位课件.ppt》由会员分享，可在线阅读，更多相关《语音信号处理第10章声源定位课件.ppt（28页珍藏版）》请在三一办公上搜索。

1、第10章声源定位,麦克风阵列模型,房间回响模型,概述,双耳听觉定位原理及方法,麦克风阵列的声源定位方法,总结与展望,10.1概述,声源定位技术主要是研究系统接收到的语音信号相对于接收传感器是来自什么方向和什么距离，即方向估计和距离估计。声源定位是一个有广泛应用背景的研究课题，其在军用、民用、工业上都有广泛应用。声源定位技术的内容涉及了信号处理、语言科学、模式识别、计算机视觉技术、生理学、心理学、神经网络以及人工智能技术等多种学科。一个完整的声源定位系统包括声源数目估计、声源定位和声源增强（波束形成）。目前的声源定位研究主要分为两类：基于仿生的双耳声源定位算法和基于麦克风阵列的声源定位算法。,

2、应用被动声定位器,应用Humanoid Robot HRP-2 ICRA 2004,应用助听器方向性麦克风技术,应用声相仪,10.2双耳听觉定位原理及方法,人类听觉系统对声源的定位机理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用，以致到达人双耳时，两耳采集的信号存在着时间差（相位差）和强度差（声级差）。对于频率较高的声音，还要考虑声波的绕射性能。由于到达两耳处的声波状态的不同，造成了听觉的方位感和深度感，这就是常说的“双耳效应”。不同方向上的声源会使两耳处产生不同的（但是特定的）声波状态，从而使人能由此判断声源的方向位置。总的来说，利用双耳听觉在水平面内的声源定位要比垂直面内的声

3、源定位精确得多，后者存在较大的个体差异。,10.2.1 人耳听觉定位原理,人耳可以听到频率在20Hz-20kHz范围内的声音。人耳听觉系统有两个重要的特性，一个是耳蜗对于声信号的分频特性；另一个是人耳听觉掩蔽效应。人耳对声源目标的水平方位评估相比其垂直仰角而言，则要精确的多。在混响环境中，优先效应起到重要作用，它是心理声学的特性之一。所谓的优先效应，当同一声源的直达声和反射声被人耳听到时，听音者会将声源定位在直达声传来的方向上，因为直达声首先到达人耳处，即使反射声的密度比直达声高10dB。当将优先效应用在混响环境中识别语音时，就产生了哈斯效应。哈斯观察早期反射声时，发现早期反射声只要到达人耳足

4、够的早将不会影响语音的识别，相反的由于增加了语音的强度而有利于语音的识别。,10.2.2 人耳声源定位线索,（1）双耳定位线索不同方向上的声源会使两耳处产生不同的（但是特定的）声波状态，从而使人能由此判断声源的方向位置。在实际应用中涉及到的定位线索主要有：ITD、ILD、双耳相位差（IPD）、双耳音色差（Interaural Timbre Difference）以及直达声和环境反射群所产生的差别。在低中频（f5.0kHz时，双耳声级差是定位的主要因素，与时间差形成互补。总的来说，双耳时间差和声级差涵盖了整个声音频率范围。,10.2.2 人耳声源定位线索,（2）耳廓效应耳廓效应的本质就是改变不同

5、空间方向声音的频谱特性，也就是说人类听觉系统功能上相当于梳状滤波器，将不同空间方向的声音进行不同的滤波。耳廓具有不规则的形状，形成一个共振腔。当声波到达耳廓时，一部分声波直接进入耳道，另一部分则经过耳廓反射后才进入耳道。由于声音到达的方向不同，不仅反射声和直达声之间强度比发生变化，而且反射声与直达声之间在不同频率上产生不同的时间差和相位差，使反射声与直达声在鼓膜处形成一种与声源方向位置有关的频谱特性，听觉神经据此判断声音的空间方向。,10.2.2 人耳声源定位线索,（3）头相关传输函数从某一个方位的声源发出的声信号在到达听者的耳膜之前必然与听者的头部、肩部以及躯干、耳廓发生了反射、折射、散射以

6、及衍射等声学作用，其既与声源相对于听者的方向有关，也因人体部位形状及大小的不同而存在个体差异。人体的这些部位对声信号的影响可以统一用一个函数来表示，即头部相关传输函数 HRTF。HRTF描述了声波从声源到双耳的传输过程，它是综合了 ITD、ILD 和频谱结构特性的声源定位模型。在自由场情况下，HRTF定义为：,10.2.3 声源估计方法,对于不同的信号频率，双耳时间差模型有一定的变化规律，可以用参数化形式表示：其中，f是与频率相关的尺度因子。反转模型就可以得到水平角度，如下式所示：上式不能通过普通方法求解方程，可使用切比雪夫序列获得的多项式近似，进而获得g-1的近似表示：,10.3麦克风阵列模

7、型,麦克风阵列结构就是一定数量的麦克风按照一定空间放置而构成的麦克风组，也称为麦克风阵列的拓扑结构。麦克风近场和远场模型的判断公式为：r2L2/。近场和远场模型下不同的拓扑结构所构成的导向向量也不相同。不同的导向向量携带的信息也不同，声源近场模型中所携带的信息不仅有距离、时延，还有声源空间位置；而声源远场模型中携带的仅仅是声源的空间位置信息，即方位和俯仰。此外，阵元间距也直接影响声源定位的结果，而阵元个数可以适当的提高定位精度。,10.3.1 窄带阵列信号处理模型,10.3.1 窄带阵列信号处理模型,假设麦克风阵由M个全向麦克风组成，信号源的个数为P，所有到达阵列的波可近似为平面波。将第一个阵

8、元设为参考阵元，则到达参考阵元的第j个信号为：由于信号满足窄带假设条件，则zj(t-)zj(t)，此时理想情况下第i个阵元接收到的信号可以表示为：此时，整个麦克风阵接收到得信号为：,10.3.2 麦克风阵列信号模型,假设P个声源 Sj，M个无差异全向麦克风 Di。设声源为点源，位置矢量为:当麦克风阵列应用于室外或者大型会议室等环境时，声源与麦克风阵列相距较远，此时可采用简化的麦克风阵列的远场信号模型。时延可表示为：,10.3.2 麦克风阵列信号模型,1）均匀线阵均匀线阵是一最简单常用的阵列形式。M个阵元等距离排列成一直线，阵元间距为d。考虑到声源频率在1003400Hz之间，因此在空气中波长相

9、应为10340厘米。综合考虑空间采样定理，阵列尺寸等因素，阵元间距一般为515厘米。等距线阵的流形矩阵为：,10.3.2 麦克风阵列信号模型,2）均匀圆阵均匀圆周阵列简称均匀圆阵（UCA，Uniform Circular Array），是平面阵列。阵列的有效估计是二维的，能够同时确定信号的方位角和仰角。均匀圆阵相对于波达方向的信号的导向向量为：,10.4房间回响模型,在声源定位、信号提取、回波抵消等语音信号处理算法中，建立一个灵活、合理的房间混响模型对算法运行、评估具有重要的作用。Allen和Berkley在文献中提出的IMAGE法是构建房间混响模型最常用的方法之一。常见的房间声学环境仿真方法

10、主要分为波动方程模型、射线模型和统计模型三种。,1）房间模型的意义,2）仿真原理与方法,麦克风和第i个虚拟声源的距离可表示为：此时，虚拟源到原点的距离为每个虚拟源的延迟点数为,2）仿真原理与方法,定义单位脉冲响应函数为影响回响幅度的因素主要有两种：1）声源到麦克风的距离：幅度系数反比于距离，即2）声波反射个数：如果所有墙壁的反射系数相同，则墙壁系数定义为则最终的幅度系数为综上所述，单位脉冲响应为,3）麦克风接收信号的模拟,获得单位脉冲响应后，麦克风接收到的信号为此处，hi(t)代表麦克风和声源对建立的脉冲响应，pi(t)代表实际的声源信号。,10.5 麦克风阵列的声源定位方法,基

11、于麦克风阵列的声源定位算法大致可以分为三类：基于可控波束形成器的声源定位算法、基于到达时间差的声源定位算法和基于高分辨率谱估计的声源定位算法。1）基于最大输出功率的可控波束形成技术：对麦克风阵列接收到的语音信号进行滤波、加权求和，然后直接控制麦克风指向使波束有最大输出功率的方向；2）基于到达时间差的定位算法：首先求出声音到达不同位置麦克风的时间差，再利用该时间差求得声音到达不同位置麦克风的距离差，最后用搜索或几何知识确定声源位置；3）基于高分辨率谱估计的定向算法：利用求解麦克风信号间的相关矩阵来定出方向角，从而进一步定出声源位置。,10.5.1 基于最大输出功率的可控波束形成算法,该方法的优点

12、是可以一步完成定位，且在最大似然意义上是最优的，同时对不相关的噪声有抑制作用。最优的条件有两个：1）接收到的噪声是加性噪声、彼此互不相关、方差均一且数值不大；2）声源到麦克风距离相等。但是，在实际情况下，存在反射以及复杂的噪声影响，会影响该方法的精度。,10.5.2 基于到达时间差的定位算法,基于到达时间差的定位算法的运算量较小，实时性效果比较好，而且硬件成本低。基于TDE的声源定位算法一般要分为两个步骤：第一，先进行时延估计，并确定麦克风阵列中不同麦克风对同源语音信号的到达时间差（TDOA）；第二，就是根据测定出的TDOA和各个麦克风的几何位置，通过双曲方程，来最终确定声源的方位和距离。时延

13、估计算法的方法有很多，其中广义互相关法运用最为广泛。广义互相关法通过求两信号之间的互功率谱，并在频域内给予一定的加权，来抑制噪声和反射的影响，再反变换到时域，得到两信号之间的互相关函数。而互相关函数的峰值处，就是两信号之间的相对时延。广义互相关法就是在功率谱域对信号进行加权，突出相关的信号部分并抑制受噪声干扰的部分，从而使相关函数在时延处的峰值更为突出。,10.5.2 基于到达时间差的定位算法,两麦克风接收到信号的广义互相关函数可表示为：,10.5.2 基于到达时间差的定位算法,10.5.3 基于高分辨率谱估计的定位算法,特征子空间类算法，是现代谱估计最重要的算法之一，通过对阵列接收数据作数

14、学分解，划分为两个相互正交的子空间：与信号源的阵列流形空间一致的信号子空间，和与信号子空间正交的噪声子空间。子空间分解类算法，就是利用两个子空间的正交特性，构造出“针状”空间谱峰，从而大大提高算法的分辨力。子空间分解类算法从处理方式上大致可以分为两种：一类是以MUSIC为代表的噪声子空间类算法；一类是以旋转不变子空间（ESPRIT）为代表的信号子空间类算法。以MUSIC为代表的算法包括特征矢量法、MUSIC以及求根MUSIC法等；以ESPRIT为代表的算法主要有TAM、LS-ESPRIT以及TLS-ESPRIT等。,10.6 总结与展望,根据这些新的发展，依然可以进一步进行下面的研究：1）结合定位与增强的方法，对麦克风阵列的实际工作性能进行进一步的实验，得到麦克风阵列的工作参数，并对阵列本身的性能与参数的关系进行详细分析。2）改变麦克风阵列的拓扑结构，对更加复杂的拓扑结构（如二维阵列或三维阵列）进行探讨，甚至对无规则形状的拓扑结构进行理论分析与实验证明。3）对于复杂环境，可使用多组麦克风阵列的协同定位，对各阵列间的信息融合方法进行探讨。4）利用麦克风阵列与成熟的语音识别系统共同构建功能更丰富的智能拾音系统。,

展开阅读全文

语音信号处理第10章 声源定位课件.ppt

语音信号处理第10章声源定位课件.ppt