《基于子空间的语音增强 毕业论文.doc》由会员分享,可在线阅读,更多相关《基于子空间的语音增强 毕业论文.doc(45页珍藏版)》请在三一办公上搜索。
1、太原理工大学毕业设计(论文)任务书毕业设计(论文)题目: 基于子空间语音增强算法的研究毕业设计(论文)要求及原始数据(资料):论文要求:第一周:看语音增强的原理,了解子空间语音增强的方法。第二周:熟悉子空间语音增强的步骤。第三周:用特征值分解法实现子空间分解的步骤。第四周:找Matlab程序实现子空间语音增强。第五周:Matlab仿真,实现语音增强。第六周:了解论文整体结构,写出论文大纲。第七周:写第一章绪论。第八周:写第二章语音增强基础知识。第九,十周:写第三章子空间语音增强算法。第十一周:完成论文剩余部分。第十二周:完成论文初稿。第十三,十四周:对论文进行有针对性的调整及修改。第十五,十六
2、周:在老师的指导下,进一步完善课题的体系结构,最终完稿。论文原始数据:随着语音技术研究的深入和实际应用的增多,各种语音处理系统都面临着进一步提高性能的问题。语音增强是其中的关键技术之一。早在20世纪60年代语音增强这个课题就已引起人们的注意,此后40年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟,70年代曾形成一个研究高潮,取得了一些基础性成果,并使语音增强发展成为语音信号数字处理的一个重要分支。进入80年代后,VLSI技术的发展为语音增强的实时实现提供了可能。近年来人们正在探索将人工智能、隐含马尔可夫模型、神经网络等技术应用于语音增强,并取得了一定进展。以及针对人的听觉感知
3、系统的生理特性研究,语言学中上下文联想智能的研究等,都在进一步推动着语音增强的研究。就目前来说,语音增强的方法分为两大类。第一类是时域方法,例如子空间的方法;另一类是频域方法,例如减谱法、最小均方误差(MMSE)估计和维纳滤波法等。这两类方法各有其优点和缺点:子空间的方法提供了一种在语音信号失真和残留噪声之间进行控制的机制,但是计算量较大。另一方面,频域方法的计算量较小,但是在信号失真和残留噪声的控制上还没有一个理论机制;减谱法具有计算量小的特点,而且在语音信号失真和残留噪声的控制方面提供了简单的控制机制。但是因为在处理的结果中存在音乐噪声,因此达不到令人满意的效果;MMSE 和维纳滤波的方法
4、的计算量都比较适中,但是没有提供在语音信号的失真和残留噪声之间进行控制的机制。实际环境中,语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒介中引入的噪声,电气设备的噪声以及其他说话人的干扰等等。环境噪声会影响语音质量,严重的情况下语音将完全淹没到噪声中,无法分辨。语音质量的下降会使许多语音处理系统的性能急剧恶化。比如,语音识别系统在实验室环境中可取得相当好的质量,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将会受到严重影响。低速率语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化
5、。此时采用语音增强技术进行预处理,将有效的改善系统性能。毕业设计(论文)主要内容: 经典的检测理论中有一项信号子空间处理技术。在M类信号进行检测时,构造由M类信号张成的信号子空间,并在子空间中使用M个经过KL变换后的分量实现对信号的检测。谱估计和阵列信号处理大量使用了这种信号子空间处理技术。 语音信号处理的大量实验表明,语音矢量的协方差矩阵有很多零特征值,这说明干净语音信号矢量的能量分布在它对应空间的某个子集中。而语音信号处理中,噪声方差通常都假设己知,且严格正定。噪声矢量存在于整个带噪信号张成的空间中。因此带噪语音信号的矢量空间可以认为由一个信号加噪声的子空间和一个纯噪声的子空间构成。可以利
6、用信号子空间处理技术,消除纯噪声子空间,并对语音信号进行估计,实现语音增强。子空间方法是通过空间分解,将整个空间划分为两个独立子空间,即噪声子空间和叠加噪声的信号子空间,然后对噪声子空间和信号子空间进行处理以实现语音增强。具体章节安排如下:第一章 绪论。介绍本次课题研究的目的和意义,简述基于子空间语音增强算法研究的发展历程以及论文的整体结构。第二章 语音增强的基础知识。介绍语音增强方法分类,语音特性,噪声分类及特点以及语音增强算法概述。第三章 子空间语音增强算法。包括介绍信号子空间原理,语音信号估计以及子空间语音增强方法。第四章 算法实现及仿真结果分析。介绍用Matlab实现增强,并对仿真结果
7、进行分析。第五章 对全文工作进行总结,分析了目前研究工作中需要进一步完善的地方,指出了今后工作的研究方向。 学生应交出的设计文件(论文):毕业设计论文一份电子文档一份主要参考文献(资料):1张雄伟,陈亮,杨吉斌现代语音处理技术及应用M北京:机械工业出版社,2003: 248-266.2张刚,张雪英,马建芬语音处理与编码M北京:兵器工业出版社,2000:55-57.3王华奎,张立毅数字信号处理理论及应用M太原:太原理工大学出版社,2005: 182-203.4Li Ye,Cui Huijuan,Tang KunSpeech enhancement algorithm based on spect
8、ralsubtractionJQinghua Daxue Xuebao/Journal of Tsinghua University, 2006(46):1685-1687.5Martin RainerSpeech enhancement based on minimum mean-square error estimationand supergaussian priorsJIEEE Transactions on Speech and Audio Processing,2005,13(5):845-856.6金学骥语音增强算法的研究与实现D浙江:浙江大学硕士学位论文,2005:26-30.
9、7李建平小波分析与信号处理M重庆:重庆出版社,1997.8王慧琴,何继爱,张秋余小波变换在语音增强中的应用J甘肃科学学报 2005,17(4):79-82.9李小平,刘玉树多媒体通信技术M北京:北京航空航天大学出版社,2004.10Martin T.Hagan,Howard B.Demuth著,戴葵等译神经网络设计M北京:机械工业出版社,2005.11缪春波语音增强及其相关技术的研究D大连:大连理工大学硕士学位论文,2003.12覃毅短时谱语音增强方法的研究D广州:广东工业大学硕士学位论文,2007.13S.R.Quackenbush,T.P.Barnwell,M.A.ClementsObje
10、ctive Measures of Speech QualityMEnglewood Cliffs,NJ:Prentice Hall,1988.14Hansen J,Pellom BAn effective quality evaluation protocol for speech enhancement algorithmsCInter Conf on Spoken Language Processing,1998:2819-2822.15杨海感知语音质量评价PESQ及其在通信系统中的应用J江西通信科技,2004.16陈照平,张雪英,马建芬基于短时谱估计的语音增强方法研究D太原理工大学硕士
11、论文,2008.17韩纪庆语音信号处理M北京:清华大学出版社,2004.18赵力语音信号处理M北京:机械工业出版社,2005.19Sreven F.BollSuppression of Acoustic Noise in Speech Using Spectral SubtractionJ IEEE Transactions on Acoustics Speech and Signal Processing, 1979,27(2).20Yariv Ephraim,David MalahSpeech Enhancement Using a Minimum Mean-Square Error Sh
12、ort-Time Spectral Amplitude EstimatorJIEEE Transactions on AcousticsSpeech and signal Processing,1984,32(6).21Y.Ephraim,D.MalahSpeech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude EstimateJIEEE Transactions on Acoustics Speech And Signal Processing,1985,33(2).22杨行峻,迟惠生语音信号数字处理
13、M北京:电子工业出版社,1995.23Ephraim Y.Van Trees H LA signal subspace approach for speech enhancementJIEEE Trans Speech and Audio Processing,1995,3(4):251-266.24程云鹏矩阵论M西北工业出版社,2001.25Martin RNoise power spectral density estimation based on optimal smoothing and minimum statisticsJIEEE Trans on Speech and Audi
14、o Processing,2001, 9(5):504-512.26赵胜跃,戴蓓倩基于最小统计噪声估计的信号子空间语音增强J数据采集与处理,2007.27吴周桥,谈新权基于子空间方法的语音增强算法研究J声学与电子工程,2005.28张金杰,曹志刚一种基于听觉掩蔽效应的语音增强方法J清华大学学报(自然科学版),2001,41(7).29Jmaes D.Johnsotn“Transform Coding of Audio Signals Using Perceptual Noise Criteria”JIEEE Journal on Selected Areas in Communications
15、,1998,4(7).30T.Painter A.Spanias“perceptual coding digital audio”JProc of the IEEE, 2000,88(4):451-512.31张贤达现代信号处理M北京:清华大学出版社,1995.32胡广书现代信号处理教程M北京:清华大学出版社,2004.专业班级 通信07-1班 学生 李波 要求设计(论文)工作起止日期 指导教师签字 日期 教研室主任审查签字 日期 系主任批准签字 日期 基于子空间语音增强算法的研究摘 要基于子空间的语音增强是通过空间分解,将整个空间划分为两个独立子空间,即噪声子空间和叠加噪声的信号子空间,然后
16、对噪声子空间和信号子空间进行处理以实现语音增强。本文的主要内容包括以下几点:(1)简要介绍了语音增强算法的目的、意义、国内外发展状况,并给出了有关基础知识。(2)主要研究了基于时域约束估计器(TDC)和频域约束估计器(SDC)的子空间语音增强方法。从原理进行分析,并分别进行了实验仿真。结果表明:采用时域约束估计器(TDC)得到的增强语音增强效果优于频域约束估计器(SDC)。并且在输入信噪比较小的情况下,采用时域约束估计器(TDC)得到的输出信噪比,效果更好于频域约束估计器(SDC)。关键词:语音增强,子空间,KL变换,特征值/奇异值分解SUBSPACE BASED SPEECH ENHANCE
17、MENT ALGORITHMABSTRACTSpeech enhancement based on subspace decomposition through space, the whole space is divided into two separate sub-space, ie the noise subspace and signal subspace noise adding, and then the noise subspace and signal subspace speech enhancement processing to achieve. The main c
18、ontents include the following:(1) briefly introduced the purpose of speech enhancement algorithm, meaning, domestic and international development, and gives information on the basics.(2) The main constraint based on time-domain estimator (TDC) and frequency domain constraint estimator (SDC) subspace
19、 speech enhancement. In principle, analysis and simulation experiments were carried out. The results showed that: The time-domain constrained estimator (TDC) enhanced speech enhancement by frequency domain constraints better than the estimator (SDC). And the input SNR is relatively small, constraine
20、d by time domain estimator (TDC) of the output signal to noise ratio, the better estimator in the frequency domain constraints (SDC).KEY WORDS: Speech enhancement, signal subspace, Karhuen-Loeve Transform(KIT), eigenvalue decomposition (EVD)目 录摘 要IABSTRACTII第一章 绪论11.1本次课题研究的目的和意义11.2国内外研究现状21.3语音增强算
21、法简介31.4本论文的结构安排4第二章 语音增强的基础知识52.1 语音增强方法分类52.2 语音特性52.3 噪声分类及特点62.4 语音增强算法概述72.5 语音增强的新发展9第三章 子空间语音增强算法123.1 信号子空间原理123.1.1 语音信号的线性模型123.1.2 信号与噪声子空间133.2 语音信号估计153.2.1时域约束估计器153.2.2频域约束估计器173.3 子空间语音增强方法19第四章 TDC和SDC的语音增强实验仿真214.1用时域约束估计器(TDC)的子空间语音增强方法进行实验仿真214.2用频域约束估计器(SDC)的子空间语音增强方法进行实验仿真244.3
22、结果比较及分析27第五章 全文总结与工作展望295.1全文总结295.2工作展望29参 考 文 献31致 谢34第一章 绪论1.1本次课题研究的目的和意义实际环境中,语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境,传输媒介中引入的噪声,电器设备的噪声以及其他说话人的干扰等等。环境噪声会影响语音质量,严重的情况下语音将完全淹没到噪声中,无法分辨。语音质量的下降会使语音处理系统的性能急剧恶化。比如,语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将受到严重影响。低速语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础,当
23、语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。此时,采用语音增强技术进行预处理,将有效的改善系统性能。语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳;二是提高语音可懂度,方便听者理解。这两个目的往往不能兼得,到目前为止还没有哪种语音增强系统可以同时很好地改善语音质量和可懂度两个指标。目前有一些对低信噪比带噪语音进行语音增强的方法,可以显著的降低背景噪声,改进语音质量,但并不能提高语音的可
24、懂度,甚至略有下降。衡量语音增强的效果分别涉及语音的下观度量和客观度量两个方面,有主观测试和客观测试两种方法可用。主观测试方法包括平均意见得分(MOS)判断韵字测试(DRT)和判断满意度测量(DAM)等。客观测试方法主要根据增强语音的时域波形或频域语谱,给出客观的数值度量。例如一种常用的方法是采用信噪比来度量,此时信噪比的定义是原始语音信号功率与归一化后的增强语音和原始语音之差的功率比。同时采用Itakura距离来测试。语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学。再者,噪声来源众多,随应用场合而异,它们的特性也各不相同。即使在实验室仿真条件下,也难以找到一种通用的语
25、音增强算法能适用各种噪声环境。必须针对不同噪声环境,采用不同的语音增强对策。1.2国内外研究现状语音增强是在噪声环境下用以提高语音通信系统质量的一个重要技术。随着语音技术研究的深入和实际应用的增多,各种语音处理系统都面临着进一步提高性能的问题,语音增强是其中的关键技术之一,已有几十年的研究发展历史。其研究起与20世纪60年代,随着数字信号理论的成熟,在70年代曾形成一个理论高潮,取得了一些基础性成果,并使语音增强发展成为语音信号处理的一个重要分支。1978年,Lim和Oppenheim提出了基于维纳滤波的语音增强方法。1979年,Boll提出了谱相减方法来抑制噪声。1980年,Maulay和M
26、alpss提出了软判决噪声抑制方法。1984年,Ephraim和Malah提出了基于MMSE短时幅度谱估计的语音增强方法。1987年,Paliwal把卡尔曼滤波引入语音增强领域。1995年Ephraim提出了基于信号子空间分解的语音增强方法。近年来,基于子空间的语音增强技术受到许多研究者的重视,该方法可减少信号的失真和人为噪声的引入。子空间技术将带噪语音信号看成向量空间的一部分,并将此向量空间划分成两个相互正交的子空间:信号子空间和噪声了空间。去除噪声子空间的信号分量可以提高带噪信号的语音质量,进一步从信号子空间中估计出高质量的语音信号。Ephraim and Van-Trees提出了一套有效
27、的子空间语音增强系统,利用特征值分解(EVD)和KL变换分解来进行信号空间的划分,并针对白噪声背景下的带噪语音,提出了有效的时域和频域的线性估计算法。后来的学者将该方法扩展到对于含有色噪声的语音增强处理上。Rezayee和Gazor基于噪声能量谱的近似对角化提出了一种时域的次优估计算法;Hu和Loizou提出联合对角化的方法来处理有色噪声;Lev-Ari和Ephraim利用预白化方法扩展了其早期的算法来进行有色噪声背景下的语音增强。随着语音技术研究的深入和实际应用的增多,各种语音处理系统都面临着进一步提高性能的问题。语音增强是其中的关键技术之一。早在20世纪60年代语音增强这个课题就已引起人们
28、的注意,此后40年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟,70年代曾形成一个研究高潮,取得了一些基础性成果,并使语音增强发展成为语音信号数字处理的一个重要分支。进入80年代后,VLSI技术的发展为语音增强的实时实现提供了可能。近年来人们正在探索将人工智能、隐含马尔可夫模型、神经网络等技术应用于语音增强,并取得了一定进展。以及针对人的听觉感知系统的生理特性研究,语言学中上下文联想智能的研究等,都在进一步推动着语音增强的研究。就目前来说,语音增强的方法分为两大类。第一类是时域方法,例如子空间的方法;另一类是频域方法,例如减谱法、最小均方误差(MMSE)估计和维纳滤波法等。这
29、两类方法各有其优点和缺点:子空间的方法提供了一种在语音信号失真和残留噪声之间进行控制的机制,但是计算量较大。另一方面,频域方法的计算量较小,但是在信号失真和残留噪声的控制上还没有一个理论机制;减谱法具有计算量小的特点,而且在语音信号失真和残留噪声的控制方面提供了简单的控制机制。但是因为在处理的结果中存在音乐噪声,因此达不到令人满意的效果;MMSE 和维纳滤波的方法的计算量都比较适中,但是没有提供在语音信号的失真和残留噪声之间进行控制的机制。1.3语音增强算法简介由于噪声来源众多,随应用场合而异,它们的特性也各不相同,难以找到一种通用的语音增强算法适用于各种噪声环境。而且语音增强不但与语音信号数
30、字处理理论有关,还涉及到人的听觉感知和语音学,所以必须针对不同的噪声,采取不同的语音增强对策。几十年来人们在语音增强方面做了很多不懈的探索,总结出适应不同情况的各种增强方法。语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通道的语音增强算法。单通道语音系统在实际应用中较为常见,如电话,手机等。这种情况下语音与噪声同时存在一个通道中,语音信息与噪声信息必须从同一个信号中得出。一般这种语音系统下要求噪声要比较平稳,以便在非语音段对噪声进行估计,再依据估计出来的噪声对带噪声的语音段进行处理。如果语音系统是一个多通道的语音系统,各个通道之间存在着某些相关的特性,这些相关特性对语音增强的处
31、理十分有利。如在自适应噪声对消法的语音增强方法中,采用了两个话筒作为输入,一个采集带噪的语音信号,另一个用来采集噪声。从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪声语音信号中减去就可得到纯净的语音。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同独立的信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也会不同,再根据这些信号将各个独立信号分离出来。1.4本论文的结构安排第一章 介绍子空间语音增强的目的和意义以及发展现状第二章 介绍语音增强的基础知识,包括介绍:语音增强方法分类,语音特性,噪声分类及特点,子空间语
32、音增强概述,语音增强的新发展。第三章 介绍子空间语音增强算法,包括介绍:信号子空间原理,语音信号估计,子空间语音增强方法,子空间与维纳滤波相结合的语音增强方法,子空间和掩蔽效应相结合的语音增强方法第四章 介绍算法实现及仿真结果第五章 总结与展望第二章 语音增强的基础知识2.1 语音增强方法分类1.参数方法此类方法主要依赖于使用的语音生成模型(例如AR模型),需要提取模型参数(如基音周期、LPC系数),常常使用迭代方法。采用滤波器模型典型的有梳状滤波器、维纳滤波器、卡尔曼滤波器等。2.非参数方法该方法不需要从带噪信号中估计模型参数,因此这种方法的应用范围较广。但由于没有利用可能的语音统计信息,故
33、结果一般不是最优化的。这类方法包括谱减法、自适应滤波法等。3.统计方法该方法较充分的利用了语音和噪音的统计特性,一般要建立模型库,需要训练过程获得初始统计参数,它与语音识别系统的联系很密切。如最小均方误差估计MMSE、听觉掩蔽效应等。4.其它方法如小波变换、离散余弦变换(DCT)、人工神经网络等。这些方法不像前三类方法那样成熟,可以概括地称为非主流方法。实际使用中常常根据具体的环境噪声和语音特性将不同方法结合起来应用,通过方法互补取得更好的语音增强效果。 2.2 语音特性1.语音是时变的、非平稳的随机过程人类发音系统生理结构的变化速度是有一定限度的,在一段时间内(10-30 ms),人的声带和
34、声道形状是相对稳定的,因而语音的短时谱具有相对稳定性,所以可利用短时谱的这种平稳性来分析语音。2.语音可分为浊音和清音两大类浊音在时域上呈现出明显的周期性。在频域上有共振峰结构,而且能量大部分集中在较低频段内;而清音段没有明显的时域和频域特征,类似于白噪声。在语音增强研究中,可利用浊音的周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。3.语音信号可以用统计分析特性来描述由于语音是非平稳的随机过程,所以长时间的时域统计特性在语音增强的研究中意义不大。语音的短时谱幅度的统计特性是时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。高斯分布模型是根据
35、中心极限定理得到的,将高斯模型应用于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中,可将这种假设作为分析的前提。4.语音感知对语音增强研究有重要作用人耳对语音的感知主要是通过语音信号频谱分量幅度获得的,人耳对频率高低的感受近似与该频率的对数值成正比。共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要。2.3 噪声分类及特点根据与输入语音信号的关系,噪声可分为加性噪声和非加性噪声两类。考虑到加性噪声更普遍且易于分析问题,并且对于部分非加性噪声,如乘积性噪声或卷积性噪声,可以通过同态变换而成为加性噪声。加性噪声大致可分为周期性噪声、冲激噪声和宽带噪声:1.周期性噪声周期性噪声
36、的特点是有许多离散的窄谱峰,它往往来源于发动机等周期运转的机械,如50或60Hz交流声会引起周期性噪声。周期性噪声引起的问题可以通过功率谱发现,并通过滤波或变换技术将其去掉。2.冲激噪声冲激噪声表现为时域波形中突然出现的窄脉冲,它通常是放电的结果。消除这种噪声可根据带噪语音信号幅度的平均值确定阈值,当信号幅度超过这一阈值时判为冲激噪声,然后进行消除。3.宽带噪声宽带噪声的来源很多,如热噪声、气流(如风、呼吸)噪声及各种随机噪声源等,量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠,因而消除它最为困难,这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声,通常认为是白色高
37、斯噪声;不具有白色频谱的噪声,可以先进行白化处理。对于非平稳的宽带噪声,情况就更为复杂一些。4.同声道语音干扰在实际生活中经常遇到多人同时说话的情况,此时不需要的语音就形成了同声道干扰。人耳可以根据需要分辨出其中某个人的声音,这种能力称为“鸡尾酒会效应”。这种能力来源于人的双耳效应和人类语音中包含的“声纹”特征,这是人体内部语音理解机理的一种感知能力表现。通常情况下语音经双耳输入,人们根据两路输入的不同时延特性进行分离。同时由于人的发音器官生理构造的差异,每个人都有自身独特的“声纹”,因此,即使双耳效应不显著,人耳也可以借助声纹对信号进行分离。5.背景噪声背景噪声破坏了信号原有的声学特征及模型
38、参数,因此减弱了不同语音间的差别,使语音质量下降,可懂度降低。强噪声会使人产生听觉疲劳,从而影响人耳的听觉特性。同时,较强的背景噪声也会使讲话人的发音方式发生改变,即使发相同的语音,其语音的特征参数也会与安静环境下的发音有所不同。这种效应称为“Lombard”效应。2.4 语音增强算法概述语音增强一般都作为预处理或前端处理模块存在于语音处理系统中。由于噪声特性各异,语音增强的方法也各不相同。近40年来,人们研究了各种语音增强算法,尽管语音增强在理论上并没有完全解决,还有待发展,但某些算法己证实是有效果的口传统的方法大体可以分为四类:噪声对消法、谐波增强法、基于参数估计的语音再合成和基于短时谱估
39、计的增强算法.1.噪声对消法噪声对消法的基本原理是从带噪语音中减去噪声,这一原理显而易见,但问题是如何得到噪声的复制品。如果可以用两个话筒(或多个话筒)的采集系统,一个采集带噪语音,另一个(或多个)采集噪声,则这一任务比较容易解决。将带噪语音序列和噪声序列分别经过傅里叶变换得到的频谱分量相减,然后加上带噪语音频谱分量的相位,再经过傅里叶反变换恢复为时域信号。在强背景噪声时,这种方法可以得到很好的消除噪声效果。如果采集到的噪声足够“逼真”,甚至可以在时域上直接与带噪语音相减。噪声对消法可以用于平稳噪声相消,也可以用十准平稳噪声。采用噪声对消时,两个话筒之间必须要有相当的距离度,但采集到的两路信号
40、之间不可避免地会有时间差,因此实时采集到的两路信号中所包含的噪声段是不相同的,回声及其他可变衰减特性也将影响所采集噪声的“纯净”性,因而采集到的噪声必须经过数字滤波器,以得到尽可能接近带噪语音中的噪声。通常,这需要采用自适应滤波器,使相减噪声与带噪语音中的噪声一致,其原理类似于回波抵消器。2.谐波增强法语音信号的浊音段有明显的周期性,利用这一特点,可以采用自适应梳状滤波器来提取语音分量,抑制噪声。梳状滤波器也可以在频域实现。对语音进行傅里叶变换后可以鉴别出需要提取的各次谐波分量,然后经傅里叶变换恢复为时域信号。梳状滤波器不但可以增强语音信号,也可以用于抑制各种噪声干扰,包括消除同声道的其他语音
41、的干扰。3.基于短时谱估计的增强算法语音是非平稳随机过程,但在10-30ms的分析帧内可以近似看成平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到增强的目的。很多的语音增强系统都是根据语音短时谱和噪声谱的区别,采用短时谱估计方法从带噪信号中估计原始语音。由于噪声也是随机过程,因此这种估计只能建立在统计模型基础上。4.基于语音生成模型的增强算法众所周知,语音的发声过程可以简化为激励源作用于一个线性时变滤波器,激励源可以分浊音和清音两类,浊音由气流通过声带产生。时变滤波器则是声道的模型。通常认为声道模型是一个全极点滤波器,滤波器参数可以通过线性预测分析得到,但若考虑到鼻腔的共
42、鸣作用,采用零极点模型更为合适。显然,如果能够知道激励参数和声道滤波器参数,就能利用语音生成模型合成得到“纯净”语音,这种方法的关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数),这种增强方法称为分析-合成法。2.5 语音增强的新发展除了这些传统的方法外,近些年也出现了许多新的语音增强算法,比如基于神经网络、隐马尔可夫模型和听觉感知模型等的语音增强算法。1. 基于神经网络的语音增强语音增强在一定意义上也是一种说话人区分问题,只不过区分的是背景中的噪声,因此可以利用神经网络等技术来实现语音的增强。经过多年的发展,人们已提出了一系列应用于语音增强的神经网络方法。例如20世纪
43、80年代中期Tamura和Waibel等人就利用了四层的全连接BP网来从各种平稳和非平稳噪声中提取语音。神经网络在语音增强中的应用主要有以下两个方面:时域滤波:时域滤波的方法基于测试语音和噪声环境的分布和训练时相同,且分布保持不变的假设,需要利用带噪语音和干净的目标语音分别进行训练,得到合适的预测神经元模型。为得到语音的最大似然估计,在扩展的卡尔曼滤波过程中,使用训练得到的预测神经元模型,将噪声抑制。变换域滤波:变换域分类使用带噪语音和干净的目标语音在变换域中对神经网络进行训练。变换域根据需要可以选择为频谱域、倒谱域、Mel倒谱域等。SNR或其他一些测度也可以作为网络的输入。这种方法的前提是S
44、NR估计是正确的,巨语音、噪声的统计分布是特定的。利用训练得到的神经元,构造可以对语音和噪声进行分类的分类器,即可实现语音增强。2. 基于HMM的语音增强为了更好地描述信号的非平稳性,可以采用基于状态空间的变换方法,对不同的语音和噪声信号建立不同的模型。目前主要有两种转换方法,一种是构造分类器,利用分类器对当前信号极性最佳匹配。另一种方法就是利用隐马尔可夫模型(HMM)使用这种方法,HMM的各个状态可以对语音、噪声信号有所不同的区域进行充分的建模,另外,由于要准确地将噪声估计出来,必须保证在只有噪声信号的情况下HMM也可以正确地进行分类。此时,利用HMM可以对状态转移概率进行建模,将可能为噪声
45、的信号部分滤除就可以做到语音增强。基于HMM的方法也可以和扩展的卡尔曼滤波器联合使用。3. 基于听觉感知的语音增强研究人员发现,无论在多么恶劣的环境下,人耳总能在极大的程度上对语音信号中的噪声进行抑制,以提取到感兴趣的信息。而语音增强的效果最终也是通过人的主观感受体现的,因此随着对人听觉系统生理的研究深入,基于听觉感知的语音增强算法得到了长足的发展。人耳的听觉主要特性:(1) 人耳对语音的感知是通过语音信号中各个频谱分量幅度获取的,它对各频谱分量的相位不敏感。(2) 人耳对频谱分量强度的感受是频率和能量谱的二元函数,响度与频谱幅度的对数成正比。(3) 人耳对频率高低的感受与频率的对数值近似成正
46、比关系。(4) 人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用。掩蔽的程度满足声音强度与频率的二元函数关系,对频率临近分量的掩蔽要比频差大的分量有效得多。(5) 短时谱中的共振峰对语音感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。(6) 人耳在多人同时说话时可以分辨出需要聆听的声音。近年来许多语音增强算法都利用了听觉特性,例如模仿噪声掩蔽效应,当信号能量低于噪声能量时,令所有滤波器的输出等于噪声电平。或者将语音谱分成符合人耳听觉特性的子带(利用Bark子波变换等),在每个子带中分别估计噪声特性和滤波以增强语音。4. 基于多分辨率分析的语音增强假设输入信号受白噪声干扰,此时,其产生的Lipschitz指数是负的。基于多分辨率分析可知,根据连续尺度上子波变换的极大性可以区分信号的属J胜。如果子波变换模极大值处的幅度随尺度s减小而急剧增大,则表明所对应的Lipschitz指数是负的,它由噪声产生,应予消除。在信号具有正Lipschi