毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc

上传人:文库蛋蛋多 文档编号:3981622 上传时间:2023-03-30 格式:DOC 页数:30 大小:628.50KB
返回 下载 相关 举报
毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc_第1页
第1页 / 共30页
毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc_第2页
第2页 / 共30页
毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc_第3页
第3页 / 共30页
毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc_第4页
第4页 / 共30页
毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于短时谱的噪声估计和语音增强研究.doc(30页珍藏版)》请在三一办公上搜索。

1、基于短时谱的噪声估计和语音增强研究摘要噪声环境下,许多语音处理系统的性能急剧下降。语音增强作为解决噪声污染的一种行之有效的预处理技术,一直都是语音信号处理领域中的热门课题。其目的就是从带噪语音信号中尽可能地提取纯净的原始语音信号,以提高信噪比和改善语音质量。基于短时谱估计的语音增强方法简单、适用信噪比范围大并且易于实时处理,是目前应用得最为广泛的方法。这种语音增强方法通常采用精确的噪声估计来采集噪声特性,再通过良好的增强算法来得到期望的估计语音。对此,本文立足于应用国内外的最新技术,深入系统地研究了短时谱增强方法中的噪声估计和语音增强这两大技术环节,主要实现的工作如下:(1)介绍语音增强和语音

2、行为检测技术的研究背景、意义、存在的问题。(2)从语音活动检测和连续更新噪声谱两方面入手,深入地探讨了语音增强系统中的噪声估计问题。在此基础上研究了两种行之有效的噪声估计方法:基于统计模型VAD的方法与基于最小值约束的快速自适应方法。实验表明,VAD方法的计算量小,并且易于实现,但是对非平稳噪声跟踪力度不够;而基于最小值约束的方法能及时地跟踪噪声变化,从而获得准确的噪声估计,有效改善增强效果。(3)在短时谱估计的基础上,对谱减法进行了研究。关键词:噪声估计 语音活动检测 语音增强AbstractSpeech enhancement as a effective preprocessing te

3、chnology to mitigate noise pollution, in which the speech processing systems sharply slowdown in performance, has been a hot topic. Its purpose is to remove all kinds of interference noise, enhance the SNR, and resume the original speech as purely as possible.Speech enhancement based on short-time s

4、pectral estimation is the most popular method which is simple, applicable in a wide range of SNR, and apt to real-time processing. This method obtains the noise property by using accurate noise estimation and gains the expectancy speech in the performance of favorable enhancement algorithm.According

5、 to the latest technology at home and abroad, this paper does systematic research on Noise Estimation and Speech Enhancement, which are two major technical issues of short-time spectral enhancement. The main work is listed as follows:1. It introduces the research background, significance and existed

6、 problems of Voice Activity Detection and speech enhancement.2. Starting with VAD and continually updated noise spectrum, it discusses the issue of noise estimation in speech enhancement system. Furthermore, it researches two effective methods to estimate noise. The one is based on statistical model

7、 VAD; the other one is based on the fast self-adaptive algorithm with constrained minimization. And the experiment shows that the former method whose computation is small is easy to realize, but cant follow up non-stationary noise timely, while the latter is very accurate in non-stationary noise env

8、ironment, then following-up the changing noise timely, and benefits a lot for the enhancement.3. Based on short-time spectrum estimation, the method of spectral subtraction is discussed.Key Words: Speech Enhancement;Noise Estimation; VAD目录第一章 绪论11.1研究背景及意义11.2与本课题有关的国内外研究开发情况31.3存在的问题41.4本文的内容安排5第二章

9、 噪声估计62.1基于语音活动检测的噪声估计6一、基于统计模型的VAD方法8二、基于语音活动检测的噪声估计112.2基于最小值跟踪的噪声估计12一、最小值跟踪思想12二、基于最小值约束的快速自适应方法142.3实验仿真16第三章 语音增强173.1短时谱估计173.2谱减法18第四章 后记21参考文献22附录:23第一章 绪论语音活动检测和语音增强是语音处理领域很具有挑战性的两个研究热点。近年来,语音活动检测和语音增强得到迅速发展,同时也涌出现许多新的研究方向。本章分别介绍语音活动检测和语音增强的研究背景、意义、存在的主要问题和本文所做的工作及内容安排。1.1研究背景及意义语音是人类沟通的最基

10、本的手段。人类的各种社会活动和行为也给语音信号研究增加了许多新的问题,同时,语音处理技术的发展时刻改变着人类的日常生活。例如语音编码技术的出现使人们可以在有限的通信带宽资源中聆听到远处的声音,近来,宽带语音编码的发展令我们通信中的话音更加自然,更加容易理解,降低了沟通中产生误解的可能性。对大词汇量连续语音识别难题的突破导致了人们有着新的语音输入方式和人机交互模式。人们可以解放双手直接口述,指示机器进行工作或者理解我们的话语,极大地提高了工作效率。在日常生活中使用的语音处理技术1如语音编码和语音识别等技术都不可避免地要面对各种背景噪声的干扰。噪声的存在大大降低了这些技术使用的性能或直接导致使用者

11、不可忍受而放弃使用。环境噪声如现场存在的背景谈话声、汽车驾驶仓的机器振动噪音、高速行驶中的汽车引擎声,室内墙壁的反响噪声等,都会对原始语音信号造成污染。背景噪声的存在及其特性对考虑人类语音特性的参数语音处理技术影响尤其严重,破坏了预先假定的参数模型和听觉特性。现有的语音识别系统在无噪声环境下都可以很好地使用,但一在嘈杂的环境场所中使用,其实别性能急剧下降。显然,在噪声的干扰下,识别系统中使用的语音特征之间的区分性被减弱,导致系统识别错误增加。随着移动通信的普及变成现实,移动通信技术带给人们无约束和便利的语音沟通的同时,更是把语音通信带到了一个充满复杂噪声的应用环境。而在吵杂的环境中手提电话的语

12、音编码不可避免会增大编码误差。这是由于语音编码如CELP(Code Excited Linear Prediction)编码都是基于人类发声模型提出的,完全没有考虑环境噪声的存在。如何消除加性噪声带来的不便?语音增强的出现可以降低或解决噪声的不利影响。语音增强通常用作前端处理模块出现在各种实际应用的语音处理系统中。它通过对含噪语音进行滤波,近似还原纯净语音信号,使得语音处理不直接面对含噪语音信号,增强了语音系统的鲁棒性,而高鲁棒性的语音增强技术可有效地扩大语音处理系统的应用场所。语音通话中往往是一方说话一方听话,在整个通话过程中,两个人同时说话的时段不多,而且在某一方的说话中亦包含大量的停顿。

13、以上因素造成实际传输的有效语音信号的持续时间比通话的时间少得多。有统计表明,以通话的一方来讲,有约60左右的通话时间段是静音或背景噪声。为了降低通信带宽占用、节省通信设备的存储量和电源消耗、提高运算效率、增强编码质量和减少背景噪声等目的,往往对要编码传输的语音信号进行检测,以确定语音信号的有音时段和静音时段部分。这往往需要用到语音活动检测(Voice Activity Detection),简称VAD算法。很多语音识别系统对语音进行特征提取时,都要选择有音发声时段进行提取,VAD可以辅助特征提取的进行。对于多数语音增强算法,工作时都要求获得噪声统计信息才能有效地进行增强处理。语音活动检测算法正

14、是在提高通信系统中提高传输效率、在语音增强系统中获取噪声统计信息和在语音识别系统中确定有音区域进行特征提取的有效方法。综上所述,语音增强技术是其他语音处理技术实际应用的前提和性能保证;而语音活动检测算法则是语音编码和识别等语音处理技术中必不可少的功能模块之一。语音活动检测算法亦为语音增强中获得噪声统计信息提供了一个可行有效的解决方案。对语音增强技术和语音活动检测进行研究具有重要的实用意义和符合国内外语音信息技术发展趋势。1.2与本课题有关的国内外研究开发情况语音增强在国内外作为语音信号处理的非常重要的研究课题,已经作了大量的研究工作2,取得了丰富的研究成果。目前提出的各种语音增强算法,总的来说

15、可分为下面几类:基于短时谱估计的增强算法,基于语音生成模型的增强算法,基于信号子空间的语音增强技术,基于人耳掩蔽阈值的增强算法等。Boll在假设噪声是平稳的或变化缓慢的加性噪声,并且语音信号与噪声信号不相关的情况下,提出了谱减法(SS,Spectral Subtraction)。它的优点是比较简单,只需要进行正反傅立叶变换,而且实时实现较容易。但是谱减法是一种最大似然估计,它放弃了对语音频谱分布的分析假设,适用的信噪比范围较窄,在信噪比较低时对语音的可懂度损伤较大,而且会产生固有的噪声残留,称为音乐噪声(Musical Noise)。由语音特性可知,语音的短时幅度谱分布可以通过两个途径获得:一

16、是假设一个合理的概率分布模型;另一个是通过实际统计的方法获得。对于语音增强来说,听觉意义上的失真准则与给定噪声情况下语音频谱的后验分布是无法知道的,因此,对于特定的失真准则和后验概率不敏感的估计方法是很有用处的。最小均方误差(MMSE,Minimum Mean Square Error)估计正是一种对特定的失真准则和后验概率不敏感的估计方法。它是利用已知的噪声功率谱信息,从带噪语音频谱分量中估计出纯净语音频谱分量,借助带噪语音相位得到增强的语音信号。Ephraim等将最小均方误差估计引入到减谱法中后,得到了幅度谱的MMSE估计(MMSE-STSA,Minimum Mean Square Err

17、or-Short Time Spectral Amplitude),部分解决了音乐噪声问题,但是在信噪比较低的时候,没有能解决音乐噪声、语音畸变度以及原有噪声残留度的问题。考虑到大部分语音的变化比较缓慢,帧与帧之间的频谱有着一定的相似性,其相应频谱分量之间存在某种相关性。这种相关性可以反映在前一帧的频谱值对后一帧频谱的分布产生一种约束影响。由此,产生了基于帧间频谱分布约束的MMSE估计方法。入耳对声音强度的感受是与谱幅度的对数成正比的,而且,语音处理的实践也表明,采用对数失真准则更为适合一些。为此,Ephraim将上述MMSE估计式进行推广,得到频域分布约束下的短时对数谱的MMSE估计(MMS

18、E-LSA,Minimum Mean Square Error-Log Spectral Amplitude)。Berouti在传统谱减法的基础上增加了调节噪声谱大小的过减系数、增强后语音谱的最小值限制系数和增益函数谱阶数的调节系数,提高了谱减法的性能,成为谱减法最灵活的一种形式,但修正系数都是经验值,适应性较差。O.Cappe研究得出,算法MMSE-STSA和MMSE-LSA能有良好的去除噪声和削弱音乐噪声效果,关键是采用了先验信噪比,并提出采用直接判决法(DD,Decision Directed)来估计先验信噪比。然而在用DD法估计先验信噪比时相邻帧之间是相关的,这对语音和噪声信号是统计独

19、立的高斯分布的假设相矛盾,因此I.Cohen对DD法和带噪语音信号的分布函数假设进行了一定的改进,提出了基于DD法的因果法(Casual)和非因果法(Non-casual)。由于先验信噪比估计的准确性和实时性影响着语音畸变度和残留噪声度,随后又出现了一系列的基于先验信噪比估计的改进算法,这些改进更符合实际语音特性,取得了较好的效果。1.3存在的问题数字语音增强和语音活动检测研究已经发展了好几十年,取得了突破性的研究成果。Ephraim开创的最小均方误差(Minimum Mean Square Error,简称MMSE)语音增强方法是现今研究的基础。Beritelli提出的利用模糊软技术提取判决

20、规则的语音活动检测技术,已经作为G729 VAD的修订标准。但仍然没有彻底解决所有难题。主要表现在:(1)语音活动检测方面原有的G729等语音编码标准中的VAD虽然计算量低,但检测性能仍然不够理想,特别在非平稳噪声环境下,存在漏检,虚警现象。尽管统计似然比方法检测性能要好,但其计算量增加了不少,代价大。在语音通信中,要求高效、高性能的VAD仍然是一个研究热点。提高低信噪比环境下算法的检测性能没有被很好解决。据作者了解,对于各种噪声源,目前现有算法的检测正确率在0dB低信噪比环境,仍然没有超过90。很多算法在-5dB时已经失去检测意义。(2)语音增强方面现有的语音增强算法对非平稳噪声的处理效果仍

21、然比其他平稳噪声差很多,如仿真中代表街道或餐厅中的背景谈话声音的Babble噪声。对时变环境的鲁棒性是现有语音增强算法获得高去噪能力的一个限制点。很多算法在某些特定的环境下工作很好,但要是在不同的环境下切换,如从轿车环境到车外街道环境,这样的噪声环境变化使得语音增强算法难以适应。语音信号的质量和可理解性同时得到改善的问题没有很好解决。到目前为止,现有的语音增强算法只能改善以上两点中的其中一点,很难做到两方面都同时得到改善。1.4本文的内容安排第一章分别介绍了噪声估计和语音增强的研究背景、意义、存在的主要问题和本文的内容安排。第二章分别从语音活动检测和连续更新噪声谱这两个方面入手,深入研究了语音

22、增强系统中的噪声估计问题。并在此基础上研究了两种有效的噪声估计方法;基于统计模型VAD的方法与基于最小值约束的快速自适应方法。实验表明,VAD方法计算量小,易于实现,但是对非平稳噪声跟踪力度不够;基于最小值约束的方法能及时地跟踪噪声变化,获得更为准确的噪声估计,有效地改善增强效果。第三章从短时谱估计入手,对谱减法进行了研究。第二章 噪声估计在每一个语音增强系统中,噪声的特性参数都是非常重要的。对于单通道的语音增强方法,因为噪声源的不可接近,背景噪声的特性参数只能通过分析带噪语音而获得,即进行噪声估计。所以说,噪声估计是语音增强技术中非常关键的一个环节。噪声估计的准确性会影响到对噪声特性参数的判

23、断,从而影响到语音增强的效果:若噪声估计过高,则较微弱的语音将被误判为噪声而被去掉,增强后的语音将产生较大的失真;若噪声估计过低,则会有较多的噪声会被误判为语音,而残留下来。因此,选择较好的噪声估计方法就显得非常有必要。本文也将主要侧重于研究如何估计噪声。传统的噪声估计方法使用语音活动检测(Voice Activity Detection,VAD)技术对带噪语音进行处理,区分出有声段和无声段,这时无声段即为噪声部分,分析其噪声特性。然后再使用某种统计方法,就可以估计出背景噪声特性。但是当信噪比很低的时候,VAD的误检率会很大,如果无声段判断得不够准确,估计出来的噪声特性的准确性就很难保证。而基

24、于最小值跟踪的噪声估计算法,省去了对语音进行端点检测这一环节,对于非平稳噪声的适应性也比较好。即使有语音存在,也能够实现噪声的连续估计和不断更新。2.1基于语音活动检测的噪声估计语音活动检测又称为语音的有声,无声判决,其具体方法是:先输入要进行判决的带噪语音,对输入的语音信号进行特征提取,提取出一些对比特征参数,然后将其和对应的的门限阈值进行一一比较。如果超过门限阈值则表示当前语音部分为有声段;反之为无声段(图2-1)。门限阈值通常是根据无声时环境噪声的特征确定的。但是语音和环境噪声总是在不断变化,这一判决过程因而变得十分复杂。通常VAD是在语音帧的基础上进行的,语音帧的长度在1030ms之间

25、。一个好的语音端点检测算法必须适合各种噪声,并且要尽量简单和易于实现。在VAD算法中的特征参数有很多种,常用的参数主要有短时能量、短时平均过零率、LPC系数、倒谱系数、共振峰形状、高阶统计量等。判决方法也由原来的双门限,多门限,发展到基于模糊理论的判决方式。大多数的VAD判决都假设背景噪声是平稳噪声,并对VAD判决结果进行平滑处理,但已经有研究人员对这种假设提出了质疑,并做了一定的改进。综上所述,VAD技术是各种技术的大融合,其判决方法众多。常用的方法有如下两种:(1)基于短时能量的多级判决方法3在这种方法中,以短时能量为第一级判决,然后以短时平均过零率、LPC系数、倒谱系数等为特征参数进行联

26、合第二级判决。在目前的通信用语音编解码中大多用这种技术,如G729。在这种方法中认为,语音开始后总会出现能量较大的浊音。如果当前短时能量小于浊音的短时能量,则有可能是噪音或清音,再使用第二级判决进行分辨。这种方法因为要计算LPC系数、倒谱系数等特征参数,单独使用时运算量比较大,所以通常都内嵌到语音编解码算法中使用。由于第一级判决中大多使用固定阈值,所以当信噪比降低时,性能下降。图2-2 VAD检测结果图2-2为采用本方法对语音“祝教员身体健康,工作顺利”进行有声无声检测的效果示例(其MATLAB代码见附录)。(2)基于背景噪声估计的判决方法在这种方法中,通过对无声段中噪声能量的测量,然后使用某

27、种方法(通常为一阶AR模型)来预测当前帧中的噪声能量来修正判决门限,或是通过信噪比的方式来判决,如第三代移动通信语音编解码标准AMR VAD Option2。这种方法简单,运算量小,可以应对各种不同的信噪比,比较适合于语音增强系统中。本文在参阅各种文献的基础上,研究了一种基于统计模型的VAD检测方法,该方法复杂度低,准确率高。与STSA语音增强算法结合时,计算量更小。一、基于统计模型的VAD方法假设语音信号受到加性噪声污染,两者相互独立。对于输入的第帧含噪语音,VAD可以看成一个二值假设检验问题,分别表示语音存在(present)与不存在(absent)的两种假设,和分别如下所示: (2-1)

28、其中、分别表示带噪语音、纯净语音和噪声的维FFT系数向量,且各分量之间相互独立,实部和虚部相互独立。和都服从零均值高斯分布。因此,在、条件下出现的条件概率密度为: (2-2) (2-3)其中和分别为和的方差,条件概率密度的比值定义为第个频谱分量的似然比,即: (2-4)式中,和分别为先验信噪比(a priori SNR)和后验信噪比(a posteriori SNR)。被定义为: (2-5)在式(2-4)中,如果大于1,则表示该频谱成份有语音的可能性要大于无语音的可能性。由于各频谱成份(不管是语音还是噪声)是相互独立的,因此从总体上来说,某帧信号有语音的概率与无语音的概率之比等于各频谱的似然比

29、的连乘积,即联合似然比。如果联合似然比的比值大于l,即可认为:有语音的概率大于无语音的概率。并把那一帧信号判断为有语音。一般说来,为了减小增强后语音的失真,宁可误判,不能漏判,因此判别阈值不应太高。从简化计算的角度考虑,用各谱点似然比的几何平均值定义广义似然比,并用它的对数来判别有无语音。即 (2-6)其中,为广义似然比的判别阈值。先验信噪比可通过Ephraim提出的方向决定方法(decision detected method)简称D-D法,来加以估计: (2-7)其中为经验权重(如取0.98),为当前帧。由于各帧之间带噪语音的短时幅度谱振荡激烈,从而导致各帧之间后验信噪比震荡激烈在语音尾部

30、,由于后验信噪比较低,而由式(2-7)所估计的先验信噪比将因前一帧的增强语音功率谱较大而导致高估,因此导致似然比的低估,从而导致语音尾部常常被误判为无语音。为了减少误判,需要对似然比进行帧间平滑,得到平滑后的似然比: (2-8)其中经验系数是一平滑因子,其作用是防止语音由于后验信噪比的快速下降而导致似然比的过度下降。将上述各谱点平滑似然比的几何平均值取对数,即为广义平滑似然比,作为检测语音有声无声的判别标准,代入式(2-6),若其大于某个阈值,则认为有声,否则为无声。但是,我们经研究发现,信号各个频段的频率特性具有差异性,如果仅仅把所有频段的似然比作几何平均再与给定的阈值作比较,这种VAD判决

31、规则忽略了这种差异性的存在。因此在日后进一步的研究中可以应用最小分类错误策略优化各频段似然比的加权系数,对每个频段分配不同的经过优化的加权系数。把这样的加权似然比平均值与给定的阈值比较作为VAD判定依据。统计似然比VAD方法要假设语音信号和噪声的模型。这种统计模型对于VAD检测算法非常重要,统计模型越精确,就越能从理论上保证算法的正确性。Sohn提出的统计似然比VAD方法假设语音DFT系数模型是Gaussin,Gazor通过语音的时域DCT系数的直方图统计得出用Laplace模型描述该直方图更适合,并提出结合HMM并假设LaplaceGaussin模型的软决策VAD方法。Tahmasbi利用G

32、ARCH滤波器和Variance gamma分布进行软决策。该方法在非平稳的Babble噪声都有较高的检测率。近年来不少人在这方面做了改进工作。Shin根据前后语音帧之间有很强的相关性,利用条件最大后验准则,给出了双阈值判决的理论依据,改进了原来单阈值的判决规则。Kim等人利用一致最优测试(Uniformly Most Powerful Test,简称UMPT)改进基于统计似然比的判决规则,先将原规则似然比与阈值之比转化成信号DFT幅值与新阈值之比,然后仿照Davis的做法,用一致最优测试原理在已知非活动语音时DFT幅值的概率密度情况下通过虚假概率求出新的阈值。阈值更新是在非活动语音时进行。总

33、的来讲,统计似然比VAD方法需要分别估计语音和噪声的模型参数,其计算量不低。二、基于语音活动检测的噪声估计如前所述,在进行语音活动检测以后,信号的有声段和无声段已经被区分开来,这时对噪声的估计就可以通过求无声段的噪声方差的统计平均来获得。这种传统的基于VAD的噪声估计方法具有简单、易实现的优点。但是实验证明,VAD在信噪比较低的情况下对噪声特性的精确估计有很大的缺陷。一方面,VAD进行检测主要利用的是带噪信号的能量统计特性和语音信号的一些其他特征,而在实际环境中,更多为非平稳噪声(即波动噪声,Fluctating Noise)情况,噪声的能量统计特性总是在不断发生变化,所以需要不断检测新的噪声

34、样本来进行更新。因此,依靠VAD方法很难实时跟踪噪声的变化;另一方面,在信噪比较低的情况下,实时寻找带噪信号中的无声段也变得非常困难,用VAD方法会导致噪声估计很不准确,从而产生音乐噪声和语音失真。因此,我们需要一种更加准确和鲁棒的噪声估计算法,不依赖于VAD的性能,能够在整个信号期间实现噪声的连续估计和不断更新。2.2基于最小值跟踪的噪声估计基于最小值跟踪的噪声估计是一类专门用于单通道语音增强系统的连续更新噪声功率谱的估计方法。不需要进行语音的有声、无声判决,噪声谱在所有的帧中连续的更新,并不关心本帧是语音帧还是噪声帧,对每一帧都重新计算其噪声功率谱。有很多研究工作者提出了相关的噪声估计方法

35、。一、最小值跟踪思想Martin提出一种基于带噪语音能量的最小统计量(Minimum Statistics.MS)进行噪声功率谱估计的算法,应用于短时谱域(STFT)的语音增强方法中,取得了很好的效果。该算法基于两个前提条件:语音和噪声统计意义上相互独立;带噪语音信号的能量总会衰减到噪声能量的级别,因此可以通过跟踪带噪语音信号功率谱的最小值来获得噪声功率谱的估计值。具体步骤如下:(1)一阶平滑由于噪声和语音的非平稳性,尤其在低信噪比的情况下,噪声对后续的最小值搜索的影响非常大,所以首先对原始带噪语音功率谱进行平滑: (2-9)其中,表示带噪语音分帧以后的帧序号,表示频点,表示带噪语音功率谱,表

36、示对的平滑结果。根据实际情况的不同,平滑系数的取值应做相应的调整,依赖于时间和频率的最优平滑系数由式(2-10)给出: (2-10)(2)最小值搜索在大约1.5s的滑动窗口内对平滑后的带噪语音功率谱进行搜索,找出每一频率点上的频谱最小值: (2-11)式中M为滑动窗长。每输入一帧语音,都更新此最小值。(3)偏差补偿因为随机变量的最小值总会小于其平均值,所以用跟踪得到的这个最小功率谱作为真实噪声的估计存在着偏差,修正如下: (2-12)式中为依赖于时间和频率的补偿因子,为最终噪声估计值。为了能更快的跟踪和更新局部最小值和频谱最小值,Martin把滑动窗M划分为子窗口,在每个子窗口内更新噪声的估计

37、谱。虽然这样,当噪声谱突变时,此算法仍然不能快速跟踪噪声的变化。在约1.5ms的窗内跟踪新的噪声频谱,这个时间过长,但是如果减小窗口的长度,跟踪到的频谱最小值又不够准确,这样会导致语音信号的失真,特别是语音的持续时间超过窗口长度时。Doblinge提出了一种非常有效的没有窗口长度限制的跟踪噪声谱的方法。此方法通过跟踪每个频带内带噪语音的最小值,然后通过平均,以得到噪声的估计值。自适应周期为0.2-0.4s。此方法的主要缺点是会过多造成噪声功率谱的过估计,从而在语音增强系统中引起较大的语音失真。Cohen和Berdugo提出了一种基于最小值约束的递归平均方法(Minima Controlled

38、Recursive Averaging,MCRA)。该方法用一个与时频相关的平滑参数对带噪语音的过去值进行平均,以得到噪声的估计值。该平滑参数根据每个频点上语音存在的概率进行调整,而每个频点上语音是否存在的概率由0.5-1.5s带噪语音的功率谱与其局部最小值的比值决定,此方法的原理是:如果比值小于某个固定的阈值,则认为此部分为噪声区域,相应的更新噪声谱。MCRA方法计算量小,但是有较大的延时问题。本文在上述各种方法的基础上,结合各自的优点,研究了一种改进的基于最小值约束的快速自适应噪声谱估计方法,对最小值的跟踪不再受限于固定长度的窗口,同时复杂度较低,能快速地跟踪噪声功率谱的变化。二、基于最小

39、值约束的快速自适应方法首先对带噪语音的功率谱进行一阶平滑: (2-13)其中为带噪语音功率谱,表示对的平滑结果,平滑常数取值为0.8-0.95,整个算法流程如图2-3所示: (1)最小值搜索将带噪语音进行谱平滑后找出功率谱的局部最小值,在相邻帧的每个频点上连续搜索和更新,方法如下:if then (2-14)elseEnd 其中为带噪语音功率谱的局部最小值,和为常数,由实验确定。(2)估计语音存在概率定义为带噪语音功率谱与最小值的比值: (2-15)在每个频点与一个阈值相比,如果大于门限,则认为语音存在,否则语音不存在。由于语音不存在时,带噪语音的功率谱近似等于它的局部最小值,因此,(2-15

40、)式比值越小,语音存在概率越高。有声无声判决可总结如下:if ,语音存在else,语音不存在end利用帧间相关性,语音存在概率由下面的一阶递归确定: (2-16)其中平滑因子为常数,由实验确定。(3)计算平滑因子 (2-17)为常数,的取值范围为。(4)更新噪声功率谱估计依赖于时间频率的平滑因子确定后,就可以更新噪声谱了,更新的方法是:如果该子带中存在语音,噪声谱保持不变(与上一帧相同);反之则根据带噪语音的功率谱进行更新,如下式: 语音存在 语音不存在(2-18)其中为平滑参数。所以当前帧的噪声谱估计为: (2-19)2.3实验仿真根据参考文献3的实验,将MMSE-LSA估计器分别与VAD和

41、最小值跟踪(MS)两种噪声估计方法相结合,并对去噪的结果进行比较。实验中各参数选取如下:VAD方法中;最小值跟踪方法中,。从实验中可以看出最小值跟踪方法表现出了更好的估计性能,明显地改善了增强效果。第三章 语音增强从长时的角度来看,语音是非平稳随机过程,但在lO-30ms的短时帧内可近似看成是平稳的,这就是语音的短时平稳性4。于是可以从带噪语音的短时谱中估计出“纯净语音”的短时谱,从而达到语音增强的目的。本章将主要介绍基于短时谱估计的增强算法。3.1短时谱估计假设带噪信号为 (3-1)其中,为纯净语音,为平稳加性噪声,表示加窗处理后的带噪信号。将变换到合适的分析域上,其系数为: (3-2)使用

42、K-L变换5,可以保证变换系数互不相关。可以证明,在相关长度小于帧长N的情况下,K-L变换就是离散傅里叶变换。若分析帧长趋近于无限大,则傅里叶系数趋近于互不相关。设的傅里叶系数为,的傅里叶系数为,的傅里叶系数为,则有, (3-3)假设噪声满足高斯分布,其傅里叶系数相当于多个高斯样本的加权和,仍然可以认为满足高斯分布,均值为0,方差通过无话期间的噪声分析得到。基于短时谱估计6的语音增强就是要利用已知的噪声功率谱信息,从中估计出。由于人耳对相位不敏感,因此只要估计出,然后利用带噪语音的相位,进行傅里叶反变换就可得到增强的语音。基于语音短时谱估计方法的一般原理如图3-1所示。根据实现估计的方法不同,

43、可以分为谱减法、维纳滤波法和最小均方误差法,下面主要介绍谱减法。3.2谱减法根据式3-1,的功率谱为 (3-4)由于和相互独立,满足高斯分布且均值为0,所以 (3-5)在一帧之内的短时平稳过程,有 (3-6)其中是无话时的统计平均。此时,原始语音的估计值为: (3-7)这就是谱减法的基本原理(如图3-2所示)。实际计算中,可能会出现小于的情况,此时可将式(3-7)修改如下: (3-8)其中,是大于0的常数,具体的大小可以根据实验确定。定义第个频谱分量的增益函数,后验信噪比为,则由式(3-7)可得 (3-9)从式(3-9)中可以看出,谱相减的实质就是在带噪信号的每个频谱分量上乘以一个系数。信噪比

44、高的时候,衰减系数小,相反则衰减系数大。假设具有高斯分布,则谱减法相当于对作最大似然估计,此时有 (3-10)令,有 (3-11)结果与式(3-7)相同。若不给定的分布,则的似然表示式为: (3-12)其中,是第0阶修正贝塞尔函数。对式(3-12)求取最大值即可得到的最大似然估计。由于存在,直接求解有一定困难。为此需采用一定的简化措施。因为当时,有,所以在信噪比较高的情况下,有式(3-13)成立: (3-13)语音信号处理中经常使用倒谱参数,因此在倒谱域上进行估计也可以将语音和噪声进行分离,实验表明这种方法增强效果较好。噪声具有高斯分布,其幅度随机变化的范围很宽,当谱减法利用在无声期间统计得到

45、的噪声方差来代替当前帧的噪声频谱分量时,若该帧某频点上的噪声分量较大,则相减后会有较大的噪声残留,频谱上有相应的随机尖峰出现。增强后的语音会夹杂着有节奏的音乐残留噪声。因此实际应用时,更多地使用谱减法的改进形式,其的估计式为: (3-14)其对应的物理表示为: (3-15)与普通的谱减法相比,改进形式增加了参数和。引入系数可以对噪声估计值进行调整,在语音能量较高的区域,令1,这样可以降低语音能量,更好地突出语音频谱。调节参数也可获得类似的效果。当=2,=1时,改进的估计算法就退化为普通的谱减法。谱减法及其变形方法总体上运算量较小,容易实时实现,增强效果也较好,是目前最常用的一种方法。第四章 后

46、记2012年3月,我开始了我的毕业论文工作,时至今日,论文基本完成。从最初的茫然,到慢慢进入状态,再到对思路逐渐的清晰,整个写作过程难以用言语来表达。总的说来,这次的毕业设计过程是一次再学习,再提高的过程。在整个过程中,我学到了很多新知识,增长了见识。在今后的日子里,我仍然要不断充实自己,争取在所学领域有所作为。脚踏实地、认真严谨、实事求是的学习态度,不怕困难、坚持不懈、吃苦耐劳的精神是我在这次设计中最大的收获。我想这既是一次意志的磨练,也是对我实际能力的一次提升。这次的毕业设计也使得我们的同学关系更进一步,大家互相帮助,一起讨论、商量有助于我们更好地理解知识,所以在这里非常感谢帮助我的同学。在此更要感谢的,是我的导师,在您的鼓励下,我树立了完成好毕业论文的信心;在您的帮助下,我没有上网条件还是得到了大量的学习资料;在您的悉心指导下,我终于对自己的设计方向和方法有所掌握。导师严谨治学的态度、渊博的知识、无私的奉献精神使我深受启迪。从尊敬的导师身上,我不仅学到了扎实、宽广的专业知识。也学到了做人的道理。在此我要向我的导师致以最衷心的感谢和最崇高的敬意。参考文献1张雄伟.陈亮.杨吉斌.现代语音处理技术及应用.北京:机械工业出版社,2003.2赵晓群数字语音编码北京:机械工业出版社,20

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号