《1381.A语音增强算法及其DSP实现(含封面).doc》由会员分享,可在线阅读,更多相关《1381.A语音增强算法及其DSP实现(含封面).doc(44页珍藏版)》请在三一办公上搜索。
1、本科毕业论文(科研训练、毕业设计)题 目:语音增强算法及其在DSP上的实现姓 名: 学 院: 物理与机电工程学院系: 物理系专 业: 电子信息科学与技术年 级: 学 号: 指导教师(校内): 职称:工程师指导教师(校外): 职称:2005 年 06 月 02 日语音增强算法及其在DSP上的实现摘要:语音增强是从带噪声混合信号中提取语音信息,在国家安全、通信等实际生活领域中有着广泛的应用。本论文在深入调研的基础上,采用数字信号处理技术和声学研究相结合的方法,围绕语音的增强问题展开工作,研究了一些算法。选择时域语音激活检测(简称VAD)算法作为判别噪声帧算法,选取短时能量和短时过零率两个参数作为为
2、判别语音帧/静音帧的依据。由于固定的能量门限不能准确地反映信号能量与背景噪声能量的变化,本文依据人耳听觉的掩蔽效应,采用动态门限更新的方法,在信噪比(SNR)较低时也收到了很好的判别结果。DSP(数字信号处理器)作为专用的数字信号处理芯片,具有在单机器周期内完成乘加运算、单机器周期内多次访问存储器以及丰富的片上外设等特点。采用DSP进行语音信号处理代表未来语音信号处理的发展方向,在这种情况下,本文在研究传统减谱法的基础上,对改进算法进行了分析和实现,设计并实现了一种基于DSP的语音信号采集与处理系统。关键词:语音信号处理 语音增强 减谱法 语音激活检测DSPSpeech Enhancement
3、 Algorithms and Implementation on DSPAbstract: Speech enhancement is used to abstract voice information from voice with various background noises, which is extensively used in communication systems and other areas. This paper bases on digital signal processing technology and acoustics, focuses on th
4、e problem of speech enhancement and studies some algorithms. This paper chooses time Voice Activity Detection algorithm(VAD), which uses short-time energy and short-time zero-pass ratio, to detect noise frame. Because fixed threshold cannot exactly reflect the variety of noise, this study advances d
5、ynamic threshold based on “masking effect”.DSP as special digital signal processor, has some unique features, such as Single-cycle multiply and accumulate (MAC),multiple accessing memories in single cycle, a wide variety of on-chip peripherals. These features lead DSP applied widely in digital speec
6、h processing field. This paper studies the traditional Spectral Subtraction and improves it to reduce “music noise”. Then based on these theories, a practical speech enhancement processing system on DSP is designed and implemented.Key words: Speech processing Speech enhancement Spectral Subtraction
7、Voice Activity Detection DSP 目 录摘要2Abstract3引 言4第一章语音信号处理技术的基础知识41.1 语音的产生41.2 人的听觉特性41.3 语音信号产生的数字模型41.3.1 激励源模型41.3.2 声道模型41.3.2 辐射模型41.4 语音信号的短时分析技术41.4.1 预滤波、采样、A/D变换41.4.2 加窗处理41.4.3 短时频谱41.4.4 短时能量和短时平均幅度41.4.5 短时过零率41.5 语音特性4第二章语音增强的基本理论42.1 噪声特性42.2 语音增强效果的评价方法42.3 语音增强算法概述42.3.1 基于多通道输入的语音增
8、强算法42.3.2 基于单通道输入的语音增强算法4第三章减谱法算法的分析及改进43.1传统减谱法43.2 改进的减谱法43.3 伪倒谱相减法4第四章TDS5410TDK 开发系统简介44.1 硬件开发平台TDS5410TDK简介44.2 TMS320C54x DSP 概论41C54x CPU vs 通用CPU42冯诺依曼结构 vs 哈佛结构 vs 改进的哈佛结构43C54x DSP区别于通用处理器的特性总结44.3 HPI接口简介44.4集成开发环境CCS4第五章 算法的DSP实现及算法性能分析45.1 算法的系统实现框图45.2 A/D 采样和转化45.3 VAD算法的分析及比较45.3.1
9、检测的依据45.3.2检测参数选择的理由45.3.3 检测的流程45.4 算法DSP实现要点45.4.1 DSP C 数据类型 vs ANSI C数据类型45.4.2 与主机的数据交换45.4.3 CMD文件的编写45.4.4 C和汇编语言混和编程45.5 算法优化及实验结果分析45.5.1 FFT和IFFT的转化45.5.2减谱法及其改进算法效果分析456 小结4结 论4致 谢4参 考 文 献4附 录4附录一:DSP C语言数据类型4附录二:程序代码41 A/D采样42VAD判别程序43高通滤波44FFT变化45取模和相位信息46根据相位信息将模分解为实、虚部4引 言一论文研究的背景当今世界
10、正处在信息时代。计算机、电子和信息技术的高速发展,推动着人类社会向信息社会不断进步。语音是人类相互之间进行交流最自然和最方便的形式之一,语音通信是一种理想的人机通信方式。人们一直梦想有朝一日可以摆脱键盘或遥控设备的束缚,拥有更为友好、亲切的人机界面,使得计算机或家用电器可以听懂人的话语,看懂人的动作,执行人们所希望的任何任务,而语音数字信号处理正是其中一项至关重要的应用技术。语音数字信号处理是一门涉及面很广的交叉学科,研究领域涉及到信号处理、人工智能、模式识别、数理统计、神经生理学和语言学等许多学科,在数字语音通信、声控打印机、自动语音翻译和多媒体信息处理等许多方面都有着非常重要的应用。语音数
11、字信号处理包含的内容十分广泛,包括语音编码、语音识别、语音合成和语音增强等。在语音数字信号处理的诸多研究领域中,语音增强是语音数字信号处理系统进入实用阶段,保证语音识别系统、说话人识别系统和各种实际环境下语音编码系统性能的重要环节。二论文研究的意义与价值人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介乃至其他讲话者的干扰,使得接收者最终接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。通常情况下,语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰往往都是随机的、不确定的、复杂的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强
12、的目的主要有两个:一是改进语音质量,消除背景噪声,这是一种客观度量;二是提高可懂度,使听者乐于接受,不感觉疲劳,这是一种主观度量,但这两个目的往往不能兼得。语音增强作为预处理手段,可以应用到许多领域中【9】:1目前的语音识别系统大都工作在安静环境中,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。2语音生成模型是低速率参数编码的基础,当模型参数的提取受到混杂在语音中的背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至完全不可懂。3在国家和社会安全方面,侦听信号常常含有较大的噪声,语音增强有助于提高侦听系统的效果,可以帮助侦察破案或获取情报。4在医学领域中,在复杂语音环境下,帮
13、助听力障碍的人获取正常人的听力,正确分辨说话人的位置,选择所听取的语音信号。三研究内容与论文结构本论文采用数字信号处理和声学研究相结合的方法,围绕语音增强问题,展开研究工作。在分析、研究语音增强算法的基础上,对比各种经典语音增强算法的利弊,选择减谱增强算法作为本论文的算法,并且针对传统减谱法的缺点做了改进和优化,利用计算机高级语言对增强算法进行仿真。在对高级语言仿真程序进行测试分析之后,选择闻亭公司TMS320C5410-TDK作为开发系统,根据其硬件特点,设计A/D电路及采样、输出程序,结合仿真程序,进行软、硬件调试、改进和优化,在TMS320C5410开发系统上实现了语音信号的增强。本文在
14、结构上大致可以分为5个部分:语音信号处理技术的基础知识(第一章);语音增强算法概述(第二章);减谱法算法的分析及改进(第三章);TMS320C5410开发系统介绍(第四章);减谱法算法在DSP上的实现及结果比较(第五章)。第一章 语音信号处理技术的基础知识语音信号处理是一门综合性的学科,它研究如何用数字信号处理技术对语音信号进行处理,包括四大分支语音识别,语音合成,语音编码和语音增强。在不同的分支中,研究的目标不同,所采用的处理方法亦是多种多样的,但总的来说,处理语音信号的目的是利用语音信号所携带的信息,以最简的方式去解决实际问题。这里,简要介绍一下语音信号处理的基础知识。1.1 语音的产生【
15、9】产生语音的能量,来源于正常呼吸时肺部呼出的稳定气流。声带既是阀门,又是振动部件。由声带振动产生声音,是形成声音的基本声源。声带开启和闭合使气流形成一系列脉冲。每开启和闭合一次的时间即振动周期,称为基音周期,其倒数称为基音频率,简称为基频。基频决定了声音频率的高低,随发音人的性别、年龄及具体情况而定。语音中由声带振动产生的声音称为浊音,而不由声带振动产生的声音称为清音。声道是由咽、口腔和鼻腔组成,是一个分布参数系统,可视为一谐振腔,它放大某一频率而衰减其它频率分量。讲话时,舌和唇连续运动,使声道常常改变外形和尺寸,即改变谐振频率。这些谐振频率称为共振峰频率,简称为共振峰,语音的频率特性主要是
16、由共振峰决定的。声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振频率之间相互作用的结果对音质有很大影响。1.2 人的听觉特性一个完整的语音通信系统总是涉及到说(语音的产生)和听(语音的接收)两个方面,正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气中分子热运动所产生的声压。正常人可听到声音的频率范围为:0.016kHz16kHz 的声音。当两个响度不同的声音作用于人耳时,则响度较高频率成分的存在会影响到人耳对响度较低频率成分的感受,使其变得不易被觉察,称之为掩蔽效应(Masking effect)【10】。1.3 语音信号产生的数字模型语音是由空气流激励声道,最后从嘴唇或鼻
17、孔辐射出来,语音声波由振动而产生并借助于介质点的振动而传播。对于目前的大多数研究和应用,数学模型完全满足要求,该模型中包括三个部分:激励源、声道模型和辐射模型【4】。图11 语音信号产生的数学模型Figure11 Mathematical model of speech signal production 1.3.1 激励源模型激励源分浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。为了使浊音的激励信号具有声门气流脉冲的实际波形,需要使上述的冲激序列通过一个声门脉冲模型滤波器。清音激励信号则由随机噪声发生器产生。1.3.2 声道模型声道可近似地看作是由多段均匀截
18、面积的声管级联而成,采用流体力学的方法可以推导出,N节级联的无损声管的系统函数是一个N阶的全极点函数【4】:其中1,为实数,p为全极点滤波器的阶。p 取得越大,模型的传输函数与声道实际传输函数的吻合程度越高,但同时也增加了算法的复杂程度。1.3.3 辐射模型声道的终端为口和唇,因此辐射模型与嘴型有关。经研究表明,口唇端辐射在高频端较为显著,在低频端时影响较小。口唇的辐射效应可表示为【4】:综上所述,完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。其转移函数为【4】: 1.4 语音信号的短时分析技术语音信号是一种非平稳的时变信号,产生过程与发音器官的运动密切相关
19、,而这种物理运动比起声音振动速度要缓慢得多,因此语音信号常常假定为短时平稳的,即在1030ms时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。所以把每个短时的语音段称为一个分析帧,对该帧进行处理就相当于对固定特性的持续语音进行处理。分析帧可以是连续的,也可以是交叠分帧。1.4.1 预滤波、采样、A/D变换预滤波的目的有两个【13】:(1)抑制输入信号各频域分量中频率超出 的所有分量(为采样频率),以防止混叠干扰。(2)抑制50Hz的电源干扰。这样,预滤波器必须是一个带通滤波器,其上、下截至频率分别是和。对于绝大多数语音编码器,3400Hz,60100Hz,采样率为8kHz。语音信号
20、经预滤波和采样后,由A/D变换器变换为二进制数字码。1.4.2 加窗处理通常采用一个长度有限的窗函数w(n)来乘语音信号s(n),从而形成加窗语音【14】 s(n)w(n)。理想的窗函数的频率响应要求,主瓣无限狭窄且没有旁瓣(无频谱泄漏),但在实际过程中无法实现。根据不同应用,通常采用矩形窗、海明窗和汉宁窗等窗函数来逼近理想的频率响应。矩形窗主瓣最小,但旁瓣最高;海明窗具有最宽的主瓣和最低的旁瓣高度。从应用的角度来说,矩形窗有最高的频域分辨率,但泄漏较高,海明窗可以有效克服泄漏现象,具有平滑的低通特性。1.4.3 短时频谱加窗信号 的离散傅立叶(DTFT) 称为s(n)的短时频谱,可以用下面公
21、式计算【4】:(14)称为s(n)的短时功率谱。假设s(n)的DTFT是,且w(n)的DTFT是,那么是和的周期卷积。在语音信号数字处理中,都是采用的离散傅立叶变换(DFT)来代替,并且可以用高效的快速傅立叶变换(FFT)算法完成由至的转换。为了使具有较高的分辨率,所取的DFT以及相应的FFT点数较的长度N要大。例如,在通常采样率为8kHz且帧长为20ms时N160,而一般取为256,512或1024。为了将的点数从N扩大为,可以在扩大的部分添若干的0采样值。1.4.4 短时能量和短时平均幅度语音信号的一帧内的能量称为短时能量【4】,用 表示:短时能量为一帧样点值的加权平方和。可以由它的量值粗
22、略判别语音信号的有无,同时也可以由它判断该帧是浊音还是清音。短时能量的一个主要问题是对于信号电平值过于敏感,而且需要计算信号样值的平方和,在定点实现时很容易溢出。为了克服这个缺点,定义短时平均幅度 来衡量语音幅度的变化。但 的动态范围(最大值与最小值之比)要比短时能量小,接近于短时能量计算的平方根,所以用Mm区分清音/浊音、无/有声不如短时能量明显。1.4.5 短时过零率短时过零率其定义为【4】:其中sgn表示取符号,即 由短时过零率可以概略地得到信号的变化快慢。短时过零率也可以表征清音帧与浊音帧,及区别语音的有无。但过零率容易收到噪声电平的扰动。一般实际应用中多设置一个门限电平,以使过零率检
23、测有一定的抗干扰性。准确地检测语音开始需要用短时能量和短时过零率配合检测。1.5 语音特性1语音是一个时变的、非平稳随机过程人类发声系统的生理结构的变化速度是有限的,在1030ms时间段内具有相对稳定性【9】,可以认为其特性是不变的,因此语音的短时谱分析也有相对稳定性。2语音大体上可以分为清音和浊音两大类浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内;清音则没有明显的时域和频域特征,类似于白噪声。3语音感知对语音增强研究有重要作用语音增强效果的最终度量是人的主观感受。人耳对背景噪声有惊人的抑制作用,了解其中机理将大大有助于语音增强技术的发展10。(1)人耳
24、对语音的感知是通过语音信号中各频谱分量幅度获得的,对各分量的相位则不敏感;(2)人耳对频谱分量强度的感受是频率和能谱的二元函数,响度与频谱幅度的对数成正比;(3)人耳有掩蔽效应,掩蔽的程度是声音强度与频率的二元函数。对频率临近分量的掩蔽要比频差大的分量有效得多;(4)短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更重要。因此对语音信号进行一定程度的低通滤波不会对可懂度造成影响。第二章 语音增强的基本理论2.1 噪声特性噪声可以分为加性噪声和噪声。对于乘性噪声,有些可以通过变换而转变为加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪声和同声道其它语音的干扰等【10】。
25、1周期性噪声具有许多离散的线谱,主要来源于发动机等周期性运转的机械,可以用梳状滤波器予以抑制。然而,实际中产生的周期性噪声是由许多窄谱带组成,并且往往是时变的,且与语音信号频谱重叠,所以必须采用自适应滤波的方法才有可能自动识别和区分噪声分量。2脉冲噪声表现为时域波形中突然出现的窄脉冲,来源于爆作、撞击和放电等。可根据带噪语音信号幅度的平均值确定阀值,当信号幅度超出阀值时,判别为脉冲噪声,然后对它进行适当的衰减;也可以根据相邻信号样值通过内插的方法,在时域上进行平滑。3宽带噪声宽带噪声来源很多,热噪声、气流(风、呼吸)噪声及各种随机噪声源,量化噪声也可视为宽带噪声。由于它与语音信号在时域和频域上
26、完全重叠,因而消除最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声,通常可以认为是白色高斯噪声。不具有白色频谱的噪声,可以先进行预白化处理。4同声道语音干扰人耳可以在两人以上讲话环境中分辨出所需的声音,这种分辨能力是人体内部语音理解机理所具有的感知能力,来源于人的双耳输入效应,称之为“鸡尾酒会效应”。但当多个语音叠合在一起,在单信道传输时,双耳信号因合并而消失。5背景噪声对发声的影响强噪声不仅会使人疲劳,而且还对讲话人产生影响,使讲话人改变了在安静环境或低噪声环境中的发音方式,从而改变了语音的特性参数,这称为 “Lombard”效应,它对语音识别系统有很大影响。2.2 语音增强
27、效果的评价方法语音增强效果可以用主观测量或客观测量来评价。主观测试方法有:平均意见得分(MOS)、判断韵字测试(DRT)和判断满意度测试(DAM)等【9】。主观评定方法符合人类听话时对语音质量的感觉,目前得到了广泛的应用。其中,MOS采用五级评分标准。参加测试的实验者在听完所测语音后,从五个等级中选择某一级作为他对所测语音质量的评定。全体实验者的平均分就是所测语音质量的MOS分。DRT是反映清晰度或可懂度的一种测试方法,使用若干对同韵母进行测试,其主要用于低速率语音编码的质量测试。DAM是对话音质量的综合评估,它是在多种条件下对话音质量可接受程度的一种度量,也采用百分比评分。至于客观测试方法,
28、可以直接观测语音的时域/频域波形,也可以给出客观的数值度量,通常采用原始语音信号功率与归一化后的增强语音和原始语音之差的功率比值来度量,简称信噪比(SNR)。2.3 语音增强算法概述多年来,人们针对加性噪声研究了各种语音增强算法。按输入通道的不同,语音增强算法大致分为两大类:一种是基于多通道输入的语音增强算法;另一种是基于单通道输入的语音增强算法【9】。2.3.1 基于多通道输入的语音增强算法1自适应噪声对消法用两个话筒(或多个话筒)的采集系统,一个采集带噪语音,另一个(或多个)采集噪声。图2-1给出双话筒采集系统的自适应噪声对消原理框图。图中带噪语音序列z(n)和噪声序列w(n)经傅立叶变换
29、后,得到频域分量 和 ,噪声分量幅度谱 经数字滤波后与带噪语音谱相减,然后加上带噪语音频谱分量的相位,再经过傅立叶反变换恢复为时域信号。在强背景噪声时,可以得到较好的去噪效果。如果采集到的噪声足够逼真,甚至可以在时域上直接与带噪语音相减。图21 噪声对消法原理框图Figure 2-1 The chart of noise cancellation噪声对消法可用于平稳随机噪声相消,也可用于准平稳随机噪声。采用噪声对消法时,两个话筒之间必须要有一定的距离。由于采集到的两路信号之间有时间差,所以采集到的噪声需要经过自适应数字滤波器,以得到尽可能接近带噪语音中的噪声。噪声对消法的缺点是增强后的语音中含
30、有明显的“音乐噪声”,而且需要使用两个话筒采集信号。2阵列信号处理方法采用具有一定排列方式的一系列传感器(麦克风)阵列接收多维输入信号,从而估计所需的输出信号。将阵列信号处理应用到语音增强算法时,如不考虑系统的成本和复杂性,往往能获得较好的算法性能。但考虑到实用条件,阵列信号处理的语音增强方法有一定的限制。2.3.2 基于单通道输入的语音增强算法1谐波增强法利用浊音段有明显的周期性这一特点,可以采用自适应梳状滤波来提取语音分量,抑制噪声。梳状滤波器在时域实现的表达式为【9】:其中,L为基频周期;M为常数(通常不大);z(n)是滤波器输入信号序列;为输出信号序列;为系数,随信号周期而变化。输出信
31、号是输入信号的延时加权和的平均值。当延时与周期一致时,这个平均过程将使周期性分量得到加强,而其它非周期性分量或与信号周期不同的其它周期性分量受到抑制或消除。显然,上述方法的关键是要精确估计出语音信号的基音周期L,这在强背景噪声干扰下是困难的。在基音发生变化的过渡段,这种方法会受到严重影响。2减谱法及其改进基本原理是利用无语音段的噪声信号估计噪声的频谱,再从带噪语音信号的谱估计中减去相应的噪声谱估值,从而得到纯净语音的谱估计值,对存在加性噪声的语音增强效果尤为明显。第四章将详细地介绍减谱法及其改进。3基于语音生成模型的算法语音的发生过程可以模型化为清/浊音激励源作用于一个线性时变滤波器。时变滤波
32、器是声道的模型,其参数可以通过线形预测分析得到。此方法的关键在于从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数),但在信噪比较低时,参数的估计存在很大的困难。4基于小波变化的语音增强算法小波分析是一种时频局域化分析方法,特别适用于非平稳时变信号分析。小波变换将信号在多个尺度上进行分解。由于信号和噪声在不同尺度上进行小波分解时,存在不同的传递特性和特征表现,所以可以通过选择不同的基,使得在相应坐标系统内信号同噪声的重叠尽可能小,从而使信噪分离成为可能。5基于听觉掩蔽效应的语音增强算法语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪音信号,而使得这部分噪声不为人所感知。近年来
33、许多语音增强算法都利用了听觉特性,例如模仿噪声掩蔽(Noise Masking)效应,当信号能量低于噪声能量时,令所有滤波器的输出等于噪声电平。6信号子空间的语音增强算法语音矢量的协方差矩阵有很多零特征值,这说明纯语音信号矢量的能量只分布在对应空间的某个子集中。噪声的方差通常假设已知、且严格正定,噪声矢量存在于整个带噪信号张成的空间中。因此带噪语音信号的矢量空间可以认为由一个信号加噪声的子空间和一个纯噪声子空间构成。可利用信号子空间处理技术,消除纯噪声子空间,并对语音信号进行估计,实现语音增强。第三章 减谱法算法的分析及改进3.1传统减谱法假定语音为平稳信号,而噪声和语音为加性信号且彼此不相关
34、。此时带噪语音信号可表示为【9】式中,s(n)为纯净语音信号,d(n)为平稳加性高斯噪声,y(n)为加窗后的带噪信号。因为减谱法不需分析语音信号的频谱特性,所以本文采用矩形窗函数。设y(n)的傅里叶系数为,s(n)的傅立叶系数为,d(n)的傅立叶系数为,由(31),则有。语音增强的任务就是利用估计的噪声功率谱信息,从中得到。由于人耳对相位不敏感,所以只要估计出,然后借用带噪语音相位,进行反傅立叶变换后就可以得到增强的语音。减谱法的原理框图如图31所示:y(n)经FFT变化后,有,由此可得其中,*表示共轭。因为假定噪声为不相关的,所以与独立,互谱的统计平均值为0,而为零均值的高斯分布,所以有图3
35、1 传统减谱法原理框图Figure 3-1 The theory chart of tradition spectral subtraction因为噪声是局部平稳的,故认为发语音前和发语音期间的噪声功率谱相同,所以可以利用发语音前(或后)的“寂静帧”来估计噪声。对于一个分析帧内的时平稳过程,有:其中,为无语音时的统计平均值,即。由此可得原始语音的估计值:定义第k个频谱分量的增益函数 ,以及后验信噪比 , 则(35)可以改写为由(36)可以清楚地看出谱相减的物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数。当信噪比高时,含语音的可能性很大,衰减小。反之,则认为含有语音的可能性小,衰减则增
36、大。应该看到,如果假设具有高斯分布,则谱相减法相当于对作最大似然估计。因为此时有令则有这一结果与公式(35)相同。如果不给定的分布,则此时的最大似然估计式可以用如下方法求得:此时 通过积分消去后,有其中()为第0阶修正贝赛尔函数,令则解方程后就可以得到的估计式。由于存在(),直接求解有一定的困难。为此需要采取一定的简化措施。因为当x3时,有,所以在较高信噪比条件下,解方程可以得到3.2 改进的减谱法传统的频谱减法处理带噪语音有明显的效果,但也造成了容易觉察的语音损伤和失真。最重要的听觉上的失真是产生了被称为“音乐噪声”(Music noise)的类似金属机械的撞击摩擦噪声,这种噪声不能通过再次
37、频谱减法来消除。传统算法导致的失真的根本原因是噪声谱的随机变化。实际噪声谱相对于估计噪声谱的随机偏离会导致谱减结果为负,将负值设为0后,在频谱上会形成小的分离的谱区。这些区域随时间变化很快,在这一帧中存在的在下一帧中就很可能消失,且出现位置随机,难以预测,所以是非稳定的快变噪声,不能用再次的频谱减法进行处理。图32示意了形成“音乐噪声”的孤立频谱区。因为噪声随机性导致的失真是频谱减法的必然结果,所以只能设法减轻“音乐噪声”对听觉造成的不舒适感,为此提出了各种减轻这类噪声的方法。图32 频谱减法造成的频谱失真示意图Figure 3-2 The distortion caused by tradi
38、tion spectral subtractionBerouti等提出了减少“音乐噪声”的两个重要方法13:一是利用人耳的听觉掩蔽效应,规定谱减后的幅度不能小于一定的下限,这样填平了频谱中的谷点区域,在实际计算中,可能会出现小于的情况,因为功率谱不能为负,所以修改(35)为公式中为一个大于0的乘数,由实验确定。函数max(,)表示取两者中较大的。另一种改进的谱减法是在传统功率谱减法的基础上于引入2个参数,即m,n这两个参数为算法提供了很大的灵活性,适当调节这两个参数,可获得比原始减谱法更好的增强效果。可以看出,当m2,n1时即为传统的谱减法。噪声估计值乘以n是基于这么一种考虑:由于在传统减谱法
39、过程中,是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频谱分量。而实际的噪声频谱具有高斯分布,即幅度随机变化范围很宽。做谱减时,若某频率点噪声分量较大,就会有一部分噪声保留下来;若某频率点噪声分量较小,相减的结果将为负值,算法中将负值置为近似零的常数。这样,部分语音信息丢失,形成了 “音乐噪声”。为了解决这一问题,在语音能量较高的区域,令n1,即有意识地多减去一些,这样可以更好的突出语音频谱。当然,此时引起的失真也可能会大一些。调节参数m也可获得类似的效果。图33 减谱法的改进形式Figure 33 The improvement of tradition spectral sub
40、traction3.3 伪倒谱相减法对传统减谱法还有另一种变形,叫做伪倒谱相减法(Pseudo cepstral substraction)。它增加了一步FFT变换,将变换到伪倒谱域中(实际上并不是真正的倒谱)。在伪倒谱中语音和噪声可以更好地进行分离,实验表明其增强效果较好。但由于该算法需要作两次FFT,增加了算法的时间复杂度,比较耗时,实时性差,所以在实际语音系统实现较为困难,一般比较少采用。图34 伪倒谱相减法Figure 34 The pseudo-cepstral subtraction3.4 小结综合前面的讨论,现将频谱减法总结如下【9】:1频谱减法在静音帧时估计噪声幅值谱,并且假设
41、在其后的语音帧里噪声谱基本稳定,从带噪信号谱中扣除噪声谱,并利用人耳“相盲”这一特点,将得到的幅值和带噪信号的相位结合形成语音估计谱。2. 谱减方法的优点在于方法较简单(只需要进行傅立叶正、反变换),而且得到的增强结果和其它更复杂方法的结果相当甚至更好。3该方法会造成“音乐噪声”,这是因为实际噪音谱相对于估计谱的随机变化造成的。可以用多种方法减轻这种噪声,但无法完全消除。4当信噪比较高(20dB)时,谱减方法造成的处理误差比梳状滤波器等参数方法的处理误差大;信噪比下降后,谱减方法优于参数方法;当信噪比非常低 (OdB)时,噪声谱的随机性占主导地位,谱减方法失效。第四章 TDS5410TDK 开
42、发系统简介4.1 硬件开发平台TDS5410TDK简介TDS5410-TDK 是一块可以独立运行的C54x DSP和AD/DA评估板,也是开发和运行C54x系列处理器软件的非常优秀的开发平台。TDS5410-TDK 上使用的DSP芯片是TMS320VC5410,通过调整内核电压,此板可适用于C54x 全系列DSP。外部配有64K16位SRAM,可作程序存储器用;128K8 位Flash(快闪存储器),存放程序和常数(如滤波器系数等)。另外,该板配有数据采集系统,采用TLC320AD50芯片,工作过程直接由C5410通过MCBSP0控制。用户可以直接利用板上集成的USB2.0 接口仿真模块,对系
43、统进行调试。软件开发可以用汇编语言,也可以用C/C+高级语言。4.2 TMS320C54x DSP 概论C54x的体系结构包括中央处理单元、片上存储器和片上外设。所有C54x的中央处理单元都是一样的,不同之处在于片上存储器存储容量的大小、片上外设配置、供电电压、运行速度及芯片的封装等方面【17】。1C54x CPU vs 通用CPU通用处理器中大量的数值运算通过协处理器完成,如Intel的80486实质上是8038680387协处理,这块协处理器主要用于处理浮点运算。C54x CPU针对数字信号处理算法的特点进行优化,提供了专用的硬件处理单元来完成乘加运算,求指数运算等。C54x的乘法器、累加
44、器作为一个整体来工作,它可以在一个机器周期内完成乘加操作。使用C54x DSP处理器进行运算,由于DSP处理器优化了乘加运算的数据路径,并且采用了多总线结构,使CPU可以在一个机器周期内多次访问存储器,因此可在一个机器周期内完成了乘加,取下一个操作数,改变操作数地址操作。因此是否具有专用的硬件乘加单元已成为是否是DSP处理器的主要标志。2冯诺依曼结构 vs 哈佛结构 vs 改进的哈佛结构冯诺依曼结构的指令、数据共用一个存储空间,存储空间统一编址,依靠指令计数器提供的地址来区分数据和指令。哈佛结构将指令、数据的存储空间分开,指令空间和数据空间分开编址,拥有各自的访问总线。因而哈佛结构允许同时访问
45、两个存储空间,存储器吞吐量更大;容易实现流水线,并且没有存储器分配问题。C54x采用改进的哈佛结构,将存储空间分为数据存储空间、程序存储空间和I/0空间。具有一条程序总线,三条数据总线,四条地址总线。在一个机器周期内,最多支持对存储器的四次访问,分别为一次读程序存储器,两次读数据存储器和一次写数据存储器。这大大提高了访问存储器的并行度,从而提高了指令的执行速度。3C54x DSP区别于通用处理器的特性总结CPU采用多总线结构。针对常用的数值运算,提供专门的硬件处理单元,如乘/累加单元、CSSU等。存储管理采用改进的哈佛结构,大大提高了数据的吞吐量。指令系统提供了针对专门的硬件处理单元的指令、单指令重复运算等指令,提高了数字运算的速度。但由于没有提供位操作,存储管理中没有提供页表机制,不提供虚拟存储器支持,不适合完成需要较多控制代码的任务。4.3 HPI接口简介HPI是微机与C54x DSP用来和主机通信