毕业论文基于DSP音视频矩阵控制的研究与实现.doc

上传人:仙人指路1688 文档编号:3973868 上传时间:2023-03-30 格式:DOC 页数:67 大小:3.93MB
返回 下载 相关 举报
毕业论文基于DSP音视频矩阵控制的研究与实现.doc_第1页
第1页 / 共67页
毕业论文基于DSP音视频矩阵控制的研究与实现.doc_第2页
第2页 / 共67页
毕业论文基于DSP音视频矩阵控制的研究与实现.doc_第3页
第3页 / 共67页
毕业论文基于DSP音视频矩阵控制的研究与实现.doc_第4页
第4页 / 共67页
毕业论文基于DSP音视频矩阵控制的研究与实现.doc_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《毕业论文基于DSP音视频矩阵控制的研究与实现.doc》由会员分享,可在线阅读,更多相关《毕业论文基于DSP音视频矩阵控制的研究与实现.doc(67页珍藏版)》请在三一办公上搜索。

1、摘要IAbstractII第1章 绪论11.1 课题研究的目的和意义11.1.1 音视频矩阵概述11.1.2 语音端点检测检测的作用11.2 国内外研究现状31.2.1 端点检测算法的国内外研究现状31.2.2 数字信号处理器(DSP)的发展状况41.3 本论文主要工作内容和任务5第2章 语音端点检测算法的分析及其优化72.1 语音分析的一般方法72.1.1 时域分析法72.1.2 频域分析方法82.1.3 语谱分析法92.1.4 语音端点检测算法的分析92.2 小波分析的基本理论112.2.1 连续小波变换122.2.2 离散小波变换132.2.3 多分辨率分析142.3 子带平均能量方差1

2、62.3.1 噪声与语音的频域差异162.3.2 利用小波分析进行端点检测192.3.3 实验结果比较232.4 小波系数方差242.4.1 语音的1/f小波模型242.4.2 小波系数方差算法实现272.5 算法优化及验证282.5.1 MATLAB仿真282.5.2 仿真结果302.6 本章小结32第3章 音视频矩阵控制系统的硬件设计333.1 系统整体设计333.2 TMS320C5402简介333.3 最小系统模块硬件设计343.3.1 电源电路353.3.2 时钟电路363.4 McBSP模块硬件设计363.4.1 多通道缓冲串行口373.4.2 语音接口芯片TLC320AD50C3

3、93.5 音视频矩阵控制模块403.6 本章小结41第4章 系统软件实现424.1 软件开发工具介绍424.1.1 CCS的组成424.1.2 CCS的主要功能424.2 系统自举加载器的设计434.2.1 选择自举方式444.2.2 Flash的数据组织454.3 McBSP模块软件设计464.3.1 McBSP控制寄存器464.3.2 TLC320AD50C的控制寄存器484.3.3 McBSP模块驱动程序484.4 端点检测的实现504.5 本章小结50结论51参考文献52攻读硕士学位期间发表的学术论文55致谢56毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕

4、业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段

5、保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文

6、的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设

7、计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良

8、中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、

9、理解、表达情况 优 良 中 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年

10、月 日教学系意见:系主任: (签名)年 月 日千万不要删除行尾的分节符,此行不会被打印。在目录上点右键“更新域”,然后“更新整个目录”。打印前,不要忘记把上面“Abstract”这一行后加一空行第1章 绪论1.1 课题研究的目的和意义1.1.1 音视频矩阵概述音视频矩阵在系统中介于音视频源与显示或复用终端之间,负责将不同的音视频信号按用户的选择进行集中调控。最简单的模拟音频矩阵系统是利用电子开关,来实现输入与输出的连接。在现代多媒体会议室,为了满足不同演示场合的需求,通常会具备多种不同的音视频信号源和显示终端,矩阵就可以把提供信号源的设备的任意一路的信号送到任意一路的显示终端上。根据使用的需要

11、,也可以在不同的显示终端上同时显示相同或不同的视频源内容可以做到音频和视频同步或者不同步。这样,既方便控制,又节约成本。但是传统音视频矩阵的功能单一,也不具备扩展功能。随着计算机多媒体技术和数字通讯技术的飞速发展,社会已进入了数字化时代。语音技术和数字信号处理技术的不断发展使矩阵控制从模拟技术向数字技术发展,数字化网络化成为信号处理的必然趋势。本文采用了语音端点检测的算法来实现音视频矩阵的智能语音控制1。1.1.2 语音端点检测检测的作用语音端点检测(Endpoint Detection),也被称为语音活跃检测(Voice Activity Detection,简称VAD),主要应用在语音处理

12、中的语音编解码,语音识别、语音增强及语音监控等领域2。计算机语音识别过程与人对语音识别处理过程基本上是一致的。一个完整的语音识别系统可大致分为四部分:语音信号预处理,语音特征提取,声学模型与模式匹配,语言模型与语言处理。语音识别的对象是语音信号,端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。一般的信号流都存在一定的背景声,而语音识别的模型都是基于语音信号训练的,语音信号和语音模型进行模式匹配才有意义。因此从信号流中检测出语音信号是语音识别的必要的预处理过程。如图1-1所示3。图1-1 语音识别系统流程图Fig.1-1 Speech rec

13、ognition system diagram端点检测有两个过程:1基于语音信号的特征,用能量、过零率、熵(entropy)、音高(pitch)等参数以及它们的衍生参数,来判断信号流中的语音/非语音信号。2在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。在商用语音系统中,由于信号多变的背景和自然对话模式而更容易使句中有停顿(非语音),特别是在爆发声母前总会有无声间隙。因此,这种开始/结束的判定尤为重要。此外端点检测的目的还在于:1减少识别器的数据处理量。可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。2拒绝非语音的信号。对非语音信号的识别不仅是一种资源

14、浪费,而且有可能改变对话的状态,造成对用户的困扰。3在需要打断功能的系统中,语音的起始点是必须的。在端点检测找到语音的起始点时,系统将停止提示音的播放,完成打断功能。在现代通信技术中,凡是涉及到语音通信的,都需要应用到语音端点检测这一技术,并且这一技术的重要性不仅体现在日常语音通信中,更体现在科研和国防建设上。在科研领域,如3G手机等通讯产品的研发上,这一技术是不容回避的问题,要求在不影响接收语音信号质量的前提下,尽可能地降低静音段的数据传输率,此时精确的端点检测就非常必要。另外,有关国家安全保密工作,常需对某些通信线路进行监控,在对众多的线路进行监控时,为了节约人力物力并且不遗漏可疑信息,语

15、音端点检测起到了至关重要的作用。由此可见,语音端点检测技术己经成为语音信号处理领域的重要课题之一,具有重要的理论研究价值和广阔的应用前景。1.2 国内外研究现状1.2.1 端点检测算法的国内外研究现状语音端点检测算法经过几十年的发展,产生了很多方法,而且随着语音技术在现代科学中的重要性不断增大,也不断的有新方法被提出来满足需要。下面是语音端点检测近几年研究的发展介绍。1994年Erdal提出一种基于语音参数的分段方法。对于每个语音帧,计算其较为重要的8个参数:归一化的短时低通能量、归一化的短时高通能量、过零率、低频带的一阶、二阶反射系数、前向后向匹配相关系数及它们的乘积。这些参数描述了此语音信

16、号的重要的信息,继而用一定的算法进行推理,从而可以判定此信号是语音段还是非语音段。1998年Hongtao Hu应用小波变换的技术进行语音端点检测,在降低计算量的同时提高了算法的性能。1999年Sohn等人提出了基于统计模型似然比的端点检测算法。他们采用在离散傅立叶变换(DFT)系数域的统计模型,噪声环境下的语音和噪声谱分布均假设为联合高斯分布。2003年Gazor提出了利用拉普拉斯概率密度函数(PDF)为带噪语音和噪声谱建模,它被证明是一个更好的纯净语音分布的模型。2005年Shin等人提出的广义伽玛分布提供了一个比高斯、拉普拉斯和伽玛分布更好的纯净语音谱的模型。2006年D.Ying等学者

17、提出基于噪声特征空间投影的鲁棒性端点检测算法4。语音与噪音在能量域通常有不同的分布,如果我们能分清含有低功率噪音和高功率语音的成分,即使带噪语音的平均信噪比很低,我们也有可能提取更多可靠的语音信息。由此,首先,用主元分析(PCA)分析噪声观察值的估计协方差矩阵构造噪声特征空间。将带噪语音映射到噪声特征空间。在具有较小特征值得子特征空间中可以找到可靠的信息。与规模较小的特征值。因此,基于可靠信息就可以实现鲁棒性VAD。除了上述几种方法外,近些年来,还有短时分形维数的带噪声语音信号端点检测方法;应用倒谱系数作为判决特征的带噪语音端点检测方法,它包括应用倒谱距离测量轨迹和应用循环神经网络的方法。经过

18、研究发现,倒谱特征参数的语音信号端点检测方法5在噪声环境下具有传统的能量方法无法比拟的优越性。基于HMM模型的检测方法也是语音信号端点检测中的重要方法,用viterbi解码算法对待测信号进行分解,求出语音的哪些语音帧与模型相匹配,从而得出端点所在处。随着小波分析在信号处理领域的广泛应用,也有不少基于小波分析语音端点检测算法被提出,如:选择小波部分子带跟踪信号的能量变化以实现端点检测,将小波变换模极大值应用于信号突变点的检测等6。1.2.2 数字信号处理器(DSP)的发展状况DSP(Digital Signal Processing)是一种具有特殊结构的微处理器,是建立在数字信号处理的各种理论和

19、算法基础上,专门完成各种实时数字信息处理的芯片。与单片机相比,DSP有着更适合数字信号处理的优点。芯片内部采用程序和数据分开的哈佛结构,具有专门的硬件乘法器,广泛采用流水线操作,具有良好的并行特性,提供特殊的DSP指令,可以快速地实现各种数字信号处理算法。DSP发展历程大致分为三个阶段:70年代理论先行,80年代产品普及,90年代突飞猛进。在DSP出现之前数字信号处理主要依靠MPU(微处理器)来完成。但MPU较低的处理速度无法满足高速实时的要求。因此,直到70年代,有人才提出了DSP的理论和算法基础。随着大规模集成电路技术的发展,1982年世界上诞生了首枚通用可编程DSP芯片TI公司的TMS3

20、2010。DSP芯片的问世是个里程碑,它标志着DSP应用系统由大型系统向小型化迈进了一大步。当时的DSP技术在医疗电子、生物电子、应用地球物理等领域获得应用。进入80年代后期,随着数字信号处理技术应用范围的扩大,要求提高处理速度,到1988年出现了浮点DSP,同时提供了高级语言的编译器,使运算速度进一步提高,其应用范围逐步扩大到通信、计算机领域。90年代DSP发展十分惊人,相继出现了第四代和第五代DSP器件。以DSP作为主要元件,再加上外围设备和特定功能单元综合成的单一芯片,加速了DSP解决方案(DSP Solution)的发展,同时产品价格降低,运算速度和集成度大幅提高7。进入21世纪,DS

21、P正向着高速,高系统集成,高性能方向发展。当前的DSP多数基于RISC(精简指令集计算机)结构,且进入了VLSI(超大规模集成电路)阶段。如TI公司的TMS320C80代表了新一代芯片集成技术,它将4个32位的DSP,1个32位RISC主处理器,1个传输控制器,2个视频控制器和50Kb SRAM集成在一个芯片上。这样的芯片通常称之为MVP(多媒体视频处理器)。它可支持各种图像规格和各种算法,功能相当强。而第六代TMSC6000系列则是目前速度最快,性能最高的DSP芯片,该系列芯片的发展中有高至5000MIPS,3G FLOPS的处理性能。按照CMOS的发展趋势,DSP的运算速度提高到1000M

22、IPS是完全有可能的。作为DSP业界公认的龙头,TI一直在技术上独领风骚,为适应不同领域提供了不同的解决方案。TI公司将常用的DSP芯片归纳为三大系列,即TMS320C2000系列(TMS320C2xx),TMS320C5000(TMS320C54xx/C55x),TMS320C6000系列(TMS320C62x/67x)。其中C54xx以其低廉的价格,低功耗和高性能等特点被广泛应用到通信和个人消费电子领域。而以C54xx系列内核为基础的DSP器件TMS320C5402不仅继承了上述优点,而且存储器有三个独立的可选择的空间:程序存储空间、数据存储空间和I/O空间。大小都是64K,总共是192K

23、大小。包括随机存储器(RAM)和只读存储器(ROM)。其中,TMS320C5402所采用的RAM是双存取访问RAM (DARAM)。片上双存取访问RAM被组织在一些块上,因为每个DARAM块能够在每个机器周期中被访问两次,结合并行的体系结构,使得5402得以在一个指定的周期内完成四个并发的存储器操作:一个取指操作、两个数据读操作和一个数据写操作。DARAM总是被映射到数据存储空间上,也可被映射进程序存储空间用于保存程序代码。TMS320C5402的26个CPU寄存器和片上外设寄存器被映射在数据存储空间。所以,TMS320C5402是54系列芯片的典型代表。本文开发的系统就是建立在TMS320C

24、5402的基础上。本论文主要把语音端点检测的算法应用到实际的音视频矩阵控制系统中,借住了TI公司的数字信号处理器TMS320C5402利用语音端点检测的算法实现音视频矩阵的智能控制,符合了音视频矩阵控制的发展现状。1.3 本论文主要工作内容和任务本文以语音端点检测的算法为核心,以小波分析理论为基础,分析讨论了子带平均能量方差和小波系数方差的算法,并将优化算法运用到了基于DSP音视频矩阵控制的系统中,本论文主要工作如下:1掌握语音信号处理的相关理论和处理方法,分析基于小波理论的子带平均能量方差和小波系数方差的语音端点检测算法。本文主要研究音频信号的处理,对视频信号只用做控制和传输。2使用MATL

25、AB软件进行算法仿真,分析实验结果得出并验证优化后的算法。3掌握DSP开发板的工作原理、硬件结构,以TMS320C5402为核心设计硬件电路。4使用CCS开发环境进行软件系统的设计,算法的移植与DSP内核的配置、针对硬件平台对应用程序的编写和实现。5优化系统,对软硬件进行合理配置,提高系统性能。第2章 语音端点检测算法的分析及其优化2.1 语音分析的一般方法计算机语音分析是计算机语音处理的一个重要内容,也是计算机语音合成及语音识别的基础8。计算机合成的语音音质的好坏,计算机语音识别率的高低,都取决于计算机语音分析工作质量的高低。例如:利用带通滤波器组法来进行计算机语音识别,其先决条件是要弄清楚

26、语音的共振峰的幅值、个数、频率变化范围及其分布情况。因此,可以先对语音做频谱分析,得到提高语音识别率的有用数据,并据此来设计计算机语音识别系统的硬件和软件。国外的经验说明,语音分析的工作必须先于其它的语音处理工作。例如,20世纪40年代,贝尔电话实验室的研究人员就对语音分析做了大量、细微且卓有成效的工作,这些工作的成果推动了计算机语音处理的发展。语音分析有时域分析、频谱分析和语谱分析3种方法。这3种方法分别由对应的图来表示:时域分析对应时域波形图、频谱分析对应频域波形图、语谱分析则对应语谱图。2.1.1 时域分析法时域分析是最早被使用的一种方法,也是应用范围最广泛的一种方法。各种电信号可以记录

27、成时域波形,人体的生物电(如脑电、心电等)也可以记录成时域波形。语音的时域分析采用时域波形图,一般来说,横坐标是时间,纵坐标是幅值。时域分析法的特点是:1用时域波形表示的语音信号比较直观,清晰易懂。2时域波形语音信号的数字处理实现起来比较简单。3用时域语音信号进行一些数字处理,可以得到语音信号的一些重要特征参数,为分析语音信号提供了有用的基础。4分析语音信号的时域波形图,所采用的方法较为简单。音频时域波形图如图2-1所示。图2-1 音频时域波形图Fig.2-1 The plot of audio in time domain2.1.2 频域分析方法频域分析是常用的第二种语音分析方法。语音信号的

28、频域分析包含有语音信号的频谱、功率谱、倒频谱、频谱包络、短时间频谱等。常用的频域分析方法有带通滤波器组法、傅立叶变换法、线性预测法等几种。与上文时域图相对应的一幅频谱图如图2-2所示。图2-2 音频频域波形图Fig.2-2The plot of audio in frequency domain频域分析方法的特点是:1语音信号的频谱波形不太容易受外界环境的影响,而时域波形易随外界环境变化。2语音信号的频谱具有非常明显的声学概念,利用频谱分析获得的语音特征具有实际的物理意义。3频域分析容易获得某些重要的音频特征参数,如信息嫡、带宽、共振峰等。4频域分析要用到FFT变换等,有时会需要专门的硬件工具

29、。2.1.3 语谱分析法利用语谱图是第三种语音分析方法。20世纪40年代已经研制成功了语谱仪,将它用于语音分析做出的图叫语谱图。语谱图的横坐标是时间,纵坐标是频率,黑度是第三个坐标,表示音强。语谱图提供有关不同时间不同频率的相对音强的有价值信息,可以在二个维度(时间及频率)上表示出音强的关系。语谱分析法的特点是:1它是时间、频率、音强的三位显示图,同时 也是时域波形与频谱图的结合。这一点是优于前两种分析方法的。2、从语谱图中可以得到一些频域分析参数(如共振峰、基音周期等)随语音发生过程(时间)的变化情况,这是前两种分析方法所没有的。3从语谱图上还可以得到能量随语音发生过程(时间)的变化情况,由

30、此可以区别浊音及清音、辅音(或声母)等的不同种类。4由于语谱图具有不同的黑白程度,形成不同的花纹,这种花纹被称作声纹。与不同的人有不同的指纹类似,不同讲话者的语谱图有不同的声纹,据此可以用于识别讲话者的身份。论文中用到了时域分析方法和频域分析方法,分别提取分析了时域和频域中的一些重要音频特征参数。对于语谱分析方法,目前在语音端点检测的方法中应用还有待进一步的研究。2.1.4 语音端点检测算法的分析随着越来越多的学者对语音端点检测技术的关注,大量新的语音端点检测算法相继被提出。通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足,比如基于自相关相似距离的语音信号端点检

31、测方法,总的来说它与HMM方法的效果大致相同,但是对于结尾的判断却优于HMM模型,这是因为语音大多以浊音结尾,此时自相关法的判断精度较高,但是对于清音开头的语音,尤其是s,ks,n等音节,自相关算法的检测精度就不高。主要几类方法各自的优点与不足列于表2-1。表2-1各类方法优缺点比较Table 2-1 The camparison of characteristic of several methods方法优点缺点短时平均过零率较简单难以识别弱爆破音、摩擦音、末尾的鼻音拖长的元音等短时能量或平均幅度较简单弱摩擦音与结尾时的鼻音易和噪声混淆HMM较准确需要事先训练双门限比较法有效区分语音信号中的

32、浊音和噪声难以区分清音和噪声自相关相似距离对浊音的检测精度较高对开端的清音检测精度不够频带方差较准确在脉冲干扰下门限值需要测定尽管语音端点检测的研究工作迄今已近几十年,取得了辉煌的成就,但是现有的语音识别系统还面临着许多困难,具体表现在以下几个方面:1语音端点检测算法的适应性差。主要体现在对环境条件的依赖性很强,继续要保持测试条件和训练条件的一致性,否则系统性能严重下降。另外,全世界有近百种官方语言,每种语言有多达几十种方言,同种语言的不同方言在语音上相差悬殊,这样,随着语言环境的改变,系统性能也会变得很差。2噪声问题,在强噪声干扰环境下语音端点检测困难。由于语音数据大部分都是在接近理想的条件

33、下采集的,语音一般都要在高保真设备上录制语音,尤其要在无噪环境下录音。然而,当语音处理由实验室走向实际应用时,环境噪声的存在所带来的问题就变得越来越重要。3对于一些能量较低的爆破音、鼻音,如:等,与噪声相混合容易造成误判而截去这些音节的有效成分,对识别结果造成影响。4为了更好的应用,理想的端点检测应具备以下特点:可靠性、鲁棒性、低的存储器和计算资源消耗、实时性、自适应性和不需要对噪音的先验知识等9。基于上述提到的噪声和适应性等问题,论文在研究了两种基于小波的语音端点检测算法的基础上,采用了综合两种算法的方法来解决以上问题。并比较了各自的检测性能,笔者针对不同的噪声类型,采用相应比较合适的端点检

34、测算法从而取得更好的检测结果。2.2 小波分析的基本理论小波变换(Wavelet Transform)是八十年代后期发展起来的应用数学分支,在理论上构成较系统的构架主要是法国数学家YMeyer、地质物理学家JMorlet和理论物理学家AGrossman的贡献。而法国学者IDaubechies和SMallat把这一理论引入工程应用,特别是信号处理领域。Mallat提出的多分辨率分析(multi-resolotion alysis,MRA)的思想,使小波的构造趋于规范。简而言之,小波就是小范围的波。小波的基本思想是通过伸缩平移一组小范围的基,使其时频域窗口均随频率的变化而变化,以实现对低频分量采用

35、大视窗分析,对高频分量采用小视窗分析10。因此,小波变换是一种变分辨率的时频联合的分析方法。函数的小波基有很多类型:有一个函数的二进伸缩与平移所产生的小波基,可成为经典小波;有经典小波基生成的小波包,它可使信号分解为更小的子频带、局部三角基,它可用于有限区间、多元小波、球面小波、用于不规则抽样与流形的第二广义小波等。在小波理论的发展过程中,一些已发展起来的问题经常用小波变换作为理论基础,看成是从不同角度应用小波所得的特例。例如Gabor在1946年提出的Gabor变换,Burt在1982年提出的金字塔式图像压缩编码概念,通信及语言处理中的子带编码(sub-band coding),数字信号处理

36、中的多采样滤波器组(multirate sampling filterbank),计算机视觉中的多分辨率分析等。这些工程应用领域大大丰富了小波变换的实用意义,也促进了小波分析理论的进一步发展。小波变换理论己由一维发展到了多维。二维情况下它除了“显微”能力外还具有“极化”能力(即方向选择性),因而引人注意。它在语音信号处理方面的潜力己经得到确认。目前,小波在信号处理、图像分析、模式识别、通信、地震勘测、量子物理、电磁场、机械工程、流体力学、分形、光学、数值计算、语音识别、机器人视觉等领域都得到了广泛的应用。2.2.1 连续小波变换设是平方可积函数(记作),是被称为基本小波11或母小波(mothe

37、r wavelet)函数。的小波变换如式(2-1)所示。 (2-1)式中是尺度因子,反映位移,其值可正可负。符号代表内积,它的含义(上标*代表取共扼)如式(2-2)所示。 (2-2)式中是基本小波的位移和尺度伸缩。,和都是连续变量,因此成为连续的小波变换(Continuous Wavelet Transform,简记为CWT)。由以上定义,我们可以看出小波变换和傅立叶变换一样,也是一种积分变换,为小波变换系数。我们可以证明,若采用小波满足容许条件,则连续小波变换存在着逆变换。连续小波变换将一维信号变换到二维空间,因此小波变换中存在多余的信息,我们称之为冗余度(Redundancy)。因此小波变

38、换的逆变换公式不是惟一的。从小波分析的角度看,是一族超完备基函数,它们之间是线性相关的,度量冗余度的量称为再生核12如式(2-3),它反映了小波变换的冗余性。 (2-3)在半平面上各点小波变换的值是相关的。处的小波变换值可以表示成半平面上其他各处值的“总贡献”如式(2-4)所示。 (2-4)式中如式(2-5)所示。 (2-5)式中是小波与的内积,反映了两者的相关程度。2.2.2 离散小波变换在实际应用中,为了方便用计算机进行分析、处理,信号都要离散化为离散序列,和也必须离散化,称为离散小波变换,记为DWT(Discrete Wavelet Transform)。为了减小小波变换系数冗余,我们将

39、小波基函数的,限定在一些离散的点上取值。1尺度的离散化。目前通行的办法是对尺度进行幂数级离散化,即令取,此时对应的小波函数如式(2-6)所示。 (2-6)2位移的离散化。通常对进行均匀离散取值,以覆盖整个时间轴。为了防止信息的丢失,我们要求采样间隔满足Nyquist采样定理,采样率大于等于该尺度下频率通带的二倍。所以每当增加l时,尺度增加一倍,对应的频率减小一半,可见采样率可以降低一半而不致引起信息的丢失(带通信号的采样率决定于其带宽,而不是决定于其频率上限)。所以在尺度下,由于的宽度是的,同时也不会引起信息的丢失。这样,就改成如式(2-7)所示,记为。 (2-7)离散小波变换定义为如式(2-

40、8)所示。 (2-8)在实际中,我们一般取,这时。如果采用对数坐标,以为坐标单位,则的离散值如图2-3纵轴所示。图2-3 平面二进离散栅格Fig.2-3 The binary discrete grid of the plane当时,沿轴的相应采样间隔是此时,如式(2-9)所示。 (2-9)我们把轴用归一化,于是有式(2-10) (2-10)此时,对应的为2.2.3 多分辨率分析我们把平方可积函数看成是某一逐级逼近的极限情况。每级逼近都是用某一低通平滑函数对做平滑的结果,在逐级逼近时平滑函数也做逐级伸缩,这就是“多分辨率”,即用不同分辨率来逐级逼近待分析函数。函数空间作逐级二分解产生一组逐级包

41、含的子空间,如式(2-11)所示。 (2-11)式中是从到的整数,值愈小空间愈大。当时,函数空间的划分如图2-4所示。空间剖分是完整的,即当时,包含整个平面可积的实变函数空间。当时,即空间最终剖分到空集为止。图2-4 函数空间的剖分Fig.2-4 The function space partition这种剖分方式使得空间与空间正交,各个之间下次也正交,如式(2-12)所示。 (2-12)进一步要求函数空间剖分还应具有以下两项特性:1位移不变性。函数的时移不改变其所属空间,即如果则有式(2-13)。 (2-13)2二尺度伸缩性。如果,则有表达式(2-14)。 (2-14)2.3 子带平均能量方

42、差子带平均能量方差的语音端点检测算法针对主要由高斯白噪声13组成的背景噪声提出的一种算法。这种算法根据高斯白噪声在小波变换域内各个子带的平均能量变化平缓的特点来判别语音段和噪声段。因此该算法利用噪声与语音频率特性的不同,采用小波变换作为工具来实现语音端点检测。2.3.1 噪声与语音的频域差异在语音的通信和处理过程中,常伴随有噪声的加入。由此看来,分析与研究语音信号的处理,总离不开对信号与噪声的分析。信号在传播过程中会被各种加性噪声所干扰,加性噪声虽然独立于有用信号,但它却始终干扰有用信号,因而不可避免地对语音信号造成危害。加性噪声(简称噪声)的来源,一般可分为人为噪声、自然噪声和内部噪声。人为

43、噪声来源于由人类活动造成的其他信号源,例如:外台信号、开关接触噪声、工业的点火辐射及荧光灯干扰等;自然噪声是指自然界存在的各种电磁波源,例如:闪电、大气中的电暴、银河系噪声及其他各种宇宙噪声等;内部噪声是系统设备本身产生的各种噪声,例如,在电阻一类的导体中自由电子的热运动(常称热噪声)、真空管中电子的起伏发射和半导体中载流子的起伏变化(常称为散弹噪声)及电源哼声等14。某些类型的噪声是确知的,例如电源哼声、自激振荡、各种内部的谐波干扰等。虽然消除这些噪声不一定很容易,但至少在原理上可消除或基本消除。另一些噪声则往往不能准确预测其波形。这种不能预测的噪声统称为随机噪声。随机信号与随机噪声均可归纳为依赖于时间参数的随机过程,这种过程的基本特征是,它是时间的函数,但在任一时刻上观察到的值却是不确定的,是一个随机变量。随机过程的统计特性是通过它的概率分布或数字特征加以表述的。表示一个随机过程,则在任意一个时刻上是一个随机变量。显然,这个随机变量的统计特性可以用分布函数或概率密度函数去描述,我们称式(2-15)为随机过程的一维分布函数。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号