基于DSP的语音钥匙实验报告.doc

上传人:laozhun 文档编号:2888275 上传时间:2023-03-01 格式:DOC 页数:41 大小:962.50KB
返回 下载 相关 举报
基于DSP的语音钥匙实验报告.doc_第1页
第1页 / 共41页
基于DSP的语音钥匙实验报告.doc_第2页
第2页 / 共41页
基于DSP的语音钥匙实验报告.doc_第3页
第3页 / 共41页
基于DSP的语音钥匙实验报告.doc_第4页
第4页 / 共41页
基于DSP的语音钥匙实验报告.doc_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《基于DSP的语音钥匙实验报告.doc》由会员分享,可在线阅读,更多相关《基于DSP的语音钥匙实验报告.doc(41页珍藏版)》请在三一办公上搜索。

1、DSP课程设计实 验 报 告实验题目: 基于DSP的语音识别 学生姓名:任课教师: 2015 年 6 月 8 日摘要:基于DSP芯片为控制核心,设计了语音钥匙,有效地解决了高性能与低成本间的矛盾。系统的硬件部分包括数字信号处理芯片、音频CODEC模块、电源模块、滤波电路、JTAG 仿真接口等几大模块,系统的软件部分介绍了语音钥匙的基本原理,阐述了DSP实现技术,探讨并验证小波变换算法比傅里叶变换算法在提高语音钥匙系统性能应用中的有效性。该系统资源丰富,电路兼有模拟和数字信号接口,可以作为一个独立的模块应用于其他电路,方便地扩展其应用。关键词:DSP 语音钥匙 小波变换Design of Spe

2、ech Key System Based on DSPAbstract: The design of speech key system is based on the DSP chip, which solve the contradiction between high performance and low cost effectively. The part of sampling circuit is composed of Digital signal processing chip, voice-frequency circuit, filtering circuit, simu

3、lation of JTAG interface. The part of software introduces the fundamental theory of speech recognition, explaining the DSP realization technology of speech recognition. The system is rich in resources and the circuit provides interfaces with analog and digital signal, and could be taken as an indepe

4、ndent module to be used for other electronic circuits, making it convenient to expand its application.Key words:DSP;speech key;wavelet transform引言 语音信号处理技术作为目前发展最为迅速的一个信息科学研究领域,其研究范围涉及一些比较前沿的科研课题,所得研究成果也具有同样重要的研究与应用价值。近年来,随着数字信号处理与语音钥匙算法不断发展,许多过去语音处理算法仿真和研究中出现的难题都基本得到解决。不管要求多么复杂,语音信号处理系统都可以集成在一块数字信号

5、处理器(DSP,Digital Signal Processing)芯片上,处理速度也随着DSP运算速度提升而飞速增长,因此语音信号处理技术应用越来越广泛,也越来越为人们所关注。语音信号处理研究范围包含了许多学科,如语音学、语言学、数字信号处理、电子通信、计算机技术、模式识别等。因此,研究语音钥匙系统除了加强语音钥匙系统本身的学习外,还需要了解很多其他方面的知识,一个好的语音钥匙系统应当考虑到输入设备、说话人的状态、说话环境、硬件平台、识别算法等多方面的因素。在实际应用中,语音钥匙应用范围非常广泛,各行各业都可以见到语音钥匙系统,例如通讯系统语音拨号、银行查询系统、家庭智能玩具、酒店服务、股票

6、证券交易、汽车导航设备、工业控制等等。该系统以DSP硬件平台作为载体,以动态时间规整(DTW,Dynamic Time Warping)高效算法作为语音钥匙核心算法,实现特定人、孤立词和小词汇量语音钥匙,可以实际应用到门禁系统中身份确认中去。一、 设计内容与任务语音信号处理是利用数字信号处理技术对语音信号进行处理的一门学科,其核心技术包括语音合成、语音钥匙、语音测评等,是现代人机交互的重要方式之一,具有广泛的应用前景。近年来随着互联网和通信的发展,信息检索也呈现多样化,如文字检索、语音检索和基于内容的图像检索,其中语音检索将成为跨领域资源整合的纽带,而语音检索的关键在于进行语音匹配与识别。本实

7、验设计一个基于DSP处理系统的语音钥匙,实验内容如图1所示:图1 实验内容设计基础要求:利用Matlab将采集到的一段语音进行仿真处理,实现基于语音相关匹配的较为简单的语音钥匙的功能。在CCS编译环境下利用C语言编写语音钥匙程序,并在BJTUDSP5502实验系统平台上实现。若语音钥匙开启,将指示灯D1进行1Hz闪烁(慢闪),并进行相应的语音提示。未开启,将指示灯D1进行3Hz闪烁(快闪),并进行相应的语音提示。二、 原理及方案1. 基本原理简单的语音钥匙:对采集到的语音信号和已存入的语音信号进行相关运算,相关度较大时语音钥匙开启。由话筒输出的语音信号首先经过放大电路和前置滤波电路,将处理后的

8、语音信号(模拟量)由音频模块进行A /D转换和语音数据的编码,再将编码数据送到DSP中进行处理,最后进行训练与识别。识别结果通过显示器读出,或将识别结果通过音频解码器进行D /A转换后经过后置滤波电路,通过扬声器放音。2. 实验方案实验方案自行设计,利用BJTU-DSP5502实现可参考如图2所示方案:图2 参考实验方案流程整个系统以BJTU-DSP5502为核心,首先采集语音信号,然后对语旨信号进行数字处理,其处理过程都是在BJTU-DSP5502上实现的,整个处理过程主要包括语音信号的预处理、端点检测、特征提取和模式匹配四部分。其框图如下:图3 数字信号的处理过程1) 语音钥匙系统的基本流

9、程如图4所示,包括预处理、特征提取、模型训练和识别几个环节。图4 语音钥匙流程图2) 系统硬件电路设计2.1 工作原理由话筒输出的语音信号首先经过放大电路和前置滤波电路,将处理后的语音信号(模拟量)由音频模块进行A /D转换和语音数据的编码,再将编码数据送到DSP中进行处理,最后进行训练与识别。识别结果通过液晶显示器读出,或将识别结果通过音频解码器进行D /A转换后经过后置滤波电路,通过扬声器放音。2.2 系统硬件结构话筒扬声器音频编解码前置滤波后置滤波BJTU-DSP 5502JTAGLCD显示FLASHEPROM复位晶振电源图5 系统硬件结构图系统的硬件电路图包括:DSP核心电路、电源电路

10、、语音信号采集电路、LCD液晶显示电路、JTAG电路和存储器电路,具体分析如下:DSP核心电路BJTU-DSP 5502, 的主要特性如下:(1)流水线操作,指令周期为Ins,操作速率可达100MIPS。总线结构包含8条16bit的总线,其中1条程序总线,3条数据总线和4条地址总线,具有很好的并行性。功耗较低,片内IO电压33V,内核电压18V。(2)CPU结构包括:40bit算术逻辑单元(ALU),包括40位桶形移位寄存器,2个独立的40位累加器;2个40Bit的累加器,分为保护位,高位字,低位字;17x17位乘法器,40位加法器:比较选择和存储单元,数据地址产生器,程序地址产生器。(3)丰

11、富的片内外设:通用IO引脚XF和BIO:硬件定时器;软件可编程等待状态产生器;可编程块开关模块;增强型并行主机接IE(HPl816);两个多通道缓冲串口(MCBSP);带锁相环PLL的时钟发生器;DMA控制器;IEEEll491标准JTAG接口。23语音信号采集电路语音信号采集电路是语音钥匙系统中的核心部分,其作用是将语音信号采集提供给DSP,为DSP处理语音信号做好准备。1)TLV320AIC23相关介绍TLV320AIC23是TI公司推出的一款高性能立体声音频编解码器【l 91,内部含有耳机输出放大器,可以选择line in和mie等不同输入方式。该器件中数模转换器和模数转换器都集成在芯片

12、内部,可在8KHZ至96KHZ的采样率下提供16bit到32bit四种不同的采样数据。同时,TLV320AIC23还具有很低的功耗,回放模式为23mW,节电模式仅为151xw。因此,TLV320AIC23是一款实用性非常高的音频编解码器。TLV320AIC23通过外部处理器对其内部寄存器进行编程配置,其配置接口支持SPI总线接口和12C总线接口。数据传输格式支持右判断模式、左判断模式、12C模式和DSP模式4种方式。其中DSP模式专门针对TI的DSP设计。5502的多通道缓冲串口McBSP可以按照SPI总线接口模式配置,该模式下其串行数据传输格式与AIC23的DSP模式下的格式兼容,此外,这两

13、款芯片的I0电压兼容,从而使得二者可以无缝连接,中间也无需进行电压转换,二者的连接也非常的简单方便。2.4 JTAG接口电路JTAG是一种国际标准测试协议(IEEE 11491兼容),主要用于芯片内部测试与调试,现在多数的高级器件都支持JTAG协议。标准接口是4线:TMS、TCK、TDI、TDO,分别为模式选择、时钟、数据输入和数据输出线。系统板留有一个TI公司定义的DSP标准JTAG接口,可以跟通用TI系歹IJDSP仿真器连接。通用TI系YUDSP仿真器插头的第六孔已填有针,所以板上JTAG接口的第六针已被拨开,只有正确连接才能吻合,否则不能吻合。2.5 DSP与AI C23接口配置5502

14、有2个多通道缓冲串口McBSP0和McBSPl,通过6个引脚使其的数据和控制线与外部设备相通。系统数据通过McBSP的DR和DX引脚传输,同步信号则由CLKX,CLKR,FSX,FSR引脚实现连接。McBSP可以配置为SPI模式,其串行数据传输格式与AIC23的DSP模式兼容。5502与AIC23的接口配置包括AIC23初始化、McBSP0接口配置和McBSPl接口配置。2.6 程序装载与调试系统板上电后能从外部扩展存储器FLASH中读取程序的过程称为上电自举(Bootloadder),DSP内部存储器装载有BOOT程序,在DSP上电复位后,将外部FLASH装载到DSP内部RAM中运行。装载的

15、方式有很多,本文选择HPI口输入方式,DSP上电复位后,BOOT程序从ROM跳转到外部FLASH,系统将会自动加载外部FLASH中的程序,此时系统板便可以独立运行了。完成相关硬件驱动后便可开发语语音钥匙算法的程序了,DSP支持汇编语音和C语言。汇编语言与硬件关联最近,语言精简,执行速度快、效率高,但是可读性较差,不易移植,一般用在与硬件进行数据交换来提高运算效率;C语言可读性高,便于调试与移植,但是执行效率相对汇编要低。因此,针对这两种语言的优缺点,本系统采用以C语言为主,结合汇编语言来编写程序,这样既可以提高程序的运算效率又增加程序的可移植性。调试在PC机上CCS33环境下进行,目标板上有J

16、TAG接口专门用来在线调试。编程语言以C语言为主要编程语言,与硬件联系较紧、运算量较大的部分采用汇编浯占设计调试DSP硬件平台基本步骤为:首先安装CCS3.3(5000)硬件驱动,插上仿真器。然后设置CCS SETUP,选择处理器TMS320C5502,端口为0x378,然后启动CCS3.3,在CCS3.3中打开语音钥匙程序即可开始调试。系统软件设计语音钥匙程序系统框图语音钥匙程序是整个语音钥匙系统的核心部分,一般是根据识别的类型而选择一种满足系统要求的识别算法,分析出这种识别算法的语音特征参数,按照相应的准则与样本模板匹配从而得出识别的结果。语音钥匙系统框图如图6所示。图6 语音钥匙系统语音

17、信号预处理在语音信号处理中,预处理通常包含AD转换、预加重、加窗、端点检测等基本步骤。1)语音信号AD转换语音信号是随时间和幅度而变化的一维信号,语音信号处理是对语音信号进行数字处理,所以在对语音信号处理之前需要将语音信号数字化,即进行AD转换。一个完整的模数转换必须包含有采样、保持、量化和编程四个基本过程,一般在运算过程中将采样于保持简化成一步,量化和编程简化成一步。由奈奎斯特采样定理可知,采样频率要大于或者等于原始信号频率的2倍,才能在采样的过程中保持信号的完整性。本系统采用16位AD转换芯片TLV320AIC23,由于适用于孤立词的识别,因此采样频率为8kHz。2)语音信号的预加重受声道

18、模型中声门激励和嘴唇辐射影响,语音信号的高频端在大约800Hz以上会产生衰减,斜率通常为6dB倍频,所以在求语音信号的高频成分时比低频信号难求的多。为了消除这种现象,提升语音信号中的高频部分,使整个频带中保持信号频谱的平稳,便于后期频谱分析,在分析语音信号之前应对原始语音信号进行预加重来滤除低频干扰。可采用一个一阶滤波器,滤波器的函数为:换算成时域系统差分方程是:其中X(n)为预加重前的语音信号,H(z)为一阶滤波器函数,Y(n)为预加重后的语音信号,a为滤波器系数,本文选095。3) 语音信号加窗处理加窗处理其实分为两个步骤:分帧与加窗。语音信号是随着时间而变化的非平稳信号,通常一小段时间间

19、隔内,语音信号才可以看成保持相对稳定。一般认为在10ms到30ms之间的语音信号为平稳信号,由于本系统采用的采样频率为8kHz,为了提高处理速度,取较小的帧长和帧移,所以取帧长为20ms,帧移为10ms。对每一帧语音进行加窗是为了减少在每一帧语音的开始和最后的不连贯性。加窗的函数为:其中F(n)为加窗后的第n帧信雩_s(m)为原始语音信号,W(nm)为窗函数,n和m代表帧数。在语音信号处理中常见的窗函数,汉明窗低通特性较平滑,旁瓣高度最低,所以汉明窗使用的范围最为广泛。因此,由于以上原因,本系统的窗函数选用汉明窗。汉明窗:4)语音信号端点检测端点检测,主要用来检测语音钥匙中样本信号的起点和终点

20、,因此,又被称为起止点检测。在语音信号处理中,语音信号的数据量非常庞大,如果对全部语音信号都加以处理,不仅增加系统处理器的负荷,还会影响系统的识别率。为了将有用的语音信号从系统采集的原始语音信号中提取出来,则就要对采集的语音信号进行分析,将语音的信号段和噪音段从语音信号中检测区分开来,从而准确的检测出语音段的起点与终点,去除从语音信号中无声段,极大的减少了数字信号处理器的运算量和处理时间,提高系统的性能和识别率。端点检测是语音信号预处理的核心部分,在整个语音钥匙过程中也处于非常关键的位置。端点检测位于语音钥匙较前端,处在整个语音钥匙算法的重要位置。可以说语音钥匙实现的效果不仅仅取决于识别算法的

21、优劣,有许多因素与之相关,其中端点检测就是一个很重要的指标,其主要作用是检测语音钥匙中样本信号的起点和终点。 (1) 语音信号的短时能量与短时过零率语音信号另外一个重要的特性就是发音的能量不同,清音能量较小,而浊音的能量较大。因此,可以通过分析语音信号的短时能量或短时平均幅度来分析语音的能量特性。短时能量的函数如下:其中E(n)为语音信号的短时能量,h(n)=w(n)为窗函数,N为窗长,x(m)为语音信号序列。短时平均幅度函数如下:其中S(m)为语音信号序列,W(n)为窗函数。由于清音的能量小于浊音,所以可以用短时能量或者短时平均幅度来判断清音和浊音,区分有声段和无声段。语音信号短时过零率的函

22、数为:其中符号函数sgn的定义为:(2)基于双门限比较法端点检测基于双门限比较法端点检测的步骤如下:首先,设置高门限EH、低门限EL、过零率门限值Zik。其次,利用高门限EH找到语音段中能量较高的部分,起点端为F1:终点端为B1: 其中E0(i)为起点端时刻i帧的短时能量,N为语音总长度。接着,由EL、Zik、F1、B1来最终确定语音信号的起始端F2:终点端B2为:最后可以得到检测到的语音长度为L=B2-F2。2语音信号特征参数提取经过语音预处理中端点检测后,已经将语音信号中清音、噪音区别出来,这时就可以对所需语音信号进行特征参数提取,在分析语音信号的同时去掉无用信息,这些信息又比较占空间,最

23、后获得对识别算法有用的重要参数。在提取过程中,并不是很广泛的提取,毕竟语音钥匙系统的内存有限,为了减少处理器的运算量,提高识别率,要求所提取的特征参数能充分代表说话者的语音特征,与其他的说话者有很好的区分性,各个特征参数之间能相互独立。此外,为保证语音钥匙便于实现,所提取的特征参数应该便于计算。语音信号的特征参数分为两种:时域特征参数,在一帧短时信号中由各个时域采样而直接组成一个参数矢量,如基音周期、短时平均能量等;频域特征参数则是在一帧短时信号经过了些变化后再组成的参数矢量,如Mel频率倒谱系数、LPC倒谱系数、短时频谱等。线性预测倒谱系数(LPCC)是基于人的发声机理原理,使系统的传递函数

24、的形式和全极点数字滤波器达到一致,由于语音信号采样点之间具有相关性,从而现在某个时刻或将来的某个时刻的语音信号的抽样能够用之前的若干语音抽样的线性组合来估计。得到语音信号的实际采样值和线性预测采样值间的均方误差(MSE),令MSE最小可得到线性预测系数(LPC),最后求出线性预测倒谱系数(LPCC)。美尔频率倒谱系数(MFCC)是基于入耳听觉特征,将语音的产生与之相结合的一种特征参数。该特征参数充分考虑了人耳的听觉特性,接着将频谱转化成基于Mel频率的非线性频谱,最后转换到倒谱域上。线性预测倒谱系数(LPCC)参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声

25、性能较差。而美尔频率倒谱系数(MFCC)因为模拟了人的听觉特性,且没有任何前提假设。由于汉语孤立词的识别过程中对辅音需要有很高的分辨力,同时MFCC参数具有识别性能和抗噪能力,所以,在汉语语音钥匙中MFCC参数的性能优于LPCC参数,本文所采用的是美尔频率倒谱系数(MFCC)。美尔频率倒谱系数(MFCC)基本原理美尔频率倒谱系数(MFCC)是基于人体人耳昕觉特征,并将语音与之结合的一种特征参数。对于不同频率的语音信号,人耳有不同的感知能力,实验发现,语音信号频率在1000Hz以下,人耳的感知能力与语音频率成线性关系,在1000Hz以上,人耳的感知能力与语音频率成对数关系。因此,人们为了表达这两

26、种特殊的不同的对应关系,引出了美尔(Mel)频标的概念,即1000Hz的感知程度的11000为1Mel,对应的关系如下:其中,fmel为Mel频标,fHz为语音信号频率。在实际语音信号处理中,MFCC的计算过程较复杂,步骤较多,MFCC的基本步骤如下:下面详细介绍MFCC具体的计算过程:(1)先对语音信号预处理:预加重、分帧加窗、端点检测;(2)通过快速傅里叶变换将预处理后的每一帧语音信号转化为频域信号Pi(f),并计算短时能量谱Pi(w):(3)通过一组(本文取24个)按Mel频标分布的三角带通滤波器得到滤波器组Hm(k),将关系转化为:(4)能量谱P(w)通过Mel滤波器可以计算其输出,取

27、帧的算法是以中心频率为基线在1000Hz上下范围各取12个:其中Hm(k)表示K个Mel滤波器组,k表示第k个滤波器,K表示滤波器总个数。Hm(k)的定义如下:(5)滤波器组输出后,再用DCT离散余弦变换,便可求得MFCC系Cma(n):由于标准倒谱参数设定不同帧的语音不相关,所以只能得到他们的静态参数,但是实际上,他们是相关的,而且在变化时是连续的,为此引入一阶差分Mel倒谱参数:其中C,d为一帧语音参数,k为常数。一般将MFCC参数与差分参数合成一个向量作为一帧语音信号的特征参数。3模型训练与识别语音钥匙的过程实质上就是模式匹配的过程,在模型训练匹配的过程中,先从已知模板中获得模型参数,再

28、按照相似度量法则,将未知模式与参考模式库匹配而获得最佳匹配。目前,比较流行的识别算法主要有动态时间规整(DTW)、隐马尔可夫模型(HMM)以及基于人工神经网络(龇州)的识别算法。动态时间规整(DTW)是较早流行的语音钥匙算法,它应用动态规整方法,将时间规整与距离测度计算结合起来,有效的解决了孤立词识别时语速不均所造成的发音长短不一的难题,是一种经典的非线性时间规整模板匹配算法。由于动态时间规整(DTW)对端点检测的要求较高,而端点检测会因为不同的语音情况产生不同的变化。因此,在将未知模板与参考模板比较的时候,不能直接进行比较,而是需要找到最佳匹配点。由于DTW算法简洁,计算简单,对于孤立词识别

29、率高,所以,DTW被广泛运用于孤立词语音钥匙系统中。DTW的基本算法虽然简单方便,但是运算量相对较大。实际匹配中,匹配的路径已经规定了路径的斜率,许多交叉点式该路径到达不了的。在这个平行四边形区域外的交叉点是不需要考虑在内的,因此,也不需要保存所有帧的匹配距离矩阵。DTW的高效算法【删的主要目的在于提高运算效率,在实际计算过程中,将路径主要分成了3个部分:其中Xa=1/3(2M-N),Xb=2/3(2N-M),Xa和Xb为整数。分成的三部分在网络中的关系如图7所示。其中,M和N满足2MN3,2NM2。若超出此范围则不能匹配,X轴与Y轴上的信号帧相比较,得出J,曲,的计算公式:图7 DTW算法网

30、络关系图当XaXb时,分成的三部分为(1,Xb),(Xb+1,Xa),(Xa+l,N)。在这种情况下X轴和所要比较的Y轴上的帧数会出现不同,积累距离如下:其中,D表示累积距离,d表示帧匹配距离。DTW算法先读入参考模式和待测模式数据,若两个模式数据相差较大,将返回一个很大的数realmax,则认定其匹配失败,否则计算矩阵距离dist,inp为待测模式,rep为参考模式,result中为最终结果。然后,将匹配区域划分为三段:D1、D2、D3,待测模式和参考模式都结束时,返回距离结果。4语音训练与识别假设某个特定词,第一遍的特征矢量序列为X1=x11,x12,x13,x1T1),另外一遍的特征矢量

31、为X2= x21,x22,x23,x2T2),由DTW算法可以得出他们的失真得分d(X1,X2),当d(X1,X2)低于某个门槛值时,便可以认为两者的一致性较好,求得X1和X2的平均时间弯折可以得到一个新的模板Y=y1,y2,yTy),即为鲁棒性训练模板。在语音钥匙过程中,采用双门限比较法来进行端点检测,已经获得语音信号确定的起始点和终止点。将获得的语音词条存入模板库,这些词条可以称为参考模板:R=R(1),R(2),R(m),R(M),其中R为参考模板的标号,m为参考语音帧的标号,当m=1时指语音信号的起始帧,当m=M时指的是语音信号的终止帧,R(m)为语音信号第m帧时的特征矢量,M为参考模

32、板语音帧的总数。需要识别的词条称为测试模板:T=T(1),T(2),T(n),T(N),其中,T为测试模板的标号,n为测试语音帧的标号,当n=1时指语音信号的起始帧,当n=N时指的是语音信号的终止帧,T(n)为语音信号第n帧时的特征矢量,N为测试模板语音帧的总数。参考模板和测试模板应当采用同样的帧长、帧移和窗函数。三、 基于MATLAB软件的仿真1. 语音信号采集在Matlab环境中语音信号的采集可使用wavrecord(n,fs,ch,dtype)函数录制,也可使用Windows的“录音机”程序录制成.wav文件然后使用wavread(file) 函数读入。为了进行批量的的训练和识别处理,本

33、系统的训练语音和识别语音全部使用Matlab录制。2. 分帧语音信号是一种典型的非平稳信号,它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化。但研究发现,语音信号在短时间内频谱特性保持平稳,即具有短时平稳特性。因此,在实际处理时可以将语音信号分成很小的时间段(约1030ms5,7),称之为“帧”,作为语音信号处理的最小单位,帧与帧的非重叠部分称为帧移,而将语音信号分成若干帧的过程称为分帧。分帧小能清楚地描绘语音信号的时变特征但计算量大;分帧大能减少计算量但相邻帧间变化不大,容易丢失信号特征。一般取帧长20ms,帧移为帧长的1/31/2。在Matlab环境中的分帧最常用的

34、方法是使用函数enframe(x,len,inc),其中x为语音信号,len为帧长,inc为帧移。在本系统中帧长取240,帧移取80。3. 预加重对于语音信号的频谱,通常是频率越高幅值越小,在语音信号的频率增加两倍时,其功率谱的幅度下降6dB。因此必须对高频进行加重处理,一般是将语音信号通过一个一阶高通滤波器1-0.9375z-1,即为预加重滤波器。其目的是滤除低频干扰,特别是50Hz到60Hz的工频干扰,将对语音钥匙更为有用的高频部分进行频谱提升。在计算短时能量之前将语音信号通过预加重滤波器还可起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。预加重滤波器在Matlab中可由语句x=f

35、ilter(1-0.9375,1,x)实现。4. 加窗为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的Gibbs效应。用的最多的三种为矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。其窗函数如下,式中的N为窗长,一般等于帧长。矩形窗: 汉明窗(Hamming):汉宁窗(Hanning):WR =1 (0nN-1)0 (Other)WHM =0.5-0.46cos(2n/(N-1) (0nN-1)0 (Other) WHN =0.5-0.5cos(2n/(N-1) (0nN-1)0 (Other)(4-1)(4-2)(4-3)窗口的选择非常重要,不同的窗口将使能量的平均

36、结果不同。矩形窗的谱平滑,但波形细节丢失;而汉明窗则刚好相反,可以有效克服泄漏现象,具有平滑的低通特性。因此,在语音的时域处理方法中,一般选择矩形窗,而在语音的频域处理方法中,一般选择汉明窗或汉宁窗。在Matlab中要实现加窗即将分帧后的语音信号乘上窗函数,如加汉明窗即为x=x.*hamming(N)。本系统中的端点检测采用时域方法故加矩形窗,计算MFCC系数时加汉明窗。5. 端点检测在基于DTW算法的语音钥匙系统中,无论是训练和建立模板阶段还是在识别阶段,都先采用端点检测算法确定语音的起点和终点。语音端点检测是指用计算机数字处理技术从包含语音的一段信号中找出字、词的起始点及结束点,从而只存储

37、和处理有效语音信号。对汉语来说,还可进一步找出其中的声母段和韵母段所处的位置。语音端点检测是语音分析、合成和识别中的一个重要环节,其算法的优劣在某种程度上也直接决定了整个语音钥匙系统的优劣。进行端点检测的基本参数主要有短时能量、幅度、过零率和相关函数等。端点检测最常见的方法是短时能量短时过零率双门限端点检测,近年来在此基础上发展出的动态窗长短时双门限端点检测方法也被广泛使用。1) 短时能量语音和噪声的主要区别在它们的能量上,如图5-1(III) 和图5-2(III)所示。语音段的能量比噪声段的大,语音段的能量是噪声段能量叠加语音声波能量的和。对第n帧语音信号的短时能量En的定义为: (5-1)

38、xn为原样本序列在窗函数所切取出的第n段短时语音,N为帧长。因为在计算时使用的是信号的平方,故将En作为一个度量语音幅度值变化的函数有一个缺陷,即对高电平非常敏感。因此在许多场合会将En用下式来代替: (5-2)这样就不会因为取平方而造成信号的小取样值的大取样值出现较大差异。本系统中窗函数为WR,N为240。2) 短时过零率短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号则称为过零。过零率就是样本改变符号次数,定义语音信号寿(m)的短时过零率Zn为: (3-3)1 (x0)-1 (x0)sgnx=(

39、3-4)清音的能量多集中在较高的频率上,它的平均过零率要高于浊音,故短时过零率可以用来区分清音、浊音以及无声。图3-1(II)和图3-2(II)分别为数字0的训练语音00.wav和数字4的训练语音40.wav的短时过零率。从图中可以看到清音s的过零率明显高于其后的i音,有声段过零率明显高于无声段,但在鼻音阶段过零率迅速滑落到无声水平而能量值则是缓慢下滑。在实际应用时并不能通过式3-3直接计算过零率,因为在无声段噪声使语音波形在0值附近来回摆动,导致计算出的过零率和有声段的区别并不十分明显。比较简单的解决方法是设定一个差的阈值,使不仅xn(m)*xn(m-1) 。在本系统中经多次试验取定=0.0

40、1。3) 双门限端点检测双门限端点检测顾名思义需要两级检测,即短时能量检测和短时过零率检测。在开始检测之前需要设定4个门限,即分别为短时能量和短时过零率各设置一个高门限和一个低门限:EHigh、ELow和ZHigh、ZLow。整个语音端点检测分为四部分:静音段、过度段、语音段、结束段。在静音段中如果能量或过零率有一个超过了其低门限,则认为进入了过度段。在过度段中,由于参数数值较小,还不能确定是否真的进入语音段,只有两个参数的其中一个超越了高门限才被认为是进入语音段。当参数降至低门限则认为进入结束。此外,还有两种可能会引起端点检测的误判:一是短时噪音引起的误判,此时则需要引入最小语音长度门限进行

41、噪声判定,即语音段时间小于一定数值则认定为是噪声,重新回到静音段,本系统设为20ms;二是语音中字与字的时间空隙引起的误判,此时需要设定最大静音长度门限来降低识别的错误率,本系统所训练和识别的都为单字,故无需设置此门限。在双门限端点检测中4个门限的设定至关重要,门限设定的好坏将直接影响端点检测的结果。门限值的设置还没有一个通用可靠的方法,需要根据经验和特定环境进行调整。常见的方法有最大值乘上某个比率、中位值乘上某个比率、最小值乘上某个常数、前三帧平均值乘上某个常数等。本系统中EHigh,ELow,ZHigh,ZLow的取值分别为:EHigh=max(min(amp)*100,mean(amp)

42、*0.6,max(amp)*0.4); ZHigh=max(round(max(zcr)*0.1),5);ELow=min(min(amp)*100,mean(amp)*0.6,max(amp)*0.4); ZLow=max(round(mean(zcr)*0.1),3);4) DTW算法改进DTW算法虽然简单有效,但是动态规划方法需要存储较大的矩阵,直接计算将会占据较大的空间,计算量也比较大。由图5-3的局部路径约束可知DTW算法所动态搜索的空间其实并不是整个矩形网格,而是局限于对角线附近的带状区域,如图5-4所示,许多点实际上是达不到的。因此,在实际应用中会将DTW算法进行一些改进以减少存

43、储空间和降低计算量。常见的改进方法有搜索宽度限制、放宽端点限制等。搜索宽度限制以图5-3中的局部约束路径为例,待测模板轴上每前进一帧,对于点(in,im)只需要用到前一列(in-1,im)、(in-l,im-l)和(in-1,im-2)三点的累积距离,也就是im-1和im-2两行的累积距离。整个DTW算法的计算过程递推循环进行,也就是每一行中的格点利用前两行格点的累积距离计算该点的累积距离的过程。基于这种循环递推计算,只需分配3N的存储空间重复使用,而不需要保存帧匹配距离矩阵和所有的累积距离矩阵。又由于DTW算法的动态搜索宽度局限于对角线附近的带状区域,假设其宽度为width,如图5-4和图5

44、-6,则实际只需分配3width的存储空间即可。图8 带状搜索区域 图9 搜索宽度限制存储空间放宽端点限制普通DTW对端点检测比较敏感,端点信息是作为一组独立的参数提供给识别算法的。它要求两个比较模式起点对起点,终点对终点,对端点检测的精度要求比较高。当环境噪声比较大或语音由摩擦音构成时,端点检测不易进行,这就要求在动态时间规整过程中给以考虑。放松端点限制方法不严格要求端点对齐,克服由于端点算法不精确造成的测试模式和参考模式起点终点不能对齐的问题。一般情况下,起点和终点在纵横两个方向只要放宽2-3帧就可以,也就是起点可以在(1,1),(l,2),(1,3),(2,1),(3,l),终点类似。如

45、图5-6。Ck=(ik, jk)C1=(1, 1)CK=(I, J)j = i - rj = i + r时间规整函数 width ijt1 t2 t3 ti tI TRr1 r2 rj rJ 图10改进的DTW算法原理图在放宽端点限制的DTW算法中,累积距离矩阵中的元素(1,l),(l,2),(l,3),(2,l),(3,1)不是根据局部判决函数计算得到的,而是直接将帧匹配距离矩阵的元素填入,自动从其中选择最小的一个作为起点,对于终点也是从松弛终点的允许范围内选择一个最小值作为参考模式和未知模式的匹配距离。6. MATLAB仿真结果在音频信号处理方面,Matlab提供了wav文件读写函数和声卡

46、的录音和放音函数,利用这些函数可以实现某些语音信号处理工作。语音工具箱voicebox为实现语音钥匙提供了许多实用函数。利用简单的GUI,可以生成一个界面,供演示使用:图7 Matlab的GUI界面点击播放语音钥匙可以播放已经存储好的语音样本,语音钥匙必须与样本匹配才能打开。单击“请录音”后,系统会弹出提示框,提示用户可以开始录音,如果匹配,则会告知“欢迎回来”,否则会告知“您走错了”。同时,为了演示方便,系统还会自动绘制两次语音信号的图像、端点检测结果以及MFCC检测结果。图8 MFCC检测结果四、 基于DSP硬件平台的实现由于本文最终是要设计出基于嵌入式硬件平台的语音钥匙系统,选用DSP芯片BJTU-DSP5502作为核心芯片,用TLV320AIC23作为语音信号采集。软件方面主要包括语音信号预处理,端点检测中采用双门限比较法,使用MFCC作为特征参数,DTW高效算法作为训练与识别,系统已能对特定人、孤立词、小词汇量的词组进行识别。最后,对DTW高效算法在Matlab2006仿真环境进行仿真,给出仿真结果,并分析结果的准确性,将语音钥匙程序包括驱动程序烧写到DSP硬件平台上进行在线调试,检验系统运行是否稳定,各模块工作是否正常。下图为向芯片中烧写程序:图11烧写程序烧写以后开始提示录入语音,先设置语音钥匙,自动检测出语音信号的起点终点和

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号