短时时域处理技术NEW.ppt

上传人:小飞机 文档编号:6319533 上传时间:2023-10-16 格式:PPT 页数:29 大小:418.50KB
返回 下载 相关 举报
短时时域处理技术NEW.ppt_第1页
第1页 / 共29页
短时时域处理技术NEW.ppt_第2页
第2页 / 共29页
短时时域处理技术NEW.ppt_第3页
第3页 / 共29页
短时时域处理技术NEW.ppt_第4页
第4页 / 共29页
短时时域处理技术NEW.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《短时时域处理技术NEW.ppt》由会员分享,可在线阅读,更多相关《短时时域处理技术NEW.ppt(29页珍藏版)》请在三一办公上搜索。

1、第 4 章 短时时域处理技术,数字语音处理,学习内容,语音信号的预处理语音信号的短时处理方法短时时域处理技术短时时域处理技术应用,第一节 语音信号的预处理,数据结构:将数字化的信号用循环队列的方式来存储。以便用一个有限容量的数据结构来处理数据量极大的语音数据,依次处理后抛弃。预加重处理(Pre-emphasis):求语音信号频谱时,频率越高相应的成分越小;预加重的目的是提升高频成分,使高频的成分变得平坦,能用同样的信噪比求频谱。预加重数字滤波器:预加重一般在数字化后、参数分析之前用预加重数字滤波器来实现,滤波器是一阶的数字滤波器:H(z)=1 z-1;值接近于1。filter(1-0.9375

2、,1,x);,分帧处理,一般每秒的帧数约为33-100帧;视实际情况确定;分帧一般采用交叠分段的方法,使帧与帧之间平滑过渡,保持其连续性。如下图所示。ENFRAME.M函数实现。交叠部分称为帧移;帧移M与帧长N的比例取为0-1/2;,加窗处理,分帧是用可移动的有限长度窗口进行加权的方法来实现;设原始语音信号为x(n),窗函数为w(n),s(n)=x(n)*w(n);通常用得较多的是矩形窗、汉明窗;在采样频率为10Kz的情况下,通常将窗宽选为N=100200,相应于1020ms;,汉明窗函数例,汉明窗:N=256;结果取值在0.08与1之间;,窗口频率特性,下图为N=51时的矩形窗、汉明窗的频率

3、特性H(ej),主瓣宽度4/N,主瓣宽度,主瓣宽度8/N,窗口特性的比较,对语音信号短时处理而言,选用不同的窗口,时域分析参数的平均结果会不同。汉明窗的主瓣宽度比矩形窗大一倍,旁瓣衰减大一倍多;矩形窗的谱平滑性能较好,但丢失高频成分(波形细节);,窗口长度的选择,窗口长度的选择,需要考虑信号的基音周期。由于人的基音周期变化很大(男女儿童老人,2ms-14ms),基音频率的变化范围50-700Hz,最高女声基音是最低男声基音的10倍,N的选择比较困难;通常在10kHz取样频率时,N折中选择为100-200点;经过预处理,语音信号被分成了一帧一帧的加过窗的短时信号,可看成平稳的随机信号来处理。,第

4、二节 语音信号的短时处理方法,语音是不平稳随机过程,其特性是随着时间变化的,但这种变化很缓慢;将语音信号分成一些相继的短段进行处理的方法,就是所谓短时处理技术。短时时域处理技术主要是计算语音的短时能量、短时平均幅值、短时平均过零率和短时自相关函数。短时时域处理方法的主要优点:直观、简单,处理结果能够描述语音的某些重要特性,因而在实际中获得广泛的应用。,语音短时处理原则,1)短段一般长10-20ms,称为帧;相邻短段可以有部分相重叠;2)每个短段是从一个具有固定特性的持续语音中截取出来的,这个持续语音通常认为是由该短时语音周期性重复得到的;因此,对每个短段语音进行处理等效于对固定特性的持续语音进

5、行处理。3)对各个短段语音的处理即可以在时域内进行,也可以在频域内进行;在时域内进行,通常是计算语音时间波形的能量、短时平均幅值、短时平均过零率或短时自相关函数;在频域内进行,通常是对语音信号进行傅里叶分析,得到若干个频谱数据;为时间序列形式;,语音的时间序列表示,设原始语音信号取样序列为x(m);1)分短段等效于乘以幅度为1的移动窗w(n-m);窗函数一般每隔一帧移动一个位置;2)对语音信号进行短段处理,实际上是对短段进行某种变换或施以某种运算;3)短段处理可以得到一个时间序列,用Qn表示,有 Qn=Tx(m)w(n-m);其中,符号T 是变换,或是运算;可以是线性、非线性的;参变的或时变的

6、;,第三节 短时时域处理技术,短时能量:语音信号的一个短段的能量称为短时能量;设第n段的短时能量为En En=x(m)w(n-m)2(1)它等于该段语音采样值的平方和,这里T 是指平方和运算;如果用h(n-m)代表w(n-m)2,即h(n)代表w2(n),数据窗的平方,则 En=x(m)2h(n-m)(2)意义为:首先计算原始语音信号各个采样值的平方,然后让其通过一个冲激响应为h(n-m)的滤波器,最后输出就是短时能量构成的时间序列。两种计算方法都能得到短时能量。,短时能量计算例,语音信号在x(n)中,短时平均幅度,由于短时能量的平方运算必须选择较宽的窗,才能对采样间的平方幅度起伏有较好的平滑

7、作用;但这样可能导致En反映不出语音能量的时变特点。短时平均幅度是表示语音能量时变性质的另一个参数,定义为Mn:Mn=|x(m)w(n-m)|或 Mn=|x(m)|h(n-m)其中,h(m)=|w(m)|,是取绝对值求和运算,短时能量和短时平均幅度的用途,主要用途有:1.可以区分浊音段与清音段;浊音时短时能量En值比清音时大得多。2.可以区分声母与韵母的分界,无声与有声的分界、连字之间的分界。3.作为一种超音段信息,用于语音识别中。,短时平均过零率,过零:离散时间信号的相邻两个取样具有不同符号时,便出现“过零”现象;单位时间过零的次数叫做“过零率”;语音信号是宽带信号、时变信号,过零率只能粗略

8、反映语音信号的频谱特性;平均过零率是描述时变频谱的一种简单方法。,短时平均过零率的计算,短时平均过零率的计算方法 用一个移动窗w(n-m)选取出位于n时刻的语音段;计算出该短段的过零总数并除以短段的长度(即窗的宽度)计算公式:设采用矩形窗,窗的宽度为N,短时平均过零率为:过零率的计算主要是将相邻两个采样值的符号进行比较,符号的判定受噪声影响,必须规定一个噪声门限。选择合适的正负门限值。,计算过零率的例子,设信号在x(n)中,计算短时平均过零率判断语句为:,过零率的应用,1)短时平均过零数粗略地描述了信号的频谱特性;可以根据它来区分浊音和清音。浊音频谱主要集中在4kHz以下低频区域,清音频谱主要

9、集中在高频区域。,呈正态分布,清音最大为49次,浊音最大为14次;24次时相等。,过零次数清音段多,浊音段少;,2)但由过零率的高低来区分清音和浊音有时不很准确,如概率分布所示。,1 移动窗方法的定义:设位于n的移动窗w(n-m)选出的一段语音信号为x(n)w(n-m),该语音段的自相关函数计算公式为 2 固定窗方法的定义:(窗不动,信号相对移动)固定窗w(-m),语音信号为x(m+n),n时刻选取的语音段信号为x(m+n)w(-m),计算公式为,短时自相关函数,减少短时自相关函数计算时间的方法,(1)公式中有相同的乘法计算出现两次,可以减少一半的计算量;(2)采用快速傅里叶变换技术可以减少计

10、算量;卷积运算采用傅里叶计算比较高效;,短时自相关函数的实例,短时自相关函数有两个主要用途:(1)根据它可以判断浊音段和清音段:浊音信号的周期性可以从它的短时自相关曲线显示出来,可以估计浊音的基音周期;清音没有周期性;其性质类似于噪声;后述的短时平均幅度差函数可以代替该函数,以简便计算;(2)它的傅里叶变换就是短时频谱,后述讨论;,短时自相关函数的实例,浊音,矩形窗:,清音,矩形窗:,浊音,汉明窗:,清音,汉明窗:,周期约为72,短时自相关函数的另一种计算方法,由于自相关函数是一个偶函数,短时自相关函数的计算可以表示成下式:,公式表明:可以先计算输入信号的滞后积,然后让其通过一个冲激响应函数,

11、最后输出便是自相关序列。,短时平均幅度差函数法AMDF,判断清音段和浊音段可以采用采用短时平均幅度差函数,以取代自相关函数的计算,不需要乘法运算;幅度差的短时平均值定义如下:,若w1和w2相同的矩形窗,则上式正比于差值幅度的平均值;,短时平均幅度差函数举例,两段语音信号同前,因此可以根据短时平均幅度差函数来区分浊音和清音并估计浊音的基音周期。,第四节 短时时域处理技术的应用,语音端起止端点判别 该问题实际上归结为区别语音和噪声的问题;在高信噪比的情况下,只要计算输入信号的短时能量就能够把语音段和噪声背景区分开;两级判决法:采用短时能量作第一次判决;在此基础上,采用短时平均过零率作第二次判决;基音周期的估计 采用自相关函数估计基音周期的方法:浊音的短时自相关函数有明显的周期性,因此可以用来区分浊音和清音并估计浊音的基音周期。,本章小结,语音信号的预处理方法:分帧、加窗;短时处理的原则、优点;采用短时处理技术求短时能量、短时平均幅值、短时平均幅度差、过零率,以及短时自相关函数的计算;短时处理技术的应用;,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号