数字语音处理复习题分析.doc

上传人:小飞机 文档编号:4033761 上传时间:2023-04-01 格式:DOC 页数:12 大小:233.50KB
返回 下载 相关 举报
数字语音处理复习题分析.doc_第1页
第1页 / 共12页
数字语音处理复习题分析.doc_第2页
第2页 / 共12页
数字语音处理复习题分析.doc_第3页
第3页 / 共12页
数字语音处理复习题分析.doc_第4页
第4页 / 共12页
数字语音处理复习题分析.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《数字语音处理复习题分析.doc》由会员分享,可在线阅读,更多相关《数字语音处理复习题分析.doc(12页珍藏版)》请在三一办公上搜索。

1、第一章 绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3第二章 语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d22.语音的基本声学特性包括音色,音调,音强、音长。p7d2 音色:也叫音质,是一种声音区别于另一种声音的基本特征

2、。 音调:是指声音的高低,它取决于声波的频率。 音强:声音的强弱,它由声波的振动幅度决定。 音长:声音的长短,它取决于发音时间的长短。3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d34.任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d39.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不

3、能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d39.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d510.汉语音节一般由声母、韵母和声调三部分

4、组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d610. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d513. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。p9d1114. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。15.语音信号的生成模型可由激励模型、声道模型和辐射模

5、型三个子模型构成,三者是串联(串联/并联)的关系。p21-2616.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d617.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d216.语音信号生成模型的辐射模型是一阶类高通滤波器。 p25d217.设截取的一段语音共有160个样本,而采样频率为8kHz,则该段语音持续时间为20ms。18.设采样频率为8kHz,则25ms长的语音共有200个采样值。18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)p2

6、9d119.语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。p29d120.传输函数形式为的共振峰模型为(2)数学模型;1.全零点;2.全极点;3.极零点;4.以上都不是;21.传输函数形式为的共振峰模型在结构上为(1 )模型;1.级联型2.并联型;3.混合型;4.以上都不是;22.传输函数形式为的共振峰模型为(3)数学模型;1.全零点;2.全极点;3.极零点;4.以上都不是;23.传输函数形式为的共振峰模型在结构上为(2)模型;1.级联型2.并联型;3.混合型;4.以上都不是;24.简述语音产

7、生过程的三个模型:25.基音频率、共振峰、语谱图的概念,会从语音波形中识别基音周期与共振峰频率。 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。一般来说,男性说话的基音频率大致分布在50-200Hz范围内,女性和小孩的基因频率在200-450Hz之间。 人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率成为共振峰频率,简称共振峰。共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。,相应的频率用F1、F2、F3。表示。一般浊音中可以辨识的共振峰有5个,其中前三个对于区别不同语音至关重要。 语谱图

8、描述了语音信号随时间而变化的频谱特性。纵轴对应于频率、横轴对应于时间,图像的黑白度对应于信号的能量。26.汉语中的四种声调与基音频率的关系是什么? 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。29.音调:音调是听觉分辨声音高低时,用于描述这种感受的一种特性。音调与声音的频率并不成正比,还与声音的强度及波形有关。描述音调的单位是美(mel)。一个高于听阈40dB、频率为1KHz的纯音所产生的音调定位1000mel,如果一个纯音听起来比1000mel的声音调子高一倍,则其音调为2000mel。音调与频率的关系近似表示为:27.掩蔽效应:当两个响度

9、不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。第三章 语音信号分析21.语音信号分析采用短时分析技术。p32d220. 语音信号分析,根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析、线性预测分析等。根据分析方法的不同,分为模型分析方法和非模型分析方法两种。p32d322.由于辐射模型的影响,语音信号高频部分衰减较大,所以在预处理中需采用预加重技术,即提升高频部分,使信号的频谱变得平坦。23.不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同

10、的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等(列举两个)。25.对于频率分布为03400Hz的语音信号,最低无失真采样频率应为6800Hz25.若信号波形的变化足够大,或量化间隔足够小时,以下有关量化噪声描述错误的是(4)p33d21.是平稳的白噪声过程2.量化噪声与输入信号不相关3.量化噪声在量化间隔内均匀分布,即具有等概率密度分布4.是服从高斯分布的随机过程26.以下那种分析不属于语音信号时域分析?(4)1.短时过零率分析;2.短时相关分析;3.短时平均幅度差函数;4.同态分析;短时能量的主要

11、用途不包括以下那一项(4)p38d51.可以区分浊音段和清音段;2.可以用来查找声母和韵母的分界;3.可以用来查找无声和有声的分界;4.可以区分高频和低频分量;24.采用自相关函数法对基音周期进行估计时,先用60900Hz的带通滤波器对语音信号进行滤波,以下描述错误的是(4)p71d21.可减少共振峰的影响;2.可抑制50Hz的电源干扰;3.可保留基音频率的一、二次谐波;4.为了防止8kHz采样时发生混叠干扰;定义语音信号的短时自相关函数为:,则以下表述错误的是(2):p40d3(1) 如果是周期的,则是同周期的周期函数;(2) 是奇函数;(3) 7.设序列x(n)的短时能量定义为:其中窗函数

12、表示为:试求En的一个递推公式,用En-1和输入x(n)表示En8.设序列x(n)的短时能量定义为:其中窗函数表示为:试求En的一个递推公式9.设短时平均过零率的定义为:证明1.语音的时变性与短时平稳性(p32d2):语音信号的波形有些波形段有较强的周期性,有的波形段有较强的噪声性,并且周期性语音和噪声性语音的特征也在不断变化中,从而具有时变性。但在较短时间内(10-30ms)语音信号的特征可以认为基本保持不变,这就是语音信号的短时平稳性。11.常用的时域基音检测算法有哪些(任选两种作答)?它们的基本原理是什么? 自相关函数法:浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相

13、关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。 短时平均幅度差函数法:对周期性的浊音语音,短时平均幅度差函数也呈现与浊音语音周期相一致的周期特性,短时平均幅度差函数在周期的各个整数倍点上具有谷值特性而不是峰值特性,可确定基音周期;而对于清音语音信号,短时平均幅度差函数却没有这种周期特性。利用短时平均幅度差函数的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。12.浊音与清音的短时能量、短时平均过零率、短时自相关函数和短时平均幅度差函数有什么差异?导致这些差异的根本原因是什么? 相对来说浊音的短时能量大、短时平均过零率低

14、、短时自相关函数的峰值位置具有周期性,短时平均幅度差函数的谷值位置具有周期性。这是因为浊音是由声带振动引起的脉冲波激励声道产生的,能量较大,频率较低,具有与激励波相同的周期性结构,而清音是由白噪声激励而产生,能量较低,频率较高,不具有周期性。13.若用信号的短时傅立叶变换来定义其短时能量谱密度:同时定义信号的短时自相关函数为:证明当时,与互为傅立叶变换对。15.设阶线性预测器表达式为,证明在最小均方预测误差准则下,预测系数满足方程组:,其中。解:预测误差为,均方误差为,为使E2(n)最小,对aj求偏导,并令其为零,有:,即又因为,代入上式有设语音信号的线性预测模型为,模型增益,求该语音信号的线

15、性预测谱表达式。p59解: 第四章 矢量量化技术1.根据量化的值的维数的不同,量化可分为标量量化和矢量量化。2.矢量量化常用的失真测度有:欧式距离测度、加权欧式距离测度、Itakura-Saito距离、似然比测度和识别失真测度。3. 训练矢量量化码本时,初始码本的生成可采用随机选取法、分裂法、链映射法等。3.矢量量化LBG算法每次迭代时将训练集分割为若干个子集所依据的是(1):1.最邻近准则;2. Centroid质心条件;3.收敛准则;4.熵极大化准则;3.矢量量化LBG算法每次迭代时计算新码字所依据的是(2):1.最邻近准则;2. Centroid质心条件;3.收敛准则;4.熵极大化准则;

16、第五章 隐马尔可夫模型1.HMM是一个双内嵌式随机过程。2.HMM的输出符号序列可见,而状态序列不可见。3.下图是一个三状态HMM,S1是起始状态,S3是终了状态,该HMM只能输出a和b两种符号,由下图的Viterbi算法可知输出aab的最佳路径为S1-S1-S2-S33.对于语音识别用HMM,可用六个参数来定义,这六个参数分别表示什么? S是模型中状态的有限集合;O是输出的观测值序号的集合;A是状态转移概率的集合;B是输出观测值概率的集合;pai是系统初始状态概率的集合;F是终了状态的集合。1.从左到右型HMM(即状态的转移只能从左到右或者停留在原状态,不能返回到以前的状态)的状态转移矩阵具

17、有何种形式?(1)1.上三角矩阵;2.下三角矩阵;3.对称矩阵;4.非奇异矩阵;2.针对给定的HMM模型,寻找与给定观察字符序列对应的最佳状态序列可采用(3)1.前向算法;2.后向算法;3.Viterbi算法;4.Baum-Welch算法训练HMM模型采用(4)1.前向算法;2.后向算法;3.Viterbi算法;4.Baum-Welch算法;下图是一个三状态HMM,S1是起始状态,S3是终了状态,该HMM只能输出a和b两种符号,试求解:(参考P98)1.该HMM的转移概率矩阵A;2.从S1出发到S3截止,输出符号序列abb的概率;3.最大可能的状态序列;第七章 语音编码1.语音编码(Speec

18、h Coding)的目的是在保证语音质量和可懂度的条件下,采用尽可能少的比特数来表示语音。即降低数码率。2.信源编码主要解决有效性问题;信道编码主要解决可靠性问题。3.语音编码通常分为三类:波形编码、参数编码与混合编码。4.波形编码力图使重建后的语音时域信号的波形与原语音信号保持一致。具有适应能力强、话音质量好等优点,缺点是编码速率高。5.参数编码又称声码器技术,从听觉感知的角度注重语音的重现,通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配。优点是编码速率低;缺点是语音质量差,自然度低,对环境噪声敏感。6.若普通电话通信中采用8kHz采样,并进行12bit量化,则数

19、码率为96Kbit/s。7.对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。8.人的听觉生理和心理特性对于语音感知的影响主要表现在:1)人类听觉系统具有掩蔽效应;2)人耳对不同频段声音的敏感程度不同;3)人耳对语音信号的相位变化不敏感。9.感觉加权滤波器是根据人耳的掩蔽效应来设计的。p138d110.均匀量化的特点是:大信号时量化信噪比大,小信号时量化信噪比小。10.在增量调制(DM)中,语音信号波形发生急剧变化时,容易出现译码波形不能充分跟踪这种急剧变化而产生失真的现象,称为斜率过载。p150d311.利用参数编码实现语音通信的设备通常称为声码器。p161d312.LP

20、C声码器采用的编码方式为参数编码(波形编码/参数编码)。7语音信号中存在多种冗余度是语音信号可进行压缩的重要依据,下列选项中( 4 )属于频域冗余度(1)语音信号幅度非均匀分布性(2)语音信号样本间的强相关性(3)浊音语音段具有的准周期性(4)非均匀的长时功率谱密度9.下列选项中,( )不属于波形编码方式(1)PCM(2)APCM(3)DM(4)LPC声码器8.语音中最基本的元素是音素,设语音的音素共有128个,并假设通常的说话速度为每秒平均发出10个音素,请从信息论角度计算语音信号压缩编码的极限码率。p13611.一帧典型的LPC参数包括1bit清浊音信息、5bit增益常数、6bit基因周期

21、、每个LPC系数6bit,共8个LPC系数,如果一帧时长20ms,请计算该LPC声码器的码率。p162解:(1+5+6+6*8)/0.02=3000bit/s第八章 语音合成共振峰合成法属于(3 )1.波形合成法;2.LPC合成法;3.参数合成法;4.规则合成法;第九章 语音识别1.语音识别从所识别的对象来分,可分为:(1)孤立词语音识别系统:(2)连接词语音识别系统; (3)连续语音识别系统;(4)语音理解;(5)会话识别。2.语音识别按词汇量来分,可分为:小词汇量、中词汇量、大词汇量语音识别系统。3.语音识别从讲话人范围来分,可分为单个特定讲话人识别系统、多讲话人、与讲话者无关。4.以下是

22、一个矢量序列与模板的距离参数,输入适量长度为4,模板长度为5,利用DTW原理计算最佳路径50.30.140.10.130.20.220.20.110.1JI1234古今名言敏而好学,不耻下问孔子业精于勤,荒于嬉;行成于思,毁于随韩愈兴于诗,立于礼,成于乐孔子己所不欲,勿施于人孔子读书破万卷,下笔如有神杜甫读书有三到,谓心到,眼到,口到朱熹立身以立学为先,立学以读书为本欧阳修读万卷书,行万里路刘彝黑发不知勤学早,白首方悔读书迟颜真卿书卷多情似故人,晨昏忧乐每相亲于谦书犹药也,善读之可以医愚刘向莫等闲,白了少年头,空悲切岳飞发奋识遍天下字,立志读尽人间书苏轼鸟欲高飞先振翅,人求上进先读书李苦禅立志宜思真品格,读书须尽苦功夫阮元非淡泊无以明志,非宁静无以致远诸葛亮熟读唐诗三百首,不会作诗也会吟孙洙唐诗三百首序书到用时方恨少,事非经过不知难陆游问渠那得清如许,为有源头活水来朱熹旧书不厌百回读,熟读精思子自知苏轼书痴者文必工,艺痴者技必良蒲松龄 声明访问者可将本资料提供的内容用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本文档及相关权利人的合法权利。谢谢合作!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号