情感语音信号中共振峰参数的提取方法毕业论文.doc

上传人:laozhun 文档编号:4141768 上传时间:2023-04-07 格式:DOC 页数:49 大小:1.48MB
返回 下载 相关 举报
情感语音信号中共振峰参数的提取方法毕业论文.doc_第1页
第1页 / 共49页
情感语音信号中共振峰参数的提取方法毕业论文.doc_第2页
第2页 / 共49页
情感语音信号中共振峰参数的提取方法毕业论文.doc_第3页
第3页 / 共49页
情感语音信号中共振峰参数的提取方法毕业论文.doc_第4页
第4页 / 共49页
情感语音信号中共振峰参数的提取方法毕业论文.doc_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《情感语音信号中共振峰参数的提取方法毕业论文.doc》由会员分享,可在线阅读,更多相关《情感语音信号中共振峰参数的提取方法毕业论文.doc(49页珍藏版)》请在三一办公上搜索。

1、太原理工大学毕业设计(论文)任务书毕业设计(论文)题目:情感语音信号中共振峰参数的提取方法毕业设计(论文)要求及原始数据(资料): 要求:1:大量查阅关于共振峰提取技术的资料(通过Internet或图书馆)。2:分析总结各种共振峰的提取方法。3:用一种共振峰提取方法实现情感语音中共振峰的提取。4:写一篇论文并给出共振峰提取结果。原始数据:1:共振峰研究意义随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作 为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语音信息,还包含着说话人的情感信息。语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实意义

2、。语音情感信息处理技术作为一个重要的研究领域已经有很长时间的研究历史了,然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。共振峰是反映声道谐振 第1页特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。人在语音感知中也利用了共振峰信息。所以共振峰已经广泛地用作语音识别的主要特征和语音编码的基本信息。语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会

3、发生不同的变化。共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理时及其有意义的。2:共振峰的几种提取方法(1)谱包络提取法:共振峰信息包含在语音频谱包络中, 因此共振峰参数提取的关键是估计自然语音频谱包络, 并认为谱包络中的最大值就是共振峰。(2)倒谱法提取共振峰:因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。 去除了激励引起的谐波波动, 所以可以更精确地得到共振峰参数。(3)LPC法提取共振峰:从线性预测导出的声道滤波器是频谱包络估计器的最新形式, 线性预测提供了一个优良的声道模型 (条件是语音不含噪声) 。(4)求根法提

4、取共振峰:找出多项式复根的过程通常采用牛顿拉夫逊 (Newton-Raphson)算法。(5)LPC倒谱法提取共振峰:语音信号的倒谱可以通过对信号做傅里叶变换, 取模的对数, 再求反傅里叶变换得到。 第2页毕业设计(论文)主要内容:1:介绍情感语音信号共振峰提取的背景及研究意义,分析语音合成技术的国内外研究现状、应用领域。2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。(1)虚假峰值 (2)共振峰合并 (3)高音调语音3.分析掌握共振峰的多种提取方法,对多种共振峰提取方法进行比较和分析。(1)谱包络提取法(2)倒谱法提取共振峰(3)LPC法提取共振峰(4)求根法提取共振峰(5)LPC倒

5、谱法提取共振峰4.重点研究分析倒谱法提取语音信号共振峰,分析其优缺点并利用这种方法提取情感语音中的共振峰。学生应交出的设计文件(论文):1:开题报告2:中期检查3:毕业论文第3页主要参考文献(资料):1 胡航. 语音信号处理M. 哈尔滨: 哈尔滨工业大学出版社, 2000: 113-116.2 张刚, 张雪英, 马建芬. 语音处理与编码M. 北京, 兵器工业出版社, 2000.3 Rosalind W Picard. Affective computingJ, Minds and Machines, 1999, 9:443-447.4 Cowie R and Cornelius R. Desc

6、ribing the emotional stares that are expressed in SpeechJ, Human-Computer Studies, 2003, 40:5-3.5 D Ververidis and C Kotropoulos, Emotional speech recognition:Resources, features and methodsJ, Speech Communication, 2006, 48(9):1162-1181.6 Cowie, R.Douglas-Cowie, E.Savvidou, MeMahon, E.Sawey, M.Sehro

7、der, M.FEELTRACE:An Instrument for Recording Perceived Emotion in Real Time. In ISCA Workshop on Speech and Emotion, Belfast 2000.7 Cowie, R.Douglas-Cowie, E.Speakers and hearers are people:Reflections on Speech deterioration as a consequence of acquired deafness in Profound Deafness and Speech Comm

8、unication. London, 1995.8 R.Cowie,E.Douglas-Cowie, E.Automatic statistical analysis of the signal and prosodic signs of emotion in speech.In Proc. 4th Int. Conf. Spoken Language Processing.PhiladelPhia, PA, 1996:1989-1992.9 赵力, 蒋春辉, 邹采荣. 语音信号中的情感特征分析和识别的研究N. 电子学报, 2004, 4:606-609.10 付丽琴, 王玉宝, 王长江. 基

9、于多特征向量的语音情感识别J. 计算机科学, 2009, 36(6):231-134.专业班级 通信0902班 学生 赵智越 要求设计(论文)工作起止日期 2013年2月25日2013年6月16日 指导教师签字 日期 教研室主任审查签字 日期 系主任批准签字 日期 第4页情感语音信号中共振峰参数的提取方法摘 要语音情感识别是新型人机交互技术的研究热点之一,在人工智能方面有着较广泛的应用前景。共振峰频率是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源。所以研究情感语音信号中共振峰参数是有很大意义的。基于共振峰参数在情感语音信号中的重要性,本文主要研究了情感语音信号中共振峰参数的提取方

10、法。提取共振峰的常用方法包括:谱包络提取法、倒谱法和LPC法。由于倒谱法根据对数功率谱的逆傅立叶变换,能够分离频谱包络和细微结构,很精确地得到共振峰信息,所以本文重点研究倒谱法提取共振峰。本文通过MATLAB软件利用倒谱法实现了对高兴、生气、中立三种情感状态的共振峰参数的提取。分析提取结果,得到了下面的一些结论:相对于中立发音而言,高兴和生气的第一共振峰频率相对升高,从人的发音特点来看,人们在表达高兴和生气时,嘴比平静发音时张得更大,因此会出现这样的结果。所以说,可以用共振峰作为区分不同情感语音的手段。关键词:语音情感识别;共振峰参数;共振峰提取方法;倒谱法Extraction method

11、of emotional speech signal of the formant parametersAbstractSpeech emotion recognition is one of the hot research of new human-computer interaction technology, which has a wide application prospect in artificial intelligence. Formant frequency is an important characteristic of reflecting the resonan

12、t characteristics of channel, it represents the pronunciation of the most direct source of information. So the research of emotional speech signal of the formant parameters is of great significance.Based on the importance of formant parameter in the emotional speech signals, this paper mainly studie

13、d the extraction method of emotional speech signal of the formant parameters. Several main methods of extraction of formant are: spectral envelope extraction, cepstrum method and LPC method. Since cepstrum based on the number of inverse Fourier transform power spectrum, it can separate spectral enve

14、lope and the fine structure and get very precise information on the formant, so this paper focuses on research cepstrum formant extraction.This paper use MATLAB software cepstrum emotional state to achieve happy, angry and neutral three formant parameter extraction. Analysis to extract a result, I g

15、et some of the following conclusions: Relative to the neutral pronunciation, the happy and angry the first formant frequency is relatively increased. Pronunciation features from the human point of view, people are happy and angry expression, mouth to pronounce than when Zhang was more calm, so there

16、 will be such an outcome. So, you can use the formant speech as a means to distinguish between different emotions.Key Words: Speech Emotion Recognition; Formant parameters; Formant extraction method; Cepstrum目录摘 要IAbstractII第1章 绪论11.1 选题意义11.2 情感语音识别技术的国内外发展现状11.2.1 国际情感语音识别发展现状11.2.2 国内情感语音识别发展现状21

17、.3 本文的主要研究内容及结构安排31.3.1 本文的主要研究内容31.3.2 本文的结构安排3第2章 情感的分类与语音情感识别52.1 情感的分类52.2 情感语音数据库52.3 语音情感识别系统6第3章 共振峰的基本概念73.1 共振峰参数的概念及产生原理73.2 共振峰参数的研究意义73.3 提取共振峰参数所遇到的问题7第4章 共振峰的提取方法及分析94.1 谱包络提取法94.2 倒谱法提取共振峰104.3 LPC法提取共振峰104.4 求根法提取共振峰114.5 LPC倒谱法提取共振峰124.6 几种提取方法分析比较134.7 同类文章提取方法比较14第5章 倒谱法提取共振峰的实现16

18、5.1 倒谱的定义165.2 倒谱法提取共振峰原理175.3 倒谱法提取情感语音共振峰具体实现过程175.4 共振峰提取结果及结论分析195.4.1 情感语音原始波形195.4.2 情感语音共振峰提取结果205.4.3 结论分析22第6章 总结与展望236.1 全文总结236.2 展望23参考文献24致 谢26外文原文27中文翻译36第1章 绪论1.1 选题意义随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语音信息,还包含着说话人的情感信息。语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实

19、意义。语音信号处理技术作为一个重要的研究领域有着很长时间的研究历史,然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。语音情感识别是语音识别的一个重要的分支,而语音识别则是数字信号处理技术与语音学的交叉学科,它和心理学、计算机科学、认知科学、语言学、人工智能和模式识别等学科紧密联系。近年来,人们研究发现情感所引起的语音信号变化对语音识别、语音合成、说话人确认等方面有较大影响,所以语音情感处理的研究逐步提高了人们的重视。目前有很多研究者在致力于研究并处理语音情感信息有效方法以及情感对语音的影响。汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基音频率和共振峰频率等。

20、共振峰频率简称共振峰,它与声道的形状和大小有关,一种形状对应着一套共振峰。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,人在语音感知中也利用了共振峰信息,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会发生不同的变化。共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理是极其有意义的

21、12。1.2 情感语音识别技术的国内外发展现状九十年代中期之后,语音情感信息处理受到了越来越多的关注,这方面的研究也在不断深入,并取得了一定的进展。近几年,研究者对语音中的情感信息表现出日益浓厚的兴趣。他们从生理、心理学角度的情感建模到语音情感的声学关联特征,以及各种针对语音情感识别和合成的算法、理论展开了深入的研究,还从工程学的角度将情感作为信息信号工学的研究对象。但是,目前不论从国外还是国内来看,情感信息处理的研究,还是处在一个低级水平,存在一些需要进一步深入研究的课题。如:合理的有效的语音情感特征建模方法;开发更全面更有效的语音情感特征;对情感语句中主要反映情感变化的关键词和短语的研究。

22、下面将分别简单介绍国内外情感语音识别发展现状。1.2.1 国际情感语音识别发展现状目前,关于情感的研究正处在不断的深入之中,语音的情感识别因为涉及到不同语种之间的差异,发展也不尽相同。美国MIT媒体实验室Rosalind Wpicard教授领导的情感研究组织首次尝试了用基频、时长、音质和清晰度等声学参数的变化来合成情感语音。她后来又验证了情感状态与语音声学参数的相关性,并提出悲伤情感最容易区分,而高兴、惊讶和愤怒等具有相似的语音特性参数,不容易区分3。此后,MIT媒体实验室Raul Fernandez在2003到2004年还完成了关于从语音的韵律学参数入手的语音情感识别的计算模型研究,试验用有

23、韵律特征进行分类实验,比较了与人类情感识别的性能差异45。英国贝尔法斯特女王大学的RoddyCowie和EllenDouglas-Cowie教授领导的情感语音小组研究的重点在于心理学和语音分析。他们收集并创建了第一个大规模的高自然度声音的情感数据库,同时还开发了一个FEELTRACE工具用来记录人类从语音中感知到的情感信息6。他们还开发了一个情感语音分析的ASSESS工具,用统计的方法分析语音的声学特征与情感的相关性,并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等,对愤怒、害怕、高兴和悲伤4类主要情感进行了分类,用判别分析的方法达到了55%的识别率78。美国南加州大学语音情感组由Na

24、rnyanan教授领导。在语音情感识别方面,他们以客服系统的呼叫中心为应用背景,研究识别正面情感和负面情感。首次将语音的声学信息、词汇和语义信息结合,并将模糊推论系统用于识别系统,初步试验结果表明,结合这三种信息进行语音信号的情感识别要比单纯使用声学信息识别率平均提高了38.5%9。C N Anagnostopoulos和T Iliou.建立了德语语音库,提取了133个语音特征来识别其中语音情感,根据统计分析来估计每种语音特征、人工神经网络用于训练情感分类,最后达到了平均51%的识别率10。 1.2.2 国内情感语音识别发展现状目前,国内也已经有多所高校从事语音情感识别的研究,东南大学、清华大

25、学、浙江大学、中国台湾大学、中国科学院、微软亚洲研究院、哈尔滨工业大学等机构在这方面做了大量工作。东南大学无线电工程系赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究。他们分析了不同情感的语音在时间构造,能量构造,基音构造,共振峰构造等方面的差别,以情感语音和自然语音特征向量的差值作为情感识别特征,用主成分分析法识别高兴、惊奇、愤怒、悲伤四类情感,在较小的实验数据集中能达到约80%的识别率11。由清华大学计算机科学与技术系的蔡莲红教授领导的人机语言交互实验室也开展了普通话语音情感识别研究。蒋丹宁通过特征的区别特性分析和分类实验,研究了韵律特征在普通话语音情感识别中的作用。将韵律特征分

26、解为纯语音的特征和纯情感的特征,并将后者运用于语音情感识别,用多层感知器对六种情感进行识别,得到平均82.4%的识别率12。台湾大同大学资讯工程学系的包苍龙教授领导的数据通讯与信号处理实验室也较早地致力于普通话语音情感识别的研究。他们构建一个包含愤怒、高兴、悲伤、厌烦和中立五个情感类别,约800句情感语音的普通话情感语音数据库。在语音情感识别中,提取16个LPC参数,12个LPCC参数,16个LFPC参数,16个PLP参数,20个MFCC参数组成向量,作为识别特征,用LDA,KNN和HMM分类器对说话人无关和说话人相关两组语音素材做识别,得到最高88.7%的识别率13。中国电子科技研究院的付丽

27、琴等人以HMM作为语音情感分类器模型,对不同情感状态选择不同的特征向量进行识别。系统分两个阶段完成:首先基于漏识率和误识率最小的决策原则,采用优先选择(PFS)算法分别为每种情感状态选择最优的特征向量,然后用这些特征向量分别建立对应情感状态的HMM模型。利用北航情感语音库(BHUDES)对算法进行验证,将所有实验样本分为训练样本集、特征选择样本集和测试样本集3组,采用交叉实验的方法对本算法进行验证,结果表明,与单特征向量HMM相比,多特征向量HMM可达到更高识别精度14。1.3 本文的主要研究内容及结构安排1.3.1 本文的主要研究内容1.研究情感语音信号共振峰提取的背景及研究意义,分析情感语

28、音识别技术的国内外研究现状、应用领域。2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。(1)虚假峰值 (2)共振峰合并 (3)高音调语音3.分析共振峰的多种提取方法。(1)谱包络提取法共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。(2)倒谱法提取共振峰 因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。(3)LPC法提取共振峰从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型(条件是语音不含噪声)。(4)求根法

29、提取共振峰找出多项式复根的过程通常采用牛顿拉夫逊 (Newton-Raphson)算法。(5)LPC倒谱法提取共振峰语音信号的倒谱可以通过对信号做傅里叶变换,取模的对数,在求反傅里叶变换得到。4. 重点研究分析倒谱法提取语音信号共振峰,并利用这种方法提取情感语音中的共振峰。5. 对共振峰提取结果进行分析,并得出结论。1.3.2 本文的结构安排第一章是绪论,说明了本文的选题意义,概括介绍了情感语音识别的国内外发展现状,最后介绍了本文的主要研究内容及结构安排。第二章主要介绍了情感分类的基础理论和情感语音数据库,最后介绍了语音情感识别系统。首先简单地介绍通过离散形式和情感维度空间两种方法概述了情感的

30、分类,然后介绍了情感语音数据分为3个类别以及本文所用的情感语音数据库。最后介绍了语音情感识别系统。第三章介绍了共振峰的概念,说明了共振峰在情感语音识别中的重要性;接下来分析了提取共振峰参数所遇到的问题。第四章对语音情感识别中的共振峰的提取方法进行了分析介绍。包括谱包络提取法、倒谱法提取共振峰、LPC法提取共振峰、求根法提取共振峰和 LPC倒谱法提取共振峰,并简单分析了这几种提取共振峰方法的优缺点。第五章重点介绍了倒谱法提取共振峰的过程。首先介绍了倒谱的定义以及倒谱法提取共振峰的原理,接下来画出了共振峰提取框图和共振峰提取流程图,最后给出了情感语音中高兴、生气和中立的共振峰提取结果。并对共振峰提

31、取结果进行分析与总结。第六章是对本文主要工作和研究成果的总结,并对下一步语音情感识别中共振峰提取的研究工作做出展望。第2章 情感的分类与语音情感识别2.1 情感的分类情感类型的合理界定是对语句进行情感标注的基础。在情感计算领域,许多学者从不同的角度研究了情感的分类问题,并提出了相应的情感类型定义。传统的研究通常用日常语言标签来标识和分类情感,比如把情感分为高兴、愤怒、害怕等15。美国心理学家Eckman提出了六种基本情绪16:愤怒、恐惧、悲伤、惊讶、高兴和厌恶。而Plutchik提出过八种基本情绪17悲痛、恐惧、惊奇、接受、狂喜、狂怒、警惕、憎恨。Shaver等人则认为原始情绪有愤怒、爱、高兴

32、、害怕、悲伤、惊讶六类18,这和Eckman的六类墓本情绪存在微小差异。另外,关于语音情感的研究还可以更为简单化,部分研究对情感的分类更侧重于系统的实用性。例如,将语音仅分为“无情感含义”与“带情感含义”两大类;或是分为“情感强烈”与“情感不强烈”两大类;部分研究只关注于用户的情感状态是“正常”还是“不正常”;还有的研究只注重用户的某些负面情感,如“挫败”、“厌烦”、“僧恶”等等。除了以标签法将情感分成离散的类别之外,一些研究者尝试在连续的空间中描述情感,也称作维度轮19。在此基础上,Plutchik等人提出了“情感轮”理论,认为情感分布在一个类似于钟表盘的圆形结构上,圆心是自然原点,表示人在

33、内心平静时的情感状态,而圆周上的标注标明儿种基本情感类型,其排列方式可根据具体研究需要设置20。情感语句的情感类型和强度可用情感轮组成的二维空间中的情感矢量表示,该矢量同自然原点之间的距离体现了情感的强度,方向则表示情感类别。尽管心理学、认知学等领域的研究人员对于情感种类的定义五花八门,但在目前绝大多数的语音情感识别系统中,使用的情感类别是MPEG-4国际标准定义的五种情感状态,即“愤怒(Anger)”、“恐惧(Fear)”、“高兴(Happiness)”、“悲伤(Sadness)”和“惊讶(Surprise)”,外加“中立(Neutral)”来表征语音不具有情感含义。2.2 情感语音数据库要

34、对语音进行情感识别,情感语音数据库的建立是基础。怎么样才能获取高质量的情感语音是建立语音库的关键问题。因为语音的质量将直接影响整个语音情感识别系统的性能。按照表达的情感自然度可以将情感语音数据分为3个类别:自然型情感语音、表演型情感语音和引导型情感语音19。自然型情感语音是在说话人不知情的情况下获取的完全放松状态下的情感语音。这种类型的语音被普遍认为是最理想最可信的情感语料。然而,由于涉及法律和版权问题,这类情感语音的录制较为困难,成本也比较高。表演型情感语音是指情感表现力较强的演员模仿不同情感朗诵指定语句获得的情感语料。相对于自然型情感语音,表演型情感语音较容易获取,可控制性较强,可以根据需

35、要录制任意说话内容的情感语句。然而表演型情感语句中的情感成分被夸张了,而且自然度也受说话人的演技高低影响。引导型情感语音是指通过一定的外界环境和手段,引导说话人的情绪进入某种特定的状态,从而录制情感语音的方法。引导型情感语音通常通过文字对说话者进行引导,即通过说话人朗读带有一定感情色彩的文本,获得所需要的情感语句。引导型情感语音是自然型和表演型情感语音录制方法的一种折中,定制性比较强且语料的获取相对方便,适合基于不同文本的语音情感方面的研究。然而,纯文本引导对于内心情感状态的生成比较缓慢和微弱,这种方式获得的情感语句对文本内容的选择性比较强。由于语音情感信息的地域性差异,目前情感语音研究领域中

36、缺乏标准数据库,需要研究者录制符合自身研究要求的情感语料库。本文应用的是由高兴、生气、中立三种情感语音组成的情感语音数据库,每种情感语音分别有中英文两种语言,所用情感语句的中文文本为“我到北京去”英文文本为“Good morning”以wav格式存储,持续时间五秒以内,经过反复的主观听觉实验,认为该情感语音数据库的语料情感辨识度较高,自然度也比较理想,可以满足本文的研究需求。2.3 语音情感识别系统图 2-1 典型语音情感识别系统的框图语音情感识别系统与语音识别系统类似,分为语音情感语句预处理、特征参数提取和模式匹配三个部分。其识别过程如下:首先对情感语句进行预处理,语音情感语句预处理包括预加

37、重、分帧加窗和端点检测等;其次是对情感语句提取特征参数,如MFCCI、LPCC、LPMCC和ZCPA等频谱特征参数;最后将不同情感的特征参数进行训练形成不同的模板库,并将待识别情感的特征参数与模板库进行模式匹配,从而将情感识别结果输出。典型的语音情感识别系统如图2-1所示。第3章 共振峰的基本概念3.1 共振峰参数的概念及产生原理发音时,气流通过声道,引起声道谐振,产生的一组谐振频率,称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰1。共振

38、峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(Resonant Physical Structure)。无论是人声还是乐器,它们的声音特性都源自两个因素,一个是发声系统,如人的声带或乐器的振动簧片,另一个是共鸣系统。乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小、形状的材料密切相关。由于一件乐器的结构是稳定的,因此在一件乐器发出的所有音调中,不论基频如何,都会表现出相同的共振峰值,只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中,同一乐器所发出的不同音调具有相同的音质。在语音声学中

39、,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音,主要也是依靠它们的共振峰分布的位置。3.2 共振峰参数的研究意义汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基音频率和共振峰频率等。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接来源,而且人在语音感知中利用了共振峰信息,所以共振峰参数的提取一直以来都是语音信号处理领域中重要的研究题之一。共振峰参数已经广泛地用作语音识别的主要特征

40、和语音编码传输的基本信息,共振峰轨迹包含了说话人的个性特征,对说话人识别有着重要意义,同时也是语言学家研究人类发音技能的有效工具21。3.3 提取共振峰参数所遇到的问题与基音检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。这些问题包括:(1)虚假峰值。在正常情况下,频谱包络中的极大值完全是由共振峰引起的。但在线性预测分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加个额外的极点,有时可利用这些极点代表虚假峰值。(2)共振峰合并。相邻共振峰的频率可能会靠的太近而难以分辨。这时会产生共振

41、峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。(3)高音调语音。传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络的估计就不够精确。即使采用线性预测进行频谱包络估计也会出现这个问题。在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。第4章 共振峰的提取方法及分析4.1 谱包络提取法共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。下图4-1是对21帧信号的线性预测谱包络提取分析22。 (1

42、) 原始语音帧信号 (2)线性预测信号 (3)预测误差 (4)预测信号功率谱 (5)预测信号幅频响应 (6)声道倒谱 (7)LPC倒谱 (8)LPC倒谱包络图 4-1 信号线性预测谱包络提取分析图4.2 倒谱法提取共振峰虽然可以直接对语音信号求离散傅里叶变换(DFT),然后用DFT谱来提取语音信号的共振峰参数,但是,直接DFT 的谱要受基频谐波的影响,最大值只能出现在谐波频率上,因而共振峰测定误差较大。为了消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,因而这种方法更为有效和精确。因为倒谱运用对数运算和二次变换将基音谐波和声道的

43、频谱包络分离开来。因此用低时窗从语音信号倒谱c(n)中所截取出来得h(n),能更精确地反映声道响应。这样,由h(n)经DFT得到的H(k),就是声道的离散谱曲线,用H(k)代替直接DFT的频谱,因为去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。图 4-2 倒谱法求取的共振峰参数图4.3 LPC法提取共振峰从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型(条件是语音不含噪声)。尽管线性预测法的频率灵敏度和人耳不相匹配,但它仍是最廉价、最优良的行之有效的方法。用线性预测可对语音信号进行解卷:即把激励分量归入预测残差中,得到声道响应的全级模型H(z)

44、的分量,从而得到这个分量的参数。尽管其精度由于存在一定的逼近误差而有所降低,但去除了激励分量的影响。此时求出声道响应分量的谱峰,就可以求出共振峰,这里有两种途径:一是用标准的求取复根的方法计算全级模型分母多项式A(z)的根,称为求根法;一是用运算量较少的DFT法,求A(z)的离散频率响应A(k)的谷点来得到共振峰的位置。因为,所以求此多项式系数序列(1,a1,a2,ap)的DFT,就可以得到A(k)。但是一般预测阶数p不大,这就影响了求其谷点即求其共振峰频率值的精度。为了提高DFT 的频率分辨率,可以采用补0 的办法增加序列的时间长度,即用(1,a1,a2,ap,0,0,0)进行DFT,为了能

45、利用FFT,长度一般取为64点、128点、256点、512点等。另外也可以采用抛物线内插技术,解决频率分辨率较低的情况下的共振峰频率值的求取。图 4-3 LPC谱估计法求取的共振峰参数图4.4 求根法提取共振峰找出多项式复根的过程通常采用牛顿拉夫逊(Newton-Raphson)算法。其方法是一开始先猜测一个根值并就此猜测值计算多项式及其导数的值,然后利用结果再找出一个改进的猜测值。当前后两个猜测值之差小于某门限时结束猜测过程。由上述过程可知,重复运算找出复根的计算量相当可观。然而,假设每一帧的最初猜测值域前一帧的根的位置重合,那么根的帧到帧的移动足够小,经过较少的重复运算后,可使新的根的值会聚在一起。当求根过程初始时,第一帧的猜测值可以在单位圆上等间隔设置。具体过程是:设:为第一个根,则其共轭值 也是一个根。设与i对应的共振峰频率为Fi,3dB 带宽为Bi,则它们存在下面的关系: (4.1) (

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号