《《语音信号处理》讲稿第6章.ppt》由会员分享,可在线阅读,更多相关《《语音信号处理》讲稿第6章.ppt(27页珍藏版)》请在三一办公上搜索。
1、第6章 语音合成,本章主要讨论的问题:1.语音合成原理和方法2.线性预测合成技术3.语音音素合成技术,1.语音合成原理和方法,共振峰语音合成原理如下:浊音和清音分别采用不同的激励源。发不同语音对应不同声道路径和滤波器。发不同语音对应不同幅值控制和频率控制。共振峰和基频是语音信号的2个主要特征。Vortax公司推出的Computalker是一种典型的语音合成产品最早进入计算机业余爱好者市场。采用的便是共振峰语音合成原理。共振峰模型分为级联型、并联型、混合型三类。对于英语语音,一种采用混合型共振峰模型的共振峰语音合成器框图如图所示。,混合型共振峰语音合成模型,2.线性预测合成技术,线性预测技术有两
2、个特点:a.时域和频域技术相结合。可确定共振峰频率、带宽和振幅等频域参量。b.把具有音高和振幅的激励源与控制音素发音的声道滤波器分离开来,增强了语音存储的灵活性。,2.线性预测合成技术,(1)线性预测原理 线性预测技术可以看成是一种曲线的拟合技术。预测误差e(n)的表达式:e(n)=x(n)-x(n)=x(n)-akx(n-k)式中,x(n)=akx(n-k)为预测值,ak为预测系数。,2.线性预测合成技术,将预测误差e(n)的表达式进行Z变换得:E(Z)=X(Z)(1-akZ-k)由此,可得 X(Z)=E(Z)1/(1-akZ-k)此式即为语音的合成模型。,2.线性预测合成技术,对上式进一步
3、化简,得:X(Z)=H(Z)I(Z)其中,H(Z)=1/(1-akZ-k)为模拟声道滤波器传递函数。I(Z)为频谱分布为0dB/倍频程的脉冲激励源,即I(Z)=E(Z)。上式表明:利用线性预测可以把模拟声道的滤波器和模拟声源的脉冲激励分离开来。均方误差最小时,浊音对应脉冲波激励,清音对应白噪声。线性预测用于共振峰分析,如图所示。,线性预测用于共振峰分析,线性预测分析,多项式因式分解或峰值检测,共振峰 参数,a1,a2,a10,幅值,音高/幅值检测,音高,浊音/清音标志,激励源 参数,2.线性预测合成技术,线性预测编码(LPC)的关键问题是在均方误差最小条件下求出线性预测系数ak。此时,由x(n
4、)=akx(n-k)可近似地恢复x(n)。目前,有3种求线性预测系数ak的方法:直接法、自相关法、协方差法。,2.线性预测合成技术,直接法 求解线性预测系数的直接法与求出曲线的拟合系数的方法相同。总的均方预测误差为:,2.线性预测合成技术,对M求偏导数,并使aj的偏导数为0,得:,2.线性预测合成技术,利用上式的p个线性联立方程,可求出p个线性预测系数a1,a2,ap。这种求解方式在计算机上进行,很方便。n的求和范围一般为-n+。但考虑语音信号的特性,实际上,在一段时间求和(加窗函数n),即 x(n)*=nx(n)窗函数的长度一般为100250。,2.线性预测合成技术,自相关法 自相关法是上式
5、的另一种解法。设自相关函数为,2.线性预测合成技术,联立方程组可变换成:R(0)a1+R(1)a2+R(2)a3+R(p-1)ap=R(1)R(1)a1+R(0)a2+R(1)a3+R(p-2)ap=R(2)R(2)a1+R(1)a2+R(0)a3+R(p-3)ap=R(3)R(p-1)a1+R(p-2)a2+R(p-3)a3+R(0)ap=R(p)这是一个系数对称的线性联立方程。Durbin和Levinson提出了求解这种特殊方程组的最佳解算法。,2.线性预测合成技术,协方差法 这种方法无需对语音信号加窗,它能精确算出预测系数,而在帧内的分析时间比自相关法要短。这种方法假设n求和范围为定数N
6、,起点在n=h处,计算样本数h到h+N-1时共N个样本值时的预测系数。此时,联立方程组可变换为:,2.线性预测合成技术,2.线性预测合成技术,因为Qhjk=Qhkj,可见上式是一个对角线对称的系数矩阵。矩阵Qh 是半正定,可近似地假设为正定。根据Cholesky定理,正定对称矩阵可进行如下分解:Q=LLT其中,L为一个下三角阵,由此,可得一个有效的求解算法。通常,用于计算预测系数的语音信号样本值在50100之间,每隔100250个样本值重新计算预测系数。,2.线性预测合成技术,(2)格型合成滤波器 根据以上3种方法,求得线性预测系数ak后,给定误差信号e(n),便可以恢复原始语音信号,即语音合
7、成。,2.线性预测合成技术,上式中,误差信号可用下列参量表示:a.语音源类型(浊音还是清音)b.振幅和音高(浊音时)其中,浊音对应于以适当的音高频率重复的激励脉冲。清音对应于白噪声激励。由上式组成的合成滤波器可有多种表示方式。其中,一种完成LPC分析和合成的格型滤波器结构,如图所示。,完成LPC分析和合成的格型滤波器,2.线性预测合成技术,格型滤波器可以完成语音分析和合成。格型滤波器用于语音分析和合成的参量有:a.浊音、清音标志。b.音高。c.总体振幅水平。d.反射系数。其中,前3个参量关于激励源,第4个参量关于格型滤波器。,3.语音音素合成技术,(1)语音音素合成原理 语音音素合成(或称语音
8、段合成)原理,有别于共振峰合成、线性预测合成。它是基于语言发音的最小基本单位(音素)合成语音的方法。如同英语元音和辅音代码表、汉语拼音(或笔画)代码表一样,人们也将语音音素编制成一张代码表,称为“语音音素代码表”。通过对代码表中语音音素的不同组合,可合成单词或语句的发音。,3.语音音素合成技术,目前,Votrax公司的音素合成器产品占主导地位。Votrax音素合成器发音成功的编码关键主要音素之间的转换使用了特殊的音素(不同持续间隔的等效音,同素异构音,静止等)。但是,它从文字到语音的转换规则很繁琐,音素转换规则也没有公开。Votrax语音合成原理:每句英式英语经过一系列转换,成为Votrax音
9、素表示,最后以ASCII字符代码,送入到合成器中进行语音合成。,3.语音音素合成技术,Votrax音素代码表由如下一系列表组成,主要包括:Votrax音素及其持续时间表。Votrax音素的持续时间分级表。Votrax音素的音高分级表。Votrax音素的连接规则表。Votrax音素分类表。Votrax音素卡(表)。相同国际音标的不同音素代码表。,3.语音音素合成技术,(2)语音音素合成器 目前,已出现不同型号的语音音素合成器和语音音素合成芯片。Votrax公司的音素合成器产品占主导地位,其代表性的产品有:VS-K价格低廉的语音音素合成器,主要适用于计算机业余爱好者。VS-6在VS-K基础上,加入
10、4级音高控制,合成的语音质量有所提高。Votrax ML-I型音素合成器。每个音素加入8级音高控制和4种持续时间,合成的语音质量进一步提高。Votrax SC-01单片语音音素合成器。这是一种采用模拟开关电容滤波技术的LSI芯片。它可由输入的音素合成语音。利用这种芯片,已开发出实用的产品。,3.语音音素合成技术,(3)汉语的音素合成 汉语语音中,声母21个,韵母39个,汉语拼音可拼出416个汉字。若加上声调(四声),共有1664个不同音的汉字。目前,还没有专门设计用于汉语音素合成的芯片。通常是用英语音素合成芯片来合成汉语。,3.语音音素合成技术,用英语音素合成芯片来合成汉语,需要解决如下几个问题:确定汉语与英语音素的对应关系。注意整个句子的发音效果。,