《语音信号的模型.ppt》由会员分享,可在线阅读,更多相关《语音信号的模型.ppt(41页珍藏版)》请在三一办公上搜索。
1、第3章语音信号的模型语音模型化,便于数字处理。对模型的要求:精确描述语音产生过程、尽可能地简单,便于处理和实现。已提出许多种不同的语音信号模型。线性模型:广泛使用级联无损声管模型和共振峰模型。理论基础:发音过程中声道处于运动状态,这种运动与语音信号相比变化缓慢,故可用时变的线性系统来模拟。更精细分析时,发现语音中也存在较大的非线性现象,某些应用需考虑这些因素对所研究问题的影响。非线性模型:有多种,调频-调幅模型受到广泛关注。本章讨论:级联无损声管模型、共振峰模型、调频-调幅模型,第3章语音信号的模型3.1 声在声管中的传播特性 物理学的定律是描述声道中声音的产生和传播的基础。包括:质量守恒、动
2、量守恒、能量守恒的基本定律,热力学、流体力学的定律等。空气是一种流体,也是声音赖以传播的介质。应用物理原理,可得描述发音系统中空气运动偏微分方程组。精确的方程表达和求解都是极端困难的,需简化假设条件。因周密的声学理论必须考虑以下各种影响:(1)声道形状的时变性质;(2)声道壁的热传导和粘滞摩擦损耗;(3)声音在嘴唇处的辐射;(4)声道壁的柔度;(5)鼻腔的耦合;(6)声道中的激励。目前,没有全面考虑各因素影响的声学理论,应用中对这些因素给出适当的说明或者给出定性的讨论。,图3.1:语音产生过程的最简单的物理模型。假设:声道被看成是不均匀截面的声管;沿管轴传播的声波是平面波;在流体中或管壁上不存
3、在热传导和粘滞损耗。根据假设及守恒定律,Portnoff证明声波满足偏微分方程组:式中,p,u 为声管内 x 位置处 t 时刻的 声压和体积速度,p=p(x,t),u=u(x,t);A 为声管内 x 位置处 t 时刻的管的横截面面积,A=A(x,t);为声管内空气的密度;c为声的传播速度(空气中声速340m/s)。,给定声管的边界条件和面积函数后,可求得方程组的闭式解。解的表达式非常复杂,但可以采用数值解。应用中,某一特定时刻,面积函数可看成不随时间变化。可借助于各种合理的近似和简化来使方程的求解成为可能。并由此得到语音信号的模型(后续讨论该问题)。声管中声传播特性与传输线中电流传播特性有很强
4、的类比关系。表3.1:声学量与电学量之间的类比关系。,第3章语音信号的模型3.2语音信号的无损声管模型 无损声管模型(行波型模型):由多个不同截面积的无损耗 管子串联而成的系统。是最简单的声道模型。图3.2:10级的无损声管级联模型。语音信号的某一“短时”期间,声道可表示为形状稳定的管道。该“短时”期间,管截面 A 是常数。偏微分方程以写成:若第 m 段管子处,A(x,t)=Am,u(x,t)=um,p(x,t)=pm,上式可以写成,解偏微分方程组,得:式中,lm第 m 节声管的长度;和 第 m 节声管中的正向行波和反向行波。在两个不同截面积的声管联接处,行波表达如图3.3。连续条件:第 m
5、和 m+1 节声管 联接处的声压和体积速度连续。设第m节声管左端点为坐标0点,右端点为lm,则有,重要表达式,后续求解要用到!,令声波通过长为 lm 的第 m 节声管需要的时间为,由上页两式,得:解得:式中km第m节节点的反射系数;km是 在节点处 反射回波 的倍数。图3.4:两级声管的流图。,嘴唇端N 段无损声管,声门处为第一段,嘴唇处为第 N 段。声学理论:嘴唇处的声压和体积速度间存在正弦稳态关系,即 式中,ZL嘴唇处的辐射阻抗,或辐射负载。假定ZL()=ZL是实数,令N=LN/c,联立上式和8页偏微分方程 组的解,得:即:式中,kL嘴唇处的反射系数,嘴唇处的体积速度为:图3.5:级联无损
6、声管在嘴唇处的流图。,该式与电学的欧姆定律相对应(声压对应电压,体积速度对应电流),声门端声门可以看成是控制送入声道气流的阻碍。电模拟:声门处存在一个内阻抗(感性阻抗),阻抗值为声门处声压与气流体积速度之比,即:ZG=RG+j LG,RG和LG是常数。图3.6:声门端的电模拟图。由图得:式中,U1(0,)声门处的体积速度u1(0,t)的Laplace变换;P1(0,)声门处的声压p1(0,t)的Laplace变换;UG()等效体积速度源uG(t)的Laplace变换。,如果ZG是实数,令m=1,x=0,则由上页式和 8 页偏微分方程组的解,有:解得:式中 kG声门处的反射系数,图3.7:声门端
7、级联无损声管的流图。,将两级声管级联、声门端和嘴唇端与声管级联的结果合成,可以画出基于声管理论的整个流图。图3.8:无损声管模型图。图3.8是无损条件下的结果;若考虑空气与管壁间的摩擦、穿过管壁的热传导以及管壁振动等损耗,也可以解出前述方程式(结果复杂,不再赘述)。管壁振动的影响最大,使低频端谐振频率提高;其它两种损耗的影响较少;两者的净影响只是使低端的 谐振频率比刚性无损声管壁模型的情况稍有上移。,例:图3.9的两级无损声管的流图,在嘴唇处的体积速度为 uL(t)=uL(lL,t),系统的频率响应为 令 s=j,代入上式得该系统的系统函数为:,第3章语音信号的模型3.3级联无损声管与数字滤波
8、器的关系 工程上常将声道用 10 级等长无损声管的级联模型来表征。每节声管长度均为x,x=c=l/N l 10 级声管总长度,一节声管中声传播时间。声门处加单位冲激序列uG=(t),冲激沿声管传播,在节点处,一部分被反射,另一部分继续传播。分析传播过程:(1)声波无反射,直接到达嘴唇的幅度叠加为0,时延为N,则嘴唇处的单位冲激为:0(t-N);(2)一次反射的冲激到达嘴唇处多延迟2,幅度叠加为1,则嘴唇处的单位冲激为:1(t-N-2);(3)某一节两次反射,或某两节各一次反射,延迟为22,幅度叠加为2,则嘴唇处的单位冲激为:2(t-N-22)。,依此分析,无损声管级联系统的冲激响应及Lapla
9、ce变换为:式中,e-Ns传播 N 段管子所需的延迟时间,如果设:其频率响应为:于是:由上式看出,若系统输入是频带有限信号,即/T,且取样周期T=2,则上述系统和下面的离散系统等效:式中,n1,n 0,n 取正整数。,对式 作 z 变换:令 z=esT,s=j,T=2,则 与 等价,即:此时,n=m,即等长无损声管级联系统完全可以用一个取样间隔为2,系数为m的FIR滤波器非递归的方法实现(应取有限项),理论上证明声道可以用数字滤波器模拟。,延迟N 相当于N/T=N/2=N/2的取样,延迟 相当于位移/T=/2=1/2 个样本。图3.9两级无损声管节点信号流 图画成两级等长无损声管流图(图3.1
10、0);每个延迟 用z-1/2代替,可得到 等效的离散系统流图(图3.11)。将图3.11中的4个z-1/2用z-1代替,输出端再乘以z就构成等效的 数字滤波器流图(图3.12)。,分析:每个节点处都需要计算图3.13(a)的流图。计算式为 计算量:4次乘法,3次加法。将上式改写为(流图为图3.13(b)):计算量:2次乘法,4次加法。将上式改写为(流图为图3.13(c)):计算量:1次乘法,3次加法。结论:改变算法结构,计算量不同。,第3章语音信号的模型3.4无损声管模型的传输函数推导无损声管模型的传输函数V(z):式中,UL(z)和UG(z)嘴唇处uL(n)和声门处uG(n)的 z 变换。考
11、虑无损声管模型一个节点处的 z 变换关系,如图3.14所示,其 z 变换方程为(m=1,2,N-1):解得:,定义,上页解改写成:为简化结果,把嘴唇处的边界条件表示成统一的形式。令UN+1(z)为假想的第 N+1 节声管输入的 z 变换。设想这个声管无限长,因此第 N+1 节管子中无反向波,或者等效地看成第 N+1 个声管的终端接有特性阻抗,可得:或,重要的解表达式,后续推导要用到。递推使用可得出声管模型的完整解。,该式要代入递推式中,以求出完整解。,如果 AN+1=c/ZL,AN=ZL,由嘴唇端的方程式,得 利用上页两式,则第一节声管输入处的变量可表示为:按照图3.7,可得声门处的解为:结合
12、以上两式和上页最后一式,推导出下式:,由上式可导出,N 级声管传输函数为:其中,展开上式,用多项式表示为:由此看出,无损声管模型的传输函数只有极点没有零点。极点对应于无损声管的共振峰。假定在声门处,kG=1,zG=,可以导出计算 D(z)的递推公式。(见下页),先定义:其中,。同理,按照定义:其中,。利用归纳法,得:其中,。,最后可得:于是,计算 D(z)的递推公式如下:无损声管节数的选择:取决于语音信号的取样频率。推导关系式:由前面知,取样周期 T=2,是一段声管中声波单向传播所需要的时间。若声管为 N 节,而总长为 l,且每段长度相同,则=l/Nc,解得 N=l/c=2l/Tc。例:当1/
13、T=10 kHz,l=17 cm,c=340 m/s,则 N=10,即需要10节无损声管级联。,第3章语音信号的模型3.5语音信号的数字模型语音信号的数字模型:利用数字技术来模拟语音信号的产生。一种实现发音器官的模拟的技术。数字模型应能产生与语音声波相对应的信号序列。通常,这种模型是一种线性系统,用一组模型参数可表征语音,并可使模型系统的输出所希望的语音。系统的模型参数与语音产生过程有关,常采用离散时间模型。激励与声道的面积函数在10 20 ms的时间范围内近似不变。浊音为准周期脉冲激励;清音为随机噪声激励。因此,语音信号的数字模型是一个缓变的线性系统,线性系统的参数在10 20 ms时间范围
14、内近似不变。,利用 N 节无损声管来模拟声道,已证明其传输函数为:其中,声道系统用一组面积函数 A(x)或一组反射系数 km 来表示。在一帧内,A(x)或 km 近似不变。另外,若有一数字系统,其系统函数表示为:若取,(1)(2)两式性质相当;注意,此处省略了固定延迟 z-0.5N。上述系统函数仅有极点,没有零点,称为全极点模型。除声道响应以外,完整模型还包括激励函数和声辐射的影响。,系统函数 V(z)的极点对应于语音的共振峰。对于大多数语音,全极点模型能很好地模拟声道的特性。声学理论表明鼻音和摩擦音有谐振和反谐振特性,需要用零极点模型才能更好地模拟声道效应。零点较难处理,常用全极点模型代替零
15、极点模型。逼近零点:用多个极点。原理:V(z)的分母多项式的根是实数或复共轭;声道的典型复谐振频率为:复共轭极点相应的时域离散表示为:复共轭极点的幅值和相角为:,图3.15:声道谐振点的平面图。声道谐振的带宽近似为 2k,中心频率为 2Fk。z 平面原极点的距离 决定带宽;相角2FkT决定中心频率。结论:将 V(z)的分母进行因式分解,相应的模拟共振峰频率和带宽可以利用下式求出。人类声道的复自然频率都在s平面的左半平面。因系统是稳定的,所以,k 0,zk 1。即:离散时域模型的极点必在单位圆内,由稳定性所要求。,利用数字滤波器的各种实现方法可以实现声道的时变滤波器。时变数字滤波器的系数是随时间
16、缓变,10 20 ms内不变。例:用直接形式来实现,如图3.16。也可以用二阶系统的级联来实现 V(z),即:,其中,式中,M 为(N+1)/2的整数部分。图3.17:上式的实现级联流图(特点是硬件可时分复用,对参数变化较 敏感,没有并联形式好)。,以上讨论了声道的数字模型,下面分别讨论在嘴唇和声门处的数字模型。嘴唇处的数字模型:根据式,嘴唇处的声压、体积速度与辐射阻抗的关系式及 z 变换为:由于的实部随频率增高而增高,故上式是一种高通滤波运算,可以证明嘴唇辐射的影响可表示为:,声门处激励的数字模型:语音分成清音和浊音,清音由随机噪声激励产生 浊音由准周期脉冲串激励产生,其周期称为基音周期。图
17、3.18:浊音情况下,激励信号的产生示意图。冲激串发生器输出的单位冲激序列(冲激间隔为基音周期)。线性激励系统函数为G(z),经幅度控制后输出为浊音激励。G(z)的反变换 g(n)可以用Rosenberg函数近似表示:式中,N1 斜三角波上升部分的时间,约占基音周期的50;N2 斜三角波下降部分的时间,约占基音周期的35。,斜三角波的占时比例关系与声带开启面积的与时间关系对应。图3.19:单斜三角波波形及频谱。是低通滤波器。其 z 变换的全极点(二极点)模型:式中,C 是一个常数。斜三角波串可看成加权单位脉冲 激励单斜三角波模型的结果。Av是单位脉冲串的幅度因子;单位脉冲串的z 变换为:完整的
18、激励模型为:,清音情况下,发塞音或摩擦音,声道被阻形成湍流。激励可模拟成随机白噪声,用均值为0、方差为1,时间或/和幅值为白色分布的序列。图3.20:考虑所有的激励因素,语音产生的数字模型。特点:二元激励,浊音、清音激励交替进行。声道可以用多种滤波器来模拟,通常,把辐射和声道等因素全部结合,表示为全极点函数:,结论:优点:该模型对大多数语音是一个好模型,能合成出较满意的语音,是分析语音最重要的基础。缺点:二元激励模型有局限性。模型建立“短时”平衡为前提,不完全符合实际;理论上鼻音和擦音需有零点,浊擦音不是简单的浊音和清音的叠加。该模型不能给出模拟。,第3章语音信号的模型3.6语音信号的共振峰模
19、型将声道看成为谐振腔,共振峰是该腔体的谐振频率。柯蒂氏器官的纤毛细胞按频率感受排列,故共振峰模型有效。实践证明:元音用前 3 个共振峰。辅音或鼻音,用到 5 个以上的共振峰。应用物理学,易推导出均匀断面声管的共振峰频率。例:成人声道约为17.5 cm,可计算出:f1=500 Hz,f2=1500 Hz,f3=2500 Hz。发e时声道最接近均匀断面,其共振峰最接近上述值。从语音信号求出共振峰频率、带宽和幅度的方法是重要的。三种实用的共振峰模型:级联型、并联型、混合型。,级联型共振峰模型级联型共振峰模型认为声道是一组串联的二阶谐振器。声道有多个谐振频率和反谐振频率,可模拟为零极点模型。一般元音,
20、使用全极点模型,其传输函数如下:式中,N 极点个数;,G 幅值因子;ak 多项式系数。可将传输函数分解为多个二阶极点的网络的串联,即:式中,M 是(N+1)/2 的整数部分。,第 k 个极点zk为,T 是取样周期,是带宽的 1/2。取上式中的某一级,设为:则其幅频特性及其流图如图3.21所示。图3.22:级联型共振峰模型(取N=10,则M=5)。激励模型和辐射模型参照前述的结果,G 是幅值因子。,并联型共振峰模型 非一般元音和大部分辅音,必须考虑零极点模型。零极点模型传输函数 V(z)为:(分子与分母无公因子及分母无重根)后面的等式是并联型共振峰模型,图3.23是M=5时的示例。,混合型共振峰模型 级联型简单,可描述一般元音。级数取决于声道长度,取35级鼻音、塞音或摩擦音时,级联模型不能胜任。采用并联型可解决其不足。它比级联型复杂些。混合型:级联型与并联型相混合。一种较完备共振峰模型。图3.24:混合型共振峰模型。,第3章语音信号的模型3.7 语音信号的非线性模型(略),谢 谢!,