《《语音编码技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音编码技术》PPT课件.ppt(128页珍藏版)》请在三一办公上搜索。
1、第2章语音编码技术,第2章语音编码技术,本章主要内容语音编码方法、性能及标准 语音信号的采样和量化语音模型和LPC声码器数字音频编码标准语音编码器的实时实现,2.1引言,语音、图像采集,语音波形,“象棋是中国古代战争的艺术再现,它的棋盘就象一个古战场”波形,语音波形,“中国”语音波形,语音波形,“国”字语音波形,语音波形,“国”部分语音波形,语音波形,“audio”语音波形,语音、图像属模拟信号范畴。语音、图像通过编码实现数字化是必然趋势。数字化的语音和图像需要用较高的数码率,需占用较大的带宽和存储空间。压缩数字化语音和图像信号的数码率是实现语音和图像通信数字化的关键。编码技术的核心就是研究压
2、缩编码算法用尽可能低的数码率获得尽可能好的语音和图像质量。,压缩编码的3类方法,(1)概率匹配编码:根据编码对象出现的概率分别给予不同长度的代码,以保证总的代码最短.(2)变换编码:将信号从一种信号空间变换到另一种更有利于压缩编码的信号空间,然后进行编码.(3)识别编码:分解文字、话音、图形和图像的基本特征,与汇集这些基本特征的样本集对照识别,选择失真最小的样本编码传送。,变换编码分为两类.一类是预测变换,利用信号的相关性,预测将来的信号,对预测的误差(余量、残差)进行编码。另一类是函数变换,利用信号在不同函数空间分布的不同,选择合适的函数变换后进行编码。有的文献只将函数变换编码称为变换编码,
3、而将预测变换称为预测编码。,本章主要研究的对象是电话语音信号 带宽:300Hz3400Hz宽带语音及声频信号编码方法要求不同,2.2 语音编码方法、性能及标准,221 语音编码的方法 语音信号编码分别沿着两个方向发展:一个方向是从语音信号波形的特点出发,对波形的采样值,或其预测值,或其预测误差值进行编码,称为语音信号的波形编码。另一个方向是从语音信号的产生机理出发,构造语音信号的模型,提取描述语音信号的特征参数,对模型参数或其预测值进行编码、称为参数编码或模型编码。,三类语音编码器,波形编码参数编码混合编码,波形编码,波形编码以重构语音波形为目的,力图使重建语音波形保持原话音信号的波形。编码时
4、用数据表示语音信号的时间波形,在解码端通过重构与原始语音信号相似的波形来得到近似的话音。般具有适应能力强、话音质量好等优点,但所需用的编码速率高。如脉冲编码调制(PCM)。自适增量调制(ADM)、自适差分编码(ADPCM)、自适预测编码(APC)、子带编码(SBC、自适应变换编码(ATC)等都属于这类编码。它们能在64Kbs一16Kbs的速率上获得较高的编码质量。,参数编码,参数编码不以重构原始信号波形为目的它将语音信号分段,提取能表征语音段特征的参数、在解码端重构一个新的有相似声音但波形不尽相同的语音信号。声码器所用的参数,有的表明声音的短时谱、有的描述语音产生的数学模型。编码速率低,可以低
5、到2.4Kbs以下,甚至达到800 bs。传统声码器由于参数较少,难以重新产生与原始语音相近的声音,合成的语音质量差通道声码器、共振蜂声码器以及线性预测声码器是传统的参数编码器。,混合编码,结合了原有波形编码器质量好和声码器速率低的持点克服了它们各自的弱点,称为混合编码算法。最典型的算法都利用线性预测(LP),采用分析合成方法(AnalysisbySyntheie,AbS)构成能在4Kbs一16Kbs的中速率上得到高质量合成语音如多脉冲激励线性预测编码(MPLPS)、规则脉冲激励线性预测编码(RPELPC)、码本激励线性预测编码(CELP)等。,混合编码算法,80年代以来,低速率(1.2Kbs
6、一4Kbs)的参数编码技术也在迅速发展,对传统声码器不断改进,提出了一些新的语音模型和方法,如混合激励线性预测(MELP)声码器、正弦变换编码器(STC)和多带激励(MBE)声码器。有的声码器已经可以在2.4Kb/s速率提供满足通信质量的语音。,2.2.2 语音编码性能的评价,语音编码的性能可以从4个方面来评价 比特率 语音质量 信号延时 复杂度。语音编码质量 数字通信中,语音质量可以分为广播级质量、长途通信质量或称网络质量、通信质量以及合成语音质量等4级。,4 级语音质量,广播级质量是高质量的宽带(8kHz)广播解说语音。长途电话质量或网络质量是指和传统的电话带宽语音信号(300 Hz一34
7、00 Hz)相当的质量。通信质量是指语音质量有点下降,但仍然保证足够高的自然度和可懂度,可满足大多数专用通信要求。合成语音质量是指语音保持足够高的可懂度,但自然度及讲话人辨认等方面不够好,一般当编码速率低于4Kbs或2.4Kbs时,产生合成语音质量,话音编码研究的目标,在4Kbs时达到长途电话质量在2.4Kbs左右达到通信质量,语音质量评定方法,主观评定方法是以人类听话时对语音质量的感觉来评定。客观评定方法有信噪比、加权信噪比、平均分段信噪比等时域的测量方法,还有谱失真测度和LPC倒谱距离测度等频域测量方法。,主观评定:平均意见得分(Mean Opinion score,MOS),2编码速率编
8、码速率可以用“比特秒(bs)”度量,它代表编码的总速率.编码速率也可以用“比特样点(bp)”度量,它代表平均每个语音样点用多少比特编码.平均每样点的比特数越高,语音波形或参数量化越精细,语音质员也就越容易做高,相应地对传输带宽或存储容量的要求也越高.,3编解码的复杂程度采用复杂一些的算法能获得较好的话音质量或较低的编码速率。4编解码延时 有回声的系统中,往返总延时超过约100ms时,回声将干扰正常接收的声音。对于公用电话网,可能会有几次音频转接也就是会有多次语音编解码,因此对单次语音编解码的延时通常要求不超过5ms10 ms。通常允许话音编码延时在几十ms到100 ms之间。当总延时超过100
9、 Ms时,一般需要采取回声抵消或回声抑制。,2.2.3 语音编码技术的发展和语音编码标准,长途通信网语言编码标准数字蜂窝系统的语音编码标准保密电话语音编码标准,现有ITUT语音编码标准,1.长途通信网语言编码标准,2.数字蜂窝系统的语音编码标准,数字蜂窝语音编码标准,3.保密电话语音编码标准,窄带保密电话应用于带宽受限信通,如短波信道、有线模拟话路、中小功率卫星信道等。只有美国公布了所用保密电话的标准。FS1015是美国联邦标准24Kbs LPC声码器,该标准由美国国防部(DOD)制定。对它的研究始于20世纪70年代末期,它采用10阶LPC预测器。,各种语音编码标准的效果,2.3 语音信号的采
10、样和量化,2.3.1 信号采样,理想冲激抽样,矩形脉冲抽样,信号的重建,对于电话带宽的语音信号,其带宽限制为300 Hz一3400 Hz,采样频率均为8000 Hz。,2.3.2 标量量化,量化是把幅度连续的信号转换成幅度离散的信号,对每个离散值分别进行量化称为标量量化。均匀量化器非均匀量化器之一 最佳量化器 非均匀量化器之二 对数量化器 自适应量化器差分量化器,均匀量化曲线,均匀量化器,均匀量化器广泛应用于线性A/D变换接口,例如在计算机的A/D变换中,常用的有 8位、12位、16位等不同精度。另外,在遥测遥控系统、仪表、图像信号的数字化接口等中,也都使用均匀量化器。语音信号数字化通信中,均
11、匀量化则有一个明显的不足:量化噪比随信号电平的减小而下降。产生这一现象的原因是均匀量化的量化间隔为固定值量化电平分布均匀,因而无论信号大小如何,量化噪声功率固定不变,这样,小信号时的量化信噪比就难以达到给定的要求。,最佳量化器,采用非均匀量化器,其量化特性同输入信号的概率密度函数相匹配可降低量化噪声。在P(x)相对比较高的区域内选择较小的量化间隔,在其他区域选择较大的量化间隔,以降低总的噪声水平。,对数量化器,压缩特性,两种对数压缩特性,13折线A律压扩曲线,A律13折线,律15折线,G.7ll关于PCM的建议,常用的N=8位,fs=8kHz,实际应用的B=Nfs=64 kHz,自适应量化器,
12、自适应量化中,量阶不再是固定的,它根据输入信号的短时方差进行调整使量阶的大小和输入信号电平相匹配前向自适应量化(AQF)后向自适应量化(AQB),前向自适应量化(AQF),后向自适应量化(AQB),差分量化器,量化之前预处理。对预测后的残差(或余置)信号进行量化的称为差分量化器可以提高量化精度或减少编码比特数后向自适应差分量化器前向自适应差分量化器,后向自适应差分量化器,前向自适应差分量化器,.矢量量化,矢量量化(vector Quantation)是一种高效的数据压缩技术。它将若干个时间离散幅度连续的采样值分为一组,形成多维空间的一个矢量,再将此矢量进行量化处理。提高量化效率,降低数码率。,
13、矢量量化,简单矢量量化结构,矢量量化,设Xx1,x2,xN T是一个N维实数矢量,其中的元素是幅度连续的随机变量。在矢量量化器中 X矢量用另一个幅度离散的N维实数矢量Y匹配,即用Y表示X,或者说X被量化成Y。Y选自一有限集合S=Y i(1i M),Y i yi1,yi2,yiNT。集合S称为码本(codebook)或参考模板(reference template)。M称为码本容量。相当于标量量化中的量化电平数。设计一个码本,使N维矢量空间划分为M个区域或单元C i(1i M),并且每一个单元C i对应一个矢量Y i如果有一个矢量X在C i中,量化器就以码本矢量Y i表示。,矢量量化的2维空间,
14、一个2维空间划分为18个单元,实现矢量量化的两个原则,一,如何划分M个区域边界。这需要用大量的输入信号矢量经过统计实验确定这个过程称为“训练”或“建立”码本。“最近邻原则”二,设区域内所有输入矢量X的集合为S l 那么该区域的码本矢量Y l应使此集合中所有矢量与Y l之间的畸变平均值最小。Y l应等于S l中所有矢量的“质心”,失真准则,均方误差(MSE),码本设计,根据介绍的两条原则可以形成一种码本设计的递推算法。这种算法是基于SPLloyd的标量量化递推算法,由YLinde、ABuzo和RMGray推广至多维空间后形成的所以常称为LBG算法或GLA(Generalized Lloyd Al
15、gorithm)。,码本类型和码本搜索,树状码本VQ系统 多级VQ 系统 分裂式VQ,树状码本VQ系统,2.4 语音模型和LPC声码器,2.4.1 语音信号的基本特性 语音信号是一个非稳态信号。其特征是随时间变化的,但在一个很短的时间段内,可以认为具有相对稳定的特征,故称为准平稳信号。这个时间段约5ms-50 ms。语音可以分为浊音、清音和混合音。,浊音、清音,浊音语音在时域上具有准周期特性,在频域上具有谐波结构。清音语音类似于随机噪声,其频带较宽。,语音信号波形及其短时谱,浊音声波波形图,浊音段窗取波形及典型频谱,(a)汉明窗取浊音波形;(b)浊音典型频谱,清音波形图,清音典型频谱,浊音的频
16、谱结构,浊音的频谱结构有两个特点:第一,它的精细谱具明显的周期性起伏的谐波特点;第二,它的谱包络具有所谓的共振峰结构即其谱包络中有几个明显的突起点,称为“共振峰(Formant)”,其位置称为共振峰频率。,语音产生的机理,语音信号的特点是由语音产生的机理造成的。发浊音时,气管的气流冲击声带,使声带振动,形成一串周期性的脉冲气流送入声道。脉冲气流叫做声门脉冲。声门脉冲激励声道产生浊音,声门脉冲的频率叫做基音频率。发清音时,声带不振动,声道紧缩成窄通道,气流通过时产生湍流,因而明显地具有随机噪声的特性。,2.4.2 语音信号的线性预测模型,LPC:线性预测编码(Linear Predictive
17、coding)模型化的激励信号分为浊音和清音浊音语音用周期脉冲序列表示,周期脉冲序列的周期叫做基音周期清音语音用随机噪声表示声门气流、声道以及唇辐射的联合作用由一个时变数字滤波器表示,时变数字滤波器,零极点模型,全极点模型,LPC差分方程,简化语音信号产生模型,LPC声码器,LPC差分方程,表明当前的输出值s(n)可以用当前的输入值Gx(n)和过去输出采样值的加权和来表示,即具有线性可预测性。LPC分析问题可以表述为:给定信号s(n),求参数aj(j1,p),用求出的结果作为模型的传递函数参数。与激励参数(清、浊音的产生与判别)一起构成员基本的声码器,称为LPC声码器。,最小均方估计 信号设为
18、平稳的(20ms语音段),预测器系数3种求解方法,自相关方法(AM,Auto-correlation Method)、协方差法(CM,Covariance Method)格型方法(LM,Lattic Methods)。,2.4.3 基音检测,利用语音信号时域持性检测利用语音信号频域特性检测同时利用语音信号时域和频域特性检测短时自相关函数短时平均幅度差函数(AMDF),基于求短时自关函数的基音周期估计,基于短时平均幅度差函数(AMDF)的基音周期估计,sw(n)是一段加窗语音信号,非零区域为n=0-N一1sw(n)的自相关函数称为语音信号s(n)的短时相关函数,周期性语音信号短时自相关函数和AM
19、DF,进行非线性变换后再求自相关函数,语音信号经过中心削波后的自相关函数,示例:自相关法提取基音系统框图,2.4.4 LPC声码器,在发送端,逐帧地分析并提取声源和声道的有关特征参数,编码后输出。在接收端,解码后获得相应的特征参数,重新合成语音信号。,LPC10声码器,LPC声码器速率:24Kbs或者更低 在LPC声码器中,描述语音的特征参数是 p阶全极点模型的谱参数ai(i=1,p)增益清浊音判决信息浊音时的基音音调,LPCl0发送端框图,LPC10接收端框图,LPC 声码器主要存在下面几个问题,(1)由于LPC10声码器采用过分简化的二元激励,使合成的语音自然度较低。(2)由于在噪声的影响
20、下不易准确提取基音周期和不能正确判决清浊音,当背景噪声较强时,系统性能显著恶化。(3)LPC10 的语音谱共振峰位置及带宽估值有时会产生很大的失真,从而影响语音的质量。,LPC10声码器的改善,1激励源的改善(1)采用混合激励代替简单的二元激励(2)激励脉冲加抖动 2基音提取方法的改善3声道滤波器参数的改善,25 语音的合成分析编码,合成分析法(ABS)的基本思想是用合成来指导分析。将合成器引入编码瑞,使之与分析器相结台,在编码器中产生与译码器端完全一致的合成语音,将此合成语音与原始语音相比较,根据一定的误差准则调整计算各个参数,使得二者之间的误差达到最小。将误差最小时的系统参数传送到接收端,
21、可以合成较高质量的语音。,AbSLPC编码方法,(1)缓存一帧语音采样值通道LPC分析得到一组LPC系数。(2)通过LPC逆滤波计算不量化的残差信号。(3)由于LPC分析帧通常较长,确定激励信号时需要把一帧分成几个子帧。(4)对每个子帧计算基音滤波器(长时预测器)参数。(5)将基音和LPC合成滤波器级联起来,选择最佳激励信号。(6)接收端根据收到的码字或数据求得最佳激励信号,通过级联滤波器产生与原始语音误差最小的合成语音。,AbSLPC,2.6 多带激励(MBE)和混合激励线性预测(MELP)编码,多带激励(MBE)语音编码 混合激励线性预测(MELP)编码,多带激励(MBE)语音编码,MBE
22、编码算法首先由美国的MIT大学林肯实验室的和于1984年提出的。算法的关键是提出了一种基于频域的、新的语音信号产生模型多带激励模型,进而提高了合成语音的自然度。,MBE语音模型,MBE模型与传统的声码器模型的突出区别在激励模型的表示上。传统的声码器模型整个频带不是清音就是浊音激励谱由全频带的清浊音判决并由基音周期表示。这种描述方法不能反映语音的复杂构成,合成语音自然度差。MBE模型,将整个频带以基音谐波为中心以基音频率为带宽划分为若干频带,在每个频带根据频谱特征进行清浊音判决,形成多带激励谱。整个激励谱由基音频率和它的谐波以及一组清浊音判决参数表示,能较好地反映语音特征。,混合激励线性预测(M
23、ELP)编码,MELP算法的基本特点:采用了混合激励的形式代替基本LPC模型的二元激励形式将周期脉冲激励源和白噪声源混合作为激励信号解决了二元激励模式不能准确描述过渡帧和弱浊音帧的问题使合成激励信号谱与残差信号谱更加匹配吸取MBE模型的思想,对激励信号进行分带处理MELP声码器的质量大大超过LPC10声码器,是一种较理想的低速率语音编码算法,MELP简要框图,1.分析部分,基音提取分为几个步骤:首先是用自相关法进行整数基音初估,得到整数基音初值;然后利用内插公式提高输入基音值的准确度。分带话音分析首先将输入语音信号滤成5个子频带的信号,计算5个子带的分带话音强度井以此为依据进行分带清浊音判决。
24、线性预测分析用LD算法进行自相关分析。对线性预测系数的量化使用多级矢量量化技术。计算残差谐波谱时,首先使用量化后的LSF参数计算线性预测系数,并用它产生残差信号,对其进行FFT变换。利用频谱峰点检测算法找到与前10次谐波对应的傅里叶系数输出。,2.合成部分,合成部分仍然采取LPC合成的形式,不同的是激励信号的合成方式和后处理。MELP算法中,混合激励为合成分带滤波后的脉冲与噪声激励之和。脉冲激励是用长度为个基音周期的残差谱博里叶系数的离散博里叶反变换计算出来。噪声激励是首先产0,1间均匀分布的白噪声源,再对其进行电平调整和限幅。脉冲和噪声源各自滤波后加在一 起合成混合激励。混合激励信号合成后经
25、自适应谱增强滤波器处理,用于改善共振峰的形状。随后,激励信号进行LPC合成得到合成语音。,3.参数量化编码部分,MELP算法的参数包括LPC参数、基音周期、模式分类参数、分带混合比例、残差谐波谱参数和增益。,数字音频编码标准,话音音频编码标准 1.G.711标准 CCITT(国际电报电话咨询委员会)于1972年对话音频谱的模拟信号用脉冲编码调制(PCM)编码时的特性进行了规范速率为64 kb/s适合于电话质量的语言信号编码(频率范围300 Hz3.4 kHz),2.G.721标准,G.721标准是CCITT1988年制订的 速率为32 kb/s 采用自适应差分脉码调制(ADPCM)算法 适合于
26、中等质量音频信号编码,同时也应用于调幅广播质量的音频信号编码,3.G.722标准 G.722标准是CCITT1988年制订的,该标准规范了一种音频(507000Hz)编码系统的特性速率为64 kb/s采用子带自适应差分脉码制(SB-ADPCM)算法具有数据插入的功能适合于调幅广播质量的音频信号编码,也适合于需要存储大量高质量音频信号的多媒体系统例如视听多媒体、会议电视等具有调幅广播质量的音频,G.722编/解码器原理框图(a)发端编码器;(b)收端解码器,4.G.728标准 速率为16 kb/s 采用短时码本激励线性预测编码(LD-CELP)算法 适合于高质量的语音信号编码,5.G.729标准
27、 G.729标准提出了一种采用共轭结构代数码激励线性预测(CSACELP)方法 是以8kb/s速率对语音信号编码的算法它是由ITUT于1995年制订的该算法应用在多媒体通信和IP电话等领域,CSACELP编码器原理,GSM标准由欧洲数字移动特别工作组制订速率为13 kb/s采用长时线性预测规则码本激励(RPE-LTP)算法适合于移动通信的低速语音编码 编码净比特率为K b/s,加上信道抗干扰编码后为22.8 K b/s,再加上管理信息等,信道传送速率为24.7K b/sRPE-LTP方案由预处理、LPC分析、短时分析滤波、长时预测和规则激励码编码五大部分构成,GSM标准的长时线性预测规则码本激
28、励(RPE-LTP)编码原理图 方案由预处理、LPC分析、短时分析滤波、长时预测和规则激励码编码五大部分构成,GSM的RPE-LTP方案的一帧中各参数编码比特分配如表,每帧20ms,共260bit量化编码,所以净编码速率为13 kb/s,CTIA标准美国数字移动通信标准 速率为8 kb/s 采用矢量和激励线性预测(VSELP)算法,压缩率大,计算量适中 同GSM的13 kb/s标准一样,应用在低速语音编码领域,NSA标准 美国国家安全局标准 速率为4.8 kb/s和2.4 kb/s 分别采用码本激励(CELP)和线性预测(LPC)编码方案。,高保真立体声音频编码标准,1.MPEG1音频编码标准
29、 是国际上第一个高保真立体声音频编码标准以MUSICAM(Masking Pattern Universal Subband Integrated Coding And Multiplexing)为基础的三层编码结构 根据不同的应用要求,使用不同的层来构成其音频编码器,2.MPEG2音频编码标准 在MPEG1音频编码方案,MUSICAM只能传送左、右两个声道 MPEG2在其基础上扩展了低码率多声道编码,称为MUSICAM环绕声 该方案将声道数扩展至5.1个,即3个前声道(左L、中C和右R)、2个环绕声道(左LS、右RS)和1个超低音声道LFE(常称为0.1声道)它于1994年公布,3.MPEG
30、4音频编码标准 MPEG4定义了3种类型的编码器 低速率音频编码,对8kHz取样的语音的24kb/s速率的编码 中速率音频编码,对8或16kHz取样的语音的416kb/s速率的编码 高速率音频编码,指16kb/s以上速率的编码,4.AC3系统 AC3系统是Dolby公司开发的新一代高保真立体声音频编码系统。目的是为美国的全数字式高清晰度电视(HDTV)提供高质量的伴音。1993年11月,美国高级电视系统委员会(ATSC)正式批准其大联盟高清晰度电视(GAHDTV)系统采用AC3音频编码方案。,AC3系统音频编码原理,2.7 语音编码器的实时实现,语音编码器的实时实现除采用专用芯片外还有两种方法
31、。一种是计算机主机上用计算机本身的主处理器完成语音信号实时编解码。另一种方法是用数字信号处理器(DSP)实现,这是各种独立工作系统以及研究开发时采用的方法。,基于DSP的语音编码器实时实现,2.7.1 DSP 芯片1.首先应该考虑是选用浮点还是定点DSP。2.其次要根据语音编码算法的复杂度选择所需的DSP芯片运算速度。3.DSP芯片的功耗是一个非常重要的选择因素。4.还应该考虑DSP芯片提供的硬件资源。,2.7.2 声码器实时实现的实例,系统硬件设计 系统软件设计 系统硬件设计1.TMS320C31为主处理器,完成语音编码算法以及通信和控制任务。2.模拟接口部分完成语音AD、DA等功能。3.数
32、据接口完成一个标准的同步接口,输入、输出编解码参数。4.控制接口控制选择不同速率。,多速编码器硬件结构,多速编码器硬件单元,处理器部分模拟接口部分数据接口部分速率控制口,系统软件设计,整个系统软件全部由TMS320C31完成。全部软件包括3个模块,即主模块、话音输入输出模块和数据通信模块。,声码器软件各模块的工作时序,2.7.3 语音编码器的应用技术,同步 回波抵消技术 话音激活检测(VAD),回波抵消技术,所谓回波,是指在二四线转换的混合电路中,由于阻抗不匹配,使得四线接收通路的信号泄露到四线发送通路,使得对方讲话者能听见自己延时的声音。在延时短并放适当衰减的情况下,这种回被一般觉察不到。低速的语音编码器往往会带来较大的编解码延时,加上系统本身的传输延时,回波可能影响正常通话,而需要采用回波抵消技术。回波抵消功能一般都在语音编码器中实现。,没有回波的电话通信(阻抗匹配),2/4线转换装置-混合电路,电话通信中电回波产生机理,单向回波抵消原理(一个回波抵消器),自适应横向滤波技术实现回波抵消,两端使用回波抵消器(二个回波抵消器),第二章完,