《数字音频处理.ppt》由会员分享,可在线阅读,更多相关《数字音频处理.ppt(120页珍藏版)》请在三一办公上搜索。
1、第2章 数字音频处理,本章重点:模拟音频与数字音频的概念数字音频的获取音频信号压缩编码音乐合成和语音识别,第2章 数字音频处理,2.1概述2.2数字音频的获取2.3音频信号压缩编码2.4音乐合成和MIDI2.5语音识别2.6实验部分2.7本章小结,2.1概述,声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,10%是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。
2、,2.1概述,幅值,t,一个周期,+,空气压强,图2.1 空气压强振荡的波形示意图,0,人耳能识别的声音频率范围大约在2020kHz,通常称为音频(audio)信号。,2.1概述,音频信号所携带的信息大体上可分为语音、音乐和音效三类。语音,指具有语言内涵和人类约定俗成的特殊 媒体。音乐,指规范的符号化了的声音。音效,指人类熟悉的其他声音。在多媒体系统中,处理的信号主要是音频信号。,2.1概述,声音包含三个要素:音调、音强和音色。基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。人对声音频率的感觉表现为音调的高低
3、,在音乐中称为音高。音调正是由频率所决定的。,2.1概述,音乐中音阶的划分是在频率的对数坐标(20log)上取等分而得的。如表所示,20log261=48.3,20log293=49.3等。,2.1概述,谐波与音色:no称为基波o的n次谐波分量(n就是高次谐波的方次,n o就是基波o的n次谐波),也称为泛音。音色是由混入基音的泛音所决定的。幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:动态范围20log(信号的最大强度/信号的最小强度)(dB),2.1概述,音宽与频带:频带宽度,也称为带宽,它是描述组成复合信
4、号的频率范围。客观上,通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。动态范围越大,信号强度的相对变化范围越大,音响效果越好。,CD-DA数字音乐、FM广播、AM广播和电话的带宽,2.1概述,声音的质量可以通过信噪比来度量。信噪比(SNR,Signal to Noise Ratio)是有用信号与噪声之比的简称,定义为:信噪比越大,声音质量越好。,2.2数字音频的获取,2.2.1采样2.2.2量化2.2.3数字音频的技术指标2.2.4数字音频的文件格式,音频信息处理结构框图,2.2.1采样,图2.5 模拟信号的采样,所谓采样就是
5、在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。,2.2.1采样,采样时间间隔称为采样周期t,其倒数为采样频率fs=1/t。一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。根据奈奎斯特定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。,2.2.2量化,每个采样值在幅度上进行离散化处理的过程称为量化。量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅
6、度等间隔分成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以8bit或16bit的方式来划分纵轴为例,其纵轴将会被划分为28个和216个量化等级,用以记录其幅度大小。,均匀量化,2.2.2量化,非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。非均匀量化的实现方法通常是将采样值x通过一个变换y=f(x)后,再对y进行均匀量化,这种变换通常叫做压扩。根据函数f(x)的不同,非均匀压扩可以分为u律压扩算法和A律压扩算法。量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。,A律和律,律压扩,律压扩的数学解析式
7、:其中:x为输入信号的归一化值;y为压扩后的信号。对话音信号编码,常采用=255,这样适量化信噪比改善约24dB。,A律压扩,其特性可表示为:,A律压扩,很明显,小信号时为线性特性,大信号时近似为对数特性。这种压扩特性常把压缩、量化和编码合为一体。A律可用13段折线逼近(相当于A=87.6),便于用数字电路实现。,2.2.3数字音频的技术指标,衡量数字音频的主要指标包括:采样频率量化位数 通道(声道)个数 数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算:数据传输率=采样频率量化位数声道数,2.2.3数字音频的技术指标,例:假定语音信号的带宽是50 Hz10kHz,而
8、音乐信号的是15Hz 20 kHz。采用奈奎斯特频率,并用12bit表示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解:语音信号:取样频率210kHz20kHz;比特率=20k12240 kbit/s 音乐信号:取样频率220kHz40kHz;比特率40kl6kbit/s21280kbits(立体声)所需存储空间1280k 600896MB,2.2.4数字音频的文件格式,WAV文件格式简介 WAV是Microsoft Windows提供的音频格式。这个格式是目前通用音频格式,它通常用来保存一些没有压缩的音频。目
9、前所有的音频播放软件和编辑软件都支持这一格式。WAV文件由三部分组成:文件头(标明是WAV文件、文件结构和数据的总字节数)、数字化参数(如采样频率、声道数、编码算法等),最后是实际波形数据。一般来说,声音质量与其WAV格式的文件大小成正比。,WAVE(Waveform Audio File Format)文件是多媒体中使用的声音文件格式之一,它以RIFF格式为基础,每个WAVE文件的头四个字节为“RIFF”。WAVE文件的扩展名为“.WAV”。,WAVE 文件格式,WAVE 文件格式,Format 块,Sound 数据块,RIFF WAVE Chunk,WAVE文件由文件头和数据两部分组成。,
10、最小的 WAVE文件结构 _|RIFF WAVE Chunk|groupID=RIFF|riffType=WAVE|_|Format Chunk|ckID=fmt|_|_|Sound Data Chunk|ckID=data|_|_ _|,RIFF WAVE 块头,块标志 RIFF块大小(32-bits)Wave类型标志 WAVE,The Format(fmt)Chunk格式块(fmt)是WAVE文件必选项,描述波形文件的基本参数,如采样率、位分辨率以及通道数等。#define FormatID fmt/*chunkID for Format Chunk.*/typedef struct ID
11、 chunkID;long chunkSize;short wFormatTag;/*currently PCM*/unsigned short wChannels;/*num of channels*/unsigned long dwSamplesPerSec;/*sample rate in Hz*/unsigned long dwAvgBytesPerSec;/*xxx Bytes/s*/unsigned short wBlockAlign;/*1/2/4-8/16 mono/stereo*/unsigned short wBitsPerSample;/*bits in a sample
12、*/*根据 wFormatTag不同,可以有附加字段.*/FormatChunk;,Data Chunk数据块包含实际的波形数据:#define DataID data/*chunk ID for data Chunk*/typedef struct ID chunkID;long chunkSize;unsigned char waveformData;DataChunk;,Offset Description-Offset Contents-0 x00 chunk id RIFF0 x04 chunk size(32-bits)0 x08 wave chunk id WAVE0 x0C f
13、ormat chunk id fmt 0 x10 format chunk size(32-bits)0 x14 format tag(currently PCM)0 x16 number of channels 1=mono,2=stereo0 x18 sample rate in Hz0 x1C average bytes per second-,-Offset Contents-0 x20 number of bytes per sample 1=8-bit mono 2=8-bit stereo or 16-bit mono 4=16-bit stereo 0 x22 number o
14、f bits in a sample 0 x24 data chunk id data 0 x28 length of data chunk(32-bits)0 x2C Sample data-,2.2.4数字音频的文件格式,MP3文件格式简介 MP3是第一个实用的有损音频压缩编码技术。在MP3出现之前,一般的音频编码即使以有损方式进行压缩,能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例。衡量MP3文件的压缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。,2.2.4数字音频的文件格式,MIDI 文件格式简介 M
15、IDI最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。随着在电脑里面引入了支持MIDI合成的声音卡之后,MIDI才正式地成为了一种音频格式。MIDI的内容除了乐谱之外还记录了每个音符的弹奏方法。,2.2.4数字音频的文件格式,各种文件格式与WAV格式之间可以进行转换。最简单的方法就是使用WINAMP。只要WINAMP能播放某种格式的音乐,就可以通过它的Output Plugin中的Disk Writer Plugin 来输出为WAV文件。目前WINAMP支持的格式包括:VOC、WAV、MID、MP3、MP2、MP1、CD、IT、XM、S3M、STM、MOD、DSM、FAR、ULT、MTM
16、、669、AS、WMA、MJF。,2.3音频信号压缩编码,2.3.1概述2.3.2编码方法2.3.3音频数据的标准,2.3.1 音频编码基础,为什么要进行语音编码?为什么能进行语音编码?,为什么要进行语音编码?,随着对音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而带来处理这些数据的时间和传输、存储这些数据的容量增加,因此多媒体音频压缩技术是多媒体技术实用化的关键之一。,.语音信号中存在多种冗余度 1.时域信息的冗余度 2.频域信息的冗余度 3.人的听觉感知机理.音频编码的分类,为什么能进行语音编码?,语音信号中存在多种冗余度:,时域信息的冗余度(1)幅度的非均匀分
17、布(2)样本间的相关(3)周期之间的相关(4)基音之间的相关(5)静止系数(6)长时自相关函数,1,2,例:语音的时域信息的冗余度,基音周期(音调周期),一 个 单 音 1,(1)非均匀的长时功率谱密度(2)语音特有的短时功率谱密度人的听觉感知机理(1)人的听觉具有掩蔽效应(2)人耳对不同频段的声音的敏感程度 不同(3)人耳对语音信号的相位变化不敏感,2.频域信息的冗余度,在给定的编码速率下获得尽可能好的高质量语音。1.主观评价(1)可懂度评价(2)音质评价:平均意见得分、判断满 意度测量 2.客观评价,语音编码系统性能评价,2.3.1概述,根据解压后数据是否有失真可以将音频压缩分为无损压缩(
18、无失真压缩)和有损压缩(有失真压缩)。无损压缩的压缩效率低,但是可以无失真地重现原始数据。无损压缩的压缩效率较高,但有数据丢失。,2.3.1概述,音频信息编码技术主要可分为三类。波形编码:这种方法主要基于语音波形预测,它力图使重建的语音波形保持原有的波形状态。常用的波形编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等。,2.3.1概述,波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。它的优点是编码方法简单、易于实现、适应能力强、语音质量好等,缺点是压缩比相对来说较低,需要较高的编码速率。
19、,2.3.1概述,参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。显然参数编码压缩比很高,但计算量大。它主要用于在窄带信道上提供4.8kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线性预测(LPC)编码。,2.3.1概述,混合编码:这种方法克服了原有波形编码与参数编码的弱点,并且结合了波形编码的高质量和参数编码的低数据率,取得了比较好的效果。混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。由于每种编码方法都有自己的优势和不足,若是用两种或两种以上的编码
20、方法进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。,2.3.2编码方法,常用的音频编码压缩算法有以下几种。增量调制 增量调制(DM)是一种比较简单且有数据压缩功能的波形编码方法。在编码端,由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上相减,从而得到差值。差值的极性可以是正也可以是负。若为正,则编码输出为;若为负,则编码输出为0。这样,在增量调制的输出端可以得到一串1位编码的DM码。,2.3.2编码方法,增量调制的系统结构图,增量调制编码过程示意图,问题1:斜率过载,当语音信号大幅度发生变化时,阶梯波形的上升或下降有可能跟
21、不上信号的变化,因而产生滞后,这种失真称为“过载失真”。在斜率过载期间的码字将是一连串的0或者一连串的1。,为避免斜率过载,要求阶梯波的上升或下降的斜率必须大于或等于语音信号的最大变化斜率。,当话音信号不发生变化或者变化很缓慢时,预测误差信号将等于零或具有很小的绝对值,在这种情况下,编码为0和1交替出现的序列。这样,在解码器中所得到的是等幅脉冲序列,这样形成的噪声称为颗粒噪声。,问题2:颗粒噪声,为了减少颗粒噪声,希望使输出编码1位所表示的量化阶距小一些。但是,减少量化阶距会使在固定采样速度下产生更严重的斜率过载。为了解决这些矛盾,促使人们研究出了自适应增量调制(ADM)方法。,分析,2.3.
22、2编码方法,自适应增量调制(ADM)在ADM中,常用的规则有两种:一种是控制可变因子M,使量化阶距在一定范围内变化。对于每一个新的采样,其量化阶距为其前面数值的M倍。而的值则由输入信号的变化率来决定。如果出现连续相同的编码,则说明有发生过载的危险,这时就要加大。当0、1信号交替出现时,说明信号变化很慢,会产生颗粒噪声,这时就要减少M值。,2.3.2编码方法,其典型的规则为:,另一类使用较多的自适应增量调制称为可变斜率增量调制。其工作原理如下:如果调制器连续输出三个相同的码,则量化阶距加上一个大的增量,也就是说,三个连续相同的码表示有过载发生。反之,则量化阶距增加一个小的增量。,2.3.2编码方
23、法,可变斜率增量的自适应规则为:,式中,可在01之间取值。可以看到,的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。和为增量,而且要大于等于。,2.3.2编码方法,脉冲编码调制PCM PCM编码是对连续语音信号进行空间采样、幅度量化及用适当码字将其编码的总称。PCM是一种最通用的无损压缩编码,其特点是保真度高,解码速度快,但编码后的数据量大。CD-DA就是采用的这种编码方式。PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。,2.3.2编码方法,差分脉冲编码调制DPCM 差分脉冲编码调制的中心思想是对信号的差值而不是对信号本身进行编码。这
24、个差值是指信号值与预测值的差值。预测值可以由过去的采样值进行预测,其计算公式如下所示:,2.3.2编码方法,式中为预测系数。因此,利用若干个前面的采样值可以预测当前值。当前值与预测值的差为:,差分脉冲编码调制就是将上述每个样点的差值量化编码,而后用于存储或传递。,2.3.2编码方法,自适应差分脉冲编码调制ADPCM 将自适应量化器和自适应预测器结合在一起用于DPCM之中,从而实现了自适应差分脉冲编码。ADPCM是一种有损压缩编码,记录的量化值不是每个采样点的幅值,而是该点的幅值与前一个采样点幅值之差。,2.3.2编码方法,其简化框图如下图所示:,图2.10 ADPCM框图,预测PCM样本,+,
25、+,PCM样本+,差分量化器,ADPC“差值”,量化阶调整,逆量化器,预测器,ADPC“差值”,2.3.2编码方法,子带编码 首先用一组带通滤波器,将输入的音频信号分成若干个连续的频段,并将这些频段称为子带。然后,再分别对这些子带中的音频分量进行采样和编码。最后,再将各子带的编码信号组织到一起进行存储或送到信道上传送。在信道的接收端得到各子带编码的混合信号,将各子带的编码取出来,对它们分别进行解码,产生各子带的音频分量,再将各子带的音频分量组合在一起,恢复原始的音频信号。,2.3.2编码方法,子带编码的原理框如下图:,2.3.2编码方法,变换域编码 在子带编码中,划分子带的方法是通过带通滤波器
26、来完成的。而另外一种方法就是通过变换域编码方法,将输入信号直接转换到频域,然后在频域划分各频段,根据不同的频段能量大小分配码字然后编码,接收端解码后再用相应的反变换转换成时域信号。,2.3.3音频数据的标准,从数据通信的角度,音频编码标准主要有三种:在电话传输系统中应用的电话质量的音频压缩编码技术标准,如PCM(ITU G.711)等。在窄带综合服务数据网传送中应用的调幅广播质量的音频压缩编码技术标准,如G.722等。在电视传输系统、视频点播系统中应用的音频编码标准,如MPEG音频标准等。,2.3.3音频数据的标准,电话质量的音频压缩编码技术标准(1)G.711 G.711标准是1972年CC
27、ITT(现称为ITU-T)制定的PCM语音标准,采样频率为8kHz,每个样本值用8位二进制编码,因此输出的数据率64kb/s.采用非线性量化律或A律,将样本精度为13位的PCM按A律压扩编码,14位的PCM按律压扩编码转换为8位编码,其质量相当于12bit线性量化的音质。,2.3.3音频数据的标准,(2)G.721 G.721标准是1984年ITU-T制定的,主要目的是用于64kbit/s的A律和律PCM与32kbit/s的ADPCM之间的转换。它基于ADPCM技术,采样频率为8kHz,每个样本与预测值的差值用4位编码,其编码速率为32kbit/s。,2.3.3音频数据的标准,(3)G.728
28、 G.728标准是一个追求低比特率的标准,其速率为16kbit/s,其质量与32kbit/s的G.721标准基本相当。它使用了LD-CELP(低延时码本激励线性预测)算法。,2.3.3音频数据的标准,调幅广播质量的音频压缩编码技术标准 调幅广播质量音频信号的频率在50Hz7kHz范围。CCITT在1988年制定了G.722标准。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbit/s,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbit/s可以被压缩成64kbit/s,最后进行数据插入(最高插
29、入速率达16kbit/s)。,2.3.3音频数据的标准,高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是50Hz20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道705kbit/s。,2.4音乐合成和MIDI,2.4.1概述2.4.2计算机上合成音乐的产生过程2.4.3MIDI音乐合成器,2.4.1概述,数字音频实际上是一种数字式录音/重放的过程,它需要很大的数据量。在多媒体系统中,除了用数字音频的方式之外,还可以用采样合成的方式产生音乐。音乐合成的方式是根据一定的协议标准,采用音乐符号记录方法来记录和解释乐谱,并合成相应的音乐信号,这也就
30、是MIDI(Musical Instrument Digital Interface)方式。,2.4.1概述,MIDI是乐器数字接口的缩写,泛指数字音乐的国际标准,它是音乐与计算机结合的产物。MIDI不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。,2.4.1概述,音乐合成器生成音乐采用MIDI文件存储。MIDI文件是用来记录音乐的一种文件格式,文件后缀是“.mid”或者“.midi”。这种文件格式非常特殊,其中记录的不是音频数据,而是演
31、奏音乐的指令,不同的指令与不同的乐器对应,就像乐队演奏交响曲一样,每一种乐器发出不同的声音,合在一起组成了听众听到的音乐。,2.4.1概述,一个MIDI文件包括一个头块和若干个轨迹块。每个轨迹块中可以包含若干个指令,每个指令的基本格式是一样的,在基本格式的基础上各个指令有所差别,指令可以用来记录一个声音、一个系统命令等内容。,2.4.2计算机上合成音乐的产生过程,MIDI音乐的产生过程如图:,图2.12 MIDI音乐的产生过程示意图,MIDI指令,MIDI乐器,MIDI接口,合成器,扬声器,音序器,MIDI文件,音频卡,PC机,2.4音乐合成和MIDI,把MIDI指令送到合成器,由合成器产生相
32、应的声音。MIDI标准提供了16个通道。按照所用通道数的不同,合成器又可分成基本型和扩展型两种,如下表所示。,2.4音乐合成和MIDI,MIDI合成的产生方式有两种:FM(frequency Modulation)合成和波形表(wavetable)合成。FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。FM频率调制合成是通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起。,2.4音乐合成和MIDI,目前较高级的音频卡一般都采用波形表合成方式。波形表的原理是在ROM中已存储各种实际乐器的声音采样,当需要合成某种乐器的声音时,调用相应的实际声音采样合成该乐器的乐音。显然,
33、ROM存储器的容量越大,合成的效果越好,但价格也越贵。,2.5语音识别,2.5.1文本-语音TTS技术2.5.2语音识别系统实例-IBM Via Voice,2.5.1文本-语音TTS技术,TTS的基本概念 文语转换(Text-to-Speech)是将文本形式的信息转换成自然语音的一种技术,其最终目标是力图使计算机能够以清晰自然的声音,以各种各样的语言,甚至以各种各样的情绪来朗读任意的文本。也就是说,要使计算机具有像人一样、甚至比人更强的说话能力。因而它是一个十分复杂的问题,涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。,2.5.1文本-语音TTS技术,TTS分为
34、综合的和连贯的两种类型。综合的语音就是通过分析单词,由计算机确认单词的发音,然后这些音素就被输入到一个复杂的模仿人声音并发声的算法,这样就可以读文本了。通过这种方式,TTS就能读出任何单词,甚至自造的词,但是它发出的声音不带任何感情,带有明显的机器语音味道。,2.5.1文本-语音TTS技术,连贯语音系统分析文本从预先备好的文库里抽出单词和词组的录音。数字化录音是连贯的,因为声音是事先录制的语音,听起来很舒服。遗憾的是,如果文本包含没有录的词和短语,TTS就读不出来了。连贯TTS可以被看成是一种声音压缩形式,因为单词和常用的短语只能录一次。连贯TTS会节省开发时间并减少错误,使软件增加相应的功能
35、。,2.5.1文本-语音TTS技术,TTS系统的组成与工作过程 汉语TTS系统有3个主要的组成部分:文本分析模块、韵律分析模块、语音生成模块。TTS的基本工作过程是:输入的汉字文本经语言学和语音学处理,得到语流的控制参数,然后读取语音数据库,再经语音信号处理,输出连续的语音。,2.5.1文本-语音TTS技术,TTS的应用领域 文语转换在各种计算机相关领域中有着广泛的应用前景。除了人-机交互外,TTS系统在医疗、教育、通信、信息、家电等领域也具有相当广泛的用途。,2.5.2语音识别系统实例-IBM Via Voice,语音识别是把输入的语音信号经过数字信号处理后得到一组特征参数,然后将这组特征参
36、数与预存的模板进行比较,从而确定说话者所说内容的一门新的声音识别技术。,2.5.2语音识别系统实例-IBM Via Voice,语音识别系统可根据不同的分类方式及依据,分为以下三类:根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。,2.5.2语音识别系统实例-IBM Via Voice,根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。,2.5.2
37、语音识别系统实例-IBM Via Voice,在语音识别领域,IBM在世界上一直处于领先地位。迄今为止,共有十三种语言的连续语音识别产品。1997年9月,IBM推出了ViaVoice中文连续语音识别系统,它成功地解决了汉语同音字多、有声调、口音复杂等难题。在1999年底推出的ViaVoice中文语音识别系统,除了具有非特定人、无限词汇量、连续语音识别、高识别率、专业文章智能分析、理解等强大的语音功能外,还为上网用户提供了轻松上网的功能。,2.5.2语音识别系统实例-IBM Via Voice,IBM ViaVoice改变了传统模式,可以用语音向计算机发出命令、录入汉字、标点符号。ViaVoic
38、e的功能是在称之为“语音中心”的选项下,通过一个下拉式菜单来实现的。主要包括:听写输入和命令导航。ViaVoice只是一个普及型产品,它可以满足人们日常的要求。如果再进一步发展ViaVoice所采用的技术,可以以ViaVoice系统为平台,继续发展。,2.6实验部分,2.6.1 音频素材获取2.6.2声音文件的播放2.6.3 使用录音机处理音频2.6.4 使用GoldWave制作处理音频,2.6.1 音频素材的获取,音频素材的获取方法:音频素材的获取方法主要有以下几种:1.使用声卡录制;2.从CD、VCD、DVD中截取;3.从因特网上下载或从素材库获取;4.使用声卡及MIDI设备创作。,使用声
39、卡录制 安装有声卡的计算机可以通过MIC IN接口和LINE IN接口录制声音。使用MIC IN接口可以录制麦克风输入的语音,使用LINE IN接口可以录制其他音频设备输入计算机的声音。录音过程可以使用音频处理软件进行录音,也可以使用Windows附件中的录音机进行录音。,从CD、DVD中截取 如果声音素材是CD、DVD中的音乐或音乐片段,可以使用对应的音频截取软件进行截取。要截取CD音轨,可以使用Advanced CD Ripper Pro,截取DVD音轨,可以使用DVD Audio Ripper。,从因特网上下载或从素材库获取 制作多媒体作品时需要的大量音频效果还可以通过因特网下载,一些搜
40、索引擎如百度提供MP3搜索功能,可以在上面搜索到需要的MP3、RM、WMA等格式音频文件。另外,现在还有一些专业音频素材库光盘,里面包含一些专业音频制作公司和电影制作机构多年创作积累的音频音效素材。我们可以在这些素材库光盘中挑选需要的音频素材进行使用。,如果具有比较专业的音乐知识,还可以利用一些音频制作软件例如GoldWave、Cakewalk、Course.PTR.Cubase.SX.3、Logic Pro 7等,使用声卡和MIDI设备自己创作音频文件。,2.6.2声音文件的播放,一、使用Windows Media Player播放音频文件 Windows Media Player是一个常用
41、媒体播放软件,它属于Windows附件,可以播放wav、mp3、wmv、mid等音频格式文件,也可以播放avi、asf、mpeg等视频格式文件。,二、使用RealPlayer播放音频文件 rm格式文件要使用Real Player播放。Real Player支持rm、mp3、wav、wma等音频格式。,2.6.3使用录音机处理音频,一、使用录音机压缩音频文件 Windows录音机除了可以进行录音以外,还可以对wav格式音频文件进行格式转换、混音、改变音量、加减速、添加回音、反转等处理。Windows录音机只支持wav格式音频文件。录音过程中保存的wav文件没有采用任何压缩算法,文件比较大。录音机
42、可以转换wav文件的压缩算法和采样频率,减小声音文件的数据量。,二、音频连接和混音 录音机具有简单的混音功能,它能把两个音频文件波形连接或混合,合并成一个音频文件。三、音频特效 在录音机的“效果”菜单中,可以使用一些常用特效来调整音频文件音量大小、播放速度、为文件添加回音、反向播放声音文件。,2.6.4使用GoldWave制作处理音频,一、音频编辑处理软件GoldWave GoldWave是一个集音频播放、录制、编辑、转换多功能于一体的音频制作处理软件。使用GoldWave可以录制音频文件;可以对音频文件进行剪切、复制、粘贴、合并等操作;可以对音频文件调整音量、调整音调、降低噪音、进行静音过滤
43、等操作;提供回声、倒转、镶边、混响等多种特效;可以在多种音频文件格式之间进行转换。,二、录音 GoldWave可以录制麦克风输入的语音、其他设备从声卡Line in接口输入的声音,也可以录制其他播放器通过声卡播放的音乐。,三、基本音频编辑 GoldWave具有很强的编辑功能,可以对声音波形直接进行删除、复制、剪切、裁剪等操作。在对波形进行编辑之前需要先选定要处理的波形。,在执行复制粘贴操作时,GoldWave有四种粘贴方式可以选择,分别为:粘贴、粘贴为新文件、混音、替换。,四、特效处理 GoldWave除了可以对声音做复制、删除、裁减等一些基本处理以外,还可以对声音进行更复杂更精密的处理,例如
44、增加回声、声音渐强渐弱、降噪等。,GoldWave中实现回声的基本原理是将声音波形进行复制叠加,叠加的波形比原波形延迟一段时间,振幅要小一些,听觉感受就是回声。,回声的基本原理,在多媒体作品中常常要将语音解说和背景音乐混合。混合时需要在插入语音解说的位置柔和地降低背景音乐的音量,在解说结束时再逐渐恢复音量,,背景音乐音量控制原理,在多媒体作品中也经常设置背景音乐进入方式为淡入,退出方式为淡出。在两个音频片段连接时,为了使过渡效果更加自然,通常设置前一段音乐淡出、后一段音乐淡入,,背景音乐淡入淡出原理,两段音频片段过渡原理,五、常用声音格式的转换 多媒体作品中的声音素材文件不应太大,以免影响存储
45、和网络传输。WAV文件保存整个声音文件的采样量化信息,文件会比较大,所以在多媒体作品中一般只是一些短小的音响效果使用WAV文件。如果使用的音频时间比较长、质量要求较高,则需要使用压缩音频格式MP3、WMA等。GoldWave支持的音频文件类型有WAV、MP3、AU、AIF、VOC、FLAC、WMA等,可以对不同类型的声音素材文件格式进行格式转换,转换过程中还可以调整音频文件属性。,使用GoleWave一次只能转换一个音频文件格式。如果要一次转换多个音频文件格式,可以使用批量音频格式转换工具,例如Arial Audio Converter、FairStar Audio Converter 等。,2.7本章小结,声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。无论其应用目的是什么,只要进入多媒体领域,总是希望合理使用语音信息,使多媒体应用系统变得更加丰富多彩。在多媒体系统中,音频可被用做输入或输出。输入可以是自然语言或语音命令,输出可以是语音或音乐,这些都会涉及到音频处理技术。,2.7本章小结,本章介绍了音频信号的特点,继而分析对音频信号的两种处理方式,然后介绍音频卡、音频信号处理、音频数字压缩编码、电子乐器数字接口、MPEG音频与PCM编码、音频数据文件格式、语音识别等技术。,