《《语音人机交互》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音人机交互》PPT课件.ppt(30页珍藏版)》请在三一办公上搜索。
1、第4章 人机主要交互技术(新一代人机交互技术),应用程序,语音合成,语音输入,语音输出,语音人机交互,语音识别,自然语言处理,自然语言生成,交互管理,语音合成,语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术让机器说话可以通过录音/重放,或语音合成实现文语转换是语音合成的一种应用形式文语转换是连续语音识别的逆过程,孤立词/音段阶段,注重音色(音质,音品)语音合成的最早研究始于1779年Kratzen sten的研究他用一些材料制成具有各种特殊形状的共鸣腔,目的是研究如何用管形器官模型来模拟5个单元音 A、E、I、0、U1791年,Von Kempelen制成了一种能说话的机器
2、1939年,BELL LAB的H.Dudley应用共振峰原理制作了第一个电子合成器VODER(VOice DEmonstratoR).20世纪70年代,线性预测技术用于语音合成语句阶段,注重韵律1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的语音合成算法PSOLA2000s,Unit-selection,N.Campbell&A.Black,国外语音合成的发展,按照人类语言功能的不同层次,语音合成可分为三个层次:(1)从文字到语音的合成(Text-to-Speech)(2)从概念到语音的合成(
3、Concept-to-Speech)(3)从意向到语音的合成(Intention-to-Speech),语音合成的层次,文本,文本分析,输出语音,语音合成,语音库,韵律分析,字典/词库分词规则,文语转换系统组成,多音字库儿化音库,语音合成技术,语言学处理规则,协同发音/韵律规则,语音合成系统的三个主要组成部分:文本分析模块韵律分析模块语音生成模块,文本分析主要功能使计算机从这些文本中能够认识文字,从而知道要发什么音、怎么发音(声调),并将发音的方式告诉计算机,另外还要让计算机知道文本中,哪些是词,哪些是短语、句子,发音时到哪应该停顿,停顿多长等等,文本规整,多音字处理,声调判定,特殊声调调整,
4、特殊符号,停顿处理,语音处理,自动分词,系统词库,多音字词库,变调规则库,特殊声调规则,文本分析的任务,(1)文本规整将输入的文本规范化。在这个过程中,要查找拼写错误,处理缩略语与外文字词等,同时分析文本中出现的数字、特殊字符、专有词语,并将文本中出现的一些不规范或无法发音的字符过滤掉。(2)词的切分和词法分析分析文本中词或短语的边界,确定文字的读音,以及各种多音字的读音方式。,文本分析的主要工作步骤,(3)语法和语义分析根据文本的结构、组成和不同位置上出现的标点符号,确定语气的变换以及不同音的轻重方式,即语言学处理。确定停顿位置,长短,语调升降,语法重音等(4)输出文本分析模块将输入的文字转
5、换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。,文本分析的主要工作步骤,文本分析的主要方法/词的切分方法(1)基于规则的方法(2)基于统计的方法(3)人工神经网络的方法,基于规则(Rule-based)的方法正向最大匹配法、反向最大匹配法、逐词遍历法最佳匹配法、二次扫描法等等。,基于规则方法的特点优点:结构较为简单、直观,易于实现。缺点:需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的相应的背景知识。应用:这些方法能够取得较好的分析效果,直到目前,这些方法依然被广泛的使用。,基于统计与人工神经网络的方法(连续语音识别的逆过程,语言模型部分)基
6、于数据驱动的文本分析方法 具有代表性的有:二元文法法(DiGrammar Method)、三元文法法(Tri-Grammar Method)、隐马儿可夫模型法和神经网络法等等。,韵律分析任何人说话都有韵律特征,比如汉语中,人说话有语调、节奏、重音等变化,反映出不同的语气、不同的发音长短、不同的停顿方式等.韵律参数包括了能影响这些特征的声学参数,如:基频、音长、音强等.为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。,韵律生成有基于规则和基于语料库的数据驱动两种方法(1)基于规则的方法音高规则变调规则轻声规则协同发音音长规则能量规则,两点说明要求有大量的
7、音韵学知识。基于规则的方法,仍然被认作是行之有效的方法。目前大部分汉语的语音合成系统依然采用这种方法。,(2)基于数据驱动的韵律模型(人工神经网络方法,统计方法)基于大规模语料库的韵律建模:通过神经网络或统计驱动的方法进行韵律生成,其实现步骤是首先设计或收集包含大量语音和文本信息的数据,然后建立一个训练模型,用数据库中提取出的韵律参数对模型进行训练,通过训练而得到最终的韵律模型。,语音生成根据韵律建模的结果,从原始音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。,语音生成主要方法 规则合成 按韵律规则,缩减规则等,将预先存好的语音单
8、元拼接起来.需要对文本理解,有些复杂.参数合成(1)共振峰合成(Pitch Synchronous OverLap Add)(2)LPC(线性预测编码)合成(3)其它如LSP和LMA合成波形拼接(1)PSOLA(基音同步叠加)合成,参数合成法早期的研究主要采用参数合成方法,它是计算发音器官的参数,从而对人的发音进行直接模拟。如著名的Klatt的共振峰合成系统。后来又产生了基于LPC、LSP等声学参数的合成系统。这些方法用来建立声学模型的过程为:首先录制声音,这些声音涵盖了人发音过程中所有可能出现的读音;提取出这些声音的声学参数,并整合成一个完整的音库。在发音过程中,首先根据需要发的音,从音库中
9、选择合适的声学参数,然后根据韵律模型中得到的韵律参数,通过合成算法产生语音。参数合成方法的优点,是其音库一般较小,并且整个系统能适应的韵律特征的范围较宽,但其合成语音的音质却往往受到一定的限制。,共振峰合成 音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器,再用若干个这种滤波器的组合来模拟声道的传输特性,对激励源发出的信号可以调制,再经过辐射模型就可以得到语音合成。,优点:由于它是对声道的一种比较准确的模拟,因此可以合成自然度比较高的语音,容易描述自然语言中的各种发音现象。缺点:参数不好控制,从而对声道的模拟不精确,影响合成质量和自然度。,共振峰
10、合成特点,LPC参数合成本质上是一种时间波形的编码技术,主要要是为了降低时域信号的的传输速率。合成过程是一种简单的解码和拼接过程.一种类似/基于波形拼接的合成技术,主要从波形的直接录制和播放得到启发。(录音+重放),LPC参数合成特点LPC参数合成的优点 简单直观,而且由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部数据,因此对单个合成基元来说自然度很高LPC参数合成的缺点 只是简单进行波形拼接,语音生硬,波形拼接法PSOLA(基音同步叠加)合成技术 基音同步叠加(TD,LPC,FD),调整音长,音强,音高.该技术主要着眼于通过参数对语音的韵律进行控制和修改。在拼接语音波形片断之前
11、,首先根据上下文,对拼接单元的韵律特征进行调整,使合成波形既能保持原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获取较高的清晰度和自然度。,PSOLA合成技术的优点 保持了传统波形拼接的优点,简单直观、运算量小,而且可以控制语音信号的韵律参数,合成自然。自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景,PSOLA合成技术的缺点(1)它是一种基音同步的语音分析/合成技术,对基音周期或起始点的错误判断会影响合成效果;(2)它是一种波形拼接合成,拼接能够保持平稳过渡对合成效果影响很大,但这种问题并没有很到得到解决。,提高语音合成的自然度,达到更加流利和自然的程度。丰富合成语音的表现力,使得TTS技术可以实现各种音色(包括不同性别、不同年龄等)的语音输出。解决中文与其它语种混读问题。实现多语种的语音合成,即实现方言、少数民族语言的合成技术。降低语音合成技术的复杂度,减少音库容量,扩大应用领域。情感语音合成技术。为各行业提供TTS核心技术和解决方案,特别是CTI和嵌入式系统,语音合成的未来发展方向,