【教学课件】第三讲语音合成概述.ppt

上传人:小飞机 文档编号:5661290 上传时间:2023-08-07 格式:PPT 页数:31 大小:1.09MB
返回 下载 相关 举报
【教学课件】第三讲语音合成概述.ppt_第1页
第1页 / 共31页
【教学课件】第三讲语音合成概述.ppt_第2页
第2页 / 共31页
【教学课件】第三讲语音合成概述.ppt_第3页
第3页 / 共31页
【教学课件】第三讲语音合成概述.ppt_第4页
第4页 / 共31页
【教学课件】第三讲语音合成概述.ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《【教学课件】第三讲语音合成概述.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第三讲语音合成概述.ppt(31页珍藏版)》请在三一办公上搜索。

1、第三讲 语音合成概述,背景目标基本问题技术历程典型系统,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,背景,计算机的普及人机自然语言交互语音合成在人机交互系统中的作用语音合成的其它应用,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,目标,“让计算机像人一样说话”从文字到语音TTS(Text-To-Speech)从概念到语音CTS(Concept-To-Speech)从意念到语音ITS(Intention-To-Speech)现阶段-TTS前瞻性-CTS等待时机-ITS,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,基本问题,原因从语音到文字的信息缺失从文字到语音(

2、TTS)从文字到发音描述发什么音如何发音从发音描述到语音合成,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,技术历程,1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentier2000s,Unit-selection,N.Campbell&A.Black,技术历程,1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentie

3、r2000s,Unit-selection,N.Campbell&A.Black,音色,孤立音段音色,孤立音段音色,孤立词音色、韵律,语句韵律,语句,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,典型系统,基于单元挑选的TTS系统构成(韵律导向)两个模块前端:文本处理,从文字到发音描述后端:语音处理,从发音描述到语音合成一个接口,发音描述数据库,合成单元,典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年,典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年Parse

4、r:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t),POS(Part Of Speech),典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tOutPut PPhrase Layer:#北京交通大学#成立于#一八九六年OutPut IPhrase Layer:#北京交通大学成立

5、于一八九六年OutPut Sentence Layer:#北京交通大学成立于一八九六年,典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tPhonetizer:北 bei3 京 jing1(BL:北京)交 jiao1(BL:交通)通 tong1(BL:交通)大 da4(BL:大学)学 xue2(BL:大学)成

6、 cheng2(BL:成立)立 li4(BL:成立)于 yu2(BL:于)一 yi1(BL:一八九六年)八 ba1(BL:一八九六年)九 jiu3(BL:一八九六年)六 liu4(BL:一八九六年)年 nian2(BL:一八九六年),典型系统,例:北京交通大学成立于1896年。Interface:2 1 2%0 0 2%0 ng 2%0 ng 2%0 ng 2%0 0 0 2%0 vg_pg 2%0 0 0 2%0 t 2%0 0 1 2,典型系统,例:北京交通大学成立于1896年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)GMM(jiao1

7、)GMM(tong1)GMM(da4)GMM(xue2)GMM(cheng2)GMM(li4)GMM(yu2)GMM(yi1)GMM(ba1)GMM(jiu3)GMM(liu4)GMM(nian4)Segment Acoustic Predictor:occ(bei3)occ(jing1)occ(jiao1)occ(tong1)occ(da4)occ(xue2)occ(cheng2)occ(li4)occ(yu2)occ(yi1)occ(ba1)occ(jiu3)occ(liu4)occ(nian4),典型系统,例:北京交通大学成立于1896年。Prosodic Acoustic Predic

8、tor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),sam(jing1),sam(jiao1),)Corpus:bei3 jing1,典型系统,例:北京交通大学成立于1896年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),s

9、am(jing1),sam(jiao1),)Corpus:bei3 jing1Speech Synthesizer:北京交通大学成立于1896年。,后续题目,基础知识韵律原理分析关键技术数据库构建文本处理声学建模最优搜索/合成器相关研究音色调整/转换HMM合成器挑战,基于数据驱动的韵律建模,Two trainable components:based on an annotated corpusProsodic event predictorProsodic parameter predictor,韵律功能,Prosody structureEx.1,已经取得文凭的和尚未取得文凭的干部Ex.2

10、,顺天府秋捐归您啦,八旗兵丁一年的赏讨下来了。Ex.3,政协十届一次会议主席团常务主席会议审议通过了政协十届一次会议提案审查委员会关于政协十届一次会议提案审查情况的报告草案(58)IntonationEx.4,明天是个晴天,最高气温.(flat)Ex.5,明天是个晴天!我们可以.(glad)Ex.6,明天是个晴天?(interrogative)AccentEx.7,明天是个晴天 vs.明天是个晴天MoodEx.8,明天是个晴天 glad vs.明天是个晴天 sadprosody is not all for mood,timbre is changed also,韵律的声学实现,In acou

11、stic,prosody is presented as the variances ofpitchdurationintensitypause,韵律描述,C-ToBI defined1st,prosody structure知觉判断等级与韵律层级结构对应 coming,accent index,汉语韵律层次,韵律结构标注,按照语调短语、中间短语、音步/韵律词三个韵律层级,描述每段发音。语调短语(intonational phrase):具有完整的语调,听感上可独立成句的一段发音音步(foot):节奏的基本单位,一般由两个或三个音节构成,少数为单音节。韵律词(prosodic word):所有

12、的句法词具有类似词的连调模式和词重音模式、较短的词组其它凡是属于一个音步的结构跨度为1-4个音节,极大多数为2-3个音节,少数为单音节和四音节结构。中间短语(intermediate phrase):介于语调短语和韵律词之间的节奏单元由一个或多个韵律词构成中间短语之间可能存在嵌套结构,韵律标注,依据听觉进行边界类型的判断,并辅助以特定类型处理的约定听觉判决所依据的线索基频重置,边界末音节展延,停顿,节奏的变化需从全局的、层级的角度考察每段发音标注符号BP2:用以界定语调短语边界BP1:用以界定中间短语边界BP0:用以界定有明显停顿的音步/韵律词间的边界空格:用以界定音步/韵律词边界*:用以界定

13、韵律词内的音步边界特定类型约定位于短语边界的、听感上轻读的、作为短语间过渡的虚词,倾向于划归后一短语BP0为音步边界,且具有明显的停、顿,倾向于从严标出,一个韵律结构标注的例子,S1编者 按(BP2)世界上(BP1)有些事 是 相似的(BP2)甚至(BP0)惊人地 相似S2编者 按(BP2)世界上 有些事(BP1)是 相似的(BP2)甚至(BP0)惊人地 相似Problem of consistencytrainingacceptable,韵律的深层次标注,Accent IndexWhat is AI Sample 催眠师有相当的威望体现语义上的着重和聚焦的一种韵律特征Domains:word

14、 level:lexical stresssentence level:prominence,focus,emphasis,accentedWhy is AI neededmore smooth voicemore expressive synthesis voiceAI acoustic realizationrelativity:relative accented/unaccenteduniversal:integrateAI prosody functionNew topicFocusStress pattern(技术/计数),AI初步实验,accent index automatica

15、lly detectingbased on the hierarchically prosodic structureprosodic approximation-ratio of the syllable as the indicator,ref.to Xu Yis workprosodic parameters predicted with AI Samples 催眠师有相当的威望,课程报告4 语音合成综述及专题,阅读现代语音技术-基础与应用第五章,蔡莲红等编著,清华大学出版社,2003王仁华:“语音合成技术最新研究进展及其应用展望”初敏 Interspeech,ieee ssw,icassp,speech prosody在线演示科大讯飞 http:/捷通华声 http:/报告一,综述报告(提交:3-31)思考文语转换系统的任务基于数据库的文语转换系统的实现模块要求:参考文献3篇以上,相关分析注明出处报告二,专题报告(提交:4-14)四个专题选一:数据库、文本分析、韵律模型、波形拼接/合成器具体算法篇幅要求:2页(5号字)文件命名:学号_姓名_报告名称,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号