声控小车设计毕业论文.doc

上传人:仙人指路1688 文档编号:3941005 上传时间:2023-03-28 格式:DOC 页数:43 大小:468KB
返回 下载 相关 举报
声控小车设计毕业论文.doc_第1页
第1页 / 共43页
声控小车设计毕业论文.doc_第2页
第2页 / 共43页
声控小车设计毕业论文.doc_第3页
第3页 / 共43页
声控小车设计毕业论文.doc_第4页
第4页 / 共43页
声控小车设计毕业论文.doc_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《声控小车设计毕业论文.doc》由会员分享,可在线阅读,更多相关《声控小车设计毕业论文.doc(43页珍藏版)》请在三一办公上搜索。

1、毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得安阳工学院及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解安阳工学院关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的

2、印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 摘要IIIABSTRACTIV引 言1第一章 绪论21.1 论文背景21.2 总体设计要求2第二章 凌阳单片机(SPCE061A)简介42.1 芯片总述42.2 芯片最小系统52.3 I/O端口52.4定时及中断82.4.1 中断系统82.4.2 定时器82.4.3 中断控制102.5 看门狗11第三章 系统软件设计123.1 软件描述123.1.1 音频123.1.2 应用程序接口133.1.3 语音识别原理143.2

3、 软件设计143.2.1 语音压缩编码143.2.2 凌阳音频压缩算法163.2.3 凌阳语音的播放、录制、合成和辨识功能的分析173.2.4语音播放应用程序接口函数183.2.5语音播放应用程序接口函数183.3 程序流程图21第四章 硬件电路设计224.1 SPEC016A电源模块224.1.1 SPY0029芯片简介224.1.2 电路原理分析224.2 语音输入模块设计234.3 语音输出模块设计244.3.1 SPY0030芯片简介254.3.2 电路设计264.4 车体控制模块264.4.1 L298芯片功能分析264.4.2 AMS1117芯片功能分析284.4.3 硬件电路设计

4、28结论30致谢31参考文献32附录33声控小车的设计摘要:声控是利用语音识别技术来控制相关物体。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10 年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。无人驾驶的智能汽车也必将进入实用阶段。本课题的设计更深入的理解单片机及其相关外围器件的原理、应用和编程,对单片机芯片I/O端口构造等有个清晰的认识,对语音压缩算法、语音识别等进行全面的了解以及对硬件电路的设计模块进行实际操作,同时巩固数电、模电和信号等相关知识,并通过设计更清晰更透彻的理解巩固大学几年的电子信息工程专业的相关知识

5、。本系统的主要目的是针对智能无人驾驶汽车系统出音控小车,在智能化车上实现语音控制,避免出现许多大大小小的事故。旨在研究汽车的智能声控系统,让声控进入汽车,提高汽车的智能化和安全系数。关键词:声控;语音识别;凌阳单片机;小车VOICE-CONTROL MODEL CARAbstract:Voice control, it is that using speech recognition technology to control related objects. In the past twenty years, the speech recognition technology improve

6、 significantly, start from lab to market. People expected, the next 10 years, speech recognition technology will enter the industry, household electrical appliances, communications, automotive electronics, medical, and family services, consumer electronic products, and other fields. Unmanned intelli

7、gent vehicle will also give into the practical stage. This topic design more understanding of the single chip microcomputer and related peripheral devices the principle, application and programming to the single chip chip I/O port structures have a clear understanding, speech compression algorithm,

8、speech recognition and a thorough understanding of the design of the hardware circuit and the actual operation modules, and consolidate several electricity, mould electricity and signal related knowledge, and through the design more clearly more thorough understanding of consolidating the electronic

9、 and information engineering university years professional knowledge. The systems main purpose is for intelligent robots system out YinKong car, in the intelligent car realize voice control, avoid many greatly small accident. The car to research intelligent sonic system, let sonic into cars, improve

10、 the cars intelligent and safety coefficient.Key words: Voice-control;Speech recognition;Sunplus SCM;Model car引 言随着我国经济的高速发展,汽车的保有量不断增加。汽车行驶安全性越来越受到重视,而且早在上个世纪发达国家便提出了智能交通系统ITS(Intelligent TransportationSystems,ITS)的概念,其中汽车的智能尤为重要。汽车的智能化程度越高,为驾驶员提供的服务越周密,安全系数越高。语音识别技术是21世纪间信息技术领域十大重要的科技发展技术之一,正逐步成为信

11、息技术中人机接口的关键技术。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。随着经济的增长,个人拥有私家汽车已不再是梦想,伴随着汽车业的发展,无人驾驶的智能汽车也必将进入实用阶段。本系统提出智能声控小车模型,旨在研究汽车的智能声控系统,让声控进入汽车,提高汽车的智能化和安全系数。第一章 绪论1.1 论文背景随着我国经济的高速发展,汽车的保有量不断增加。汽车行驶安全性越来越受到重视,而且早在上个

12、世纪发达国家便提出了智能交通系统ITS(Intelligent Trans-portationSystems,ITS)的概念,其中汽车的智能尤为重要。汽车的智能化程度越高,为驾驶员提供的服务越周密,安全系数越高。语音识别技术是21世纪间信息技术领域十大重要的科技发展技术之一,正逐步成为信息技术中人机接口的关键技术。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10 年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。随着经济的增长,个人拥有私家汽

13、车已不再是梦想,伴随着汽车业的发展,无人驾驶的智能汽车也必将进入实用阶段。本系统提出智能声控小车模型,旨在研究汽车的智能声控系统,让声控进入汽车,提高汽车的智能化和安全系数。1.2 总体设计要求该系统的声控系统是基于凌阳SPEC016A包括语音的输入、语音的识别、语音的输出及车体控制部分 ,主要实现人机语音交流及控制:(1) 当小车准备好的时候,车说“ok,lets go!”。(2) 当小车要求人发出命令而人没有发命令的时候,车说“没有听到任何声音”。(3) 当外界声音比较嘈杂,小车没有识别出人发出的命令的时候,车说“请再说一遍”;(4) 给小车任意取名,当叫到小车的名字的时候,车回答“ok”

14、,小车暂停;(5) 人说“前进”,车回答“ok”,小车向前行驶,前进指示灯亮;(6) 人说“后退”,车回答“ok”,小车向后退,后退指示灯亮;(7) 人说“左前”,车回答“ok”,小车向左拐,左前指示灯亮;(8) 人说“右前”,车回答“ok”,小车向右拐,右前指示灯亮;(9) 人说“停”,车回答“ok”,小车刹停;(10) 人说“左后”,车回答“ok”,小车向左后,左后指示灯亮;(11) 人说“左后”,车回答“ok”,小车向左后,左后指示灯亮;总体设计原理如图1.1所示:SPCE016A语音输出语音输出处理语音输入语音识别语音输入处理车体控制控车指令图1.1 总体设计原理图 语音输入,即通过麦

15、克风将语音信号转换成电信号输入SPCE016A内。SPCE016A将其放大,调用SPCE016A相关语音处理函数,SPCE016A会将电信号转换成数字信号;语音识别,通过调用SPCE016A相关语音识别函数,处理语音信号,进行识别;语音输出,将处理后的语音进行功率放大,然后播放出来;车体控制,依据SPCE016A的控车指令,驱动小车的行驶状态。第二章 凌阳单片机(SPCE061A)简介2.1 芯片总述SPCE061A是台湾凌阳科技公司推出的一款16位SoC(System on Chip,片上系统)的单片机,它采用高性能的unS内核,具有丰富的硬件资源,只内嵌 32K 字的闪存(FLASH)。2

16、个 10 位 DAC(数-模转换)输出通道;能容纳 210 秒的语音数据; 7 通道 10 位电压模-数转换器(ADC)和单通道声音模-数转换器;内置在线仿真电路 ICE(In- Circuit Emulator)接口;具有保密能力;具有 WatchDog 功能。较高的处理速度使nSP能够非常容易地、快速地处理复杂的数字信号。 SPCE061A的结构如图2.1所示16位微控制器FLASHRAM锁相环振荡器CUP时钟双16位定时器/计数器/时机中断控制串行输入输出接口双通道10位ADC7通道10为ADC单通道ADC+AGCAUD2AUD1低电压监测/低电压复位/看门狗32引脚通用输入输出端口UA

17、RT通信接口ISE_SDAICE_SCKICE_ENXI/RXOMIC_INIOB1(SDA)IOB0(SCK)IOB7(RXD)IOB10(TXD)IOB15-0IOA15-0图2.1 SPCE061A结构2.2 芯片最小系统最小系统接线如图2.2所示,在 OSC0、OSC1 端接上晶振及谐振电容,在锁相环压控振荡器的阻容输入 VCP端接上相应的电容电阻后即可工作。其它不用的电源端和地端接上 0.1F 的去藕电容提高抗干扰能力。图2.2 SPEC061A最小系统2.3 I/O端口SPCE061A提供了位控制结构的 I/O 端口,每一位都可以单独用于数据输入或输出。每个独立的位可通过以下3 种

18、控制向量来作设定: (1) 数据向量Data (2) 属性向量Attribution (3) 方向控制向量Direction 每3 个对应的控制向量组合在一起,形成一个控制字,用来定义相对应 I/O 端口位的输入输出状态和方式。 例如, 假设需要 IOA0 是下拉输入引脚, 则相对应的 Data、 Attribution和 Direction 的值均被设为 “0” 。 如果需要 IOA1 是带唤醒功能的悬浮式输入引脚, 则 Data、Attribution 和 Direction 的值被设为“010”。与其它的单片机相比,SPCE061A 除了每个I/O 口可以单独定义其状态外,每个对应状态下

19、的 I/O 端口性质电路都是内置的,在实际的电路中不需要再外接。例:设 A 口为带下拉电阻的输入端口,在连接硬件时不用再外接下拉电路。 A 口和 B 口的 Data、Attribution 和 Direction 的设定值均在不同的寄存器里,用户在进行I/O端口设置时要特别注意这一点。I/O端口的组合控制设置如表2.1 所示: 表2.1 I/O 端口的控制向量组合DirectionAttributionData功能是否带唤唤醒功能功能描述000下拉*是*带下拉电阻的输入引脚001上拉是*带上拉电阻的输入引脚010悬浮是*悬浮式输入引脚011悬浮否悬浮式输入引脚*100高电平输出(带数据反相器)

20、否带数据反相器的高电平输出(当向数据位写入“0”时输出“1”)101低电平输出 (带数据反相器)否带数据反相器的低电平输出 (当向数据位写入“1”时输出“0”)110低电平输出否带数据寄存器的低电平输出 (无数据反相功能)111高电平输出否带数据寄存器的高电平输出 (无数据反相功能)注: *:端口位预设为带下拉电阻的输入引脚; * *:只有当 IOA 70内位的控制字为 000,001 和 010 时, 相对应位才具有唤醒的功能; *:悬浮输入作为 ADC IOA60 的输入。P_IOA_Data(读/写)(7000H) A 端口的数据单元,用于向 A 口写入或从 A 端口读出数据。当 A 口

21、处于输入状态时,读出是读 A 口引脚电平状态; 写入是将数据写入 A 端口的数据寄存器。当 A 口处于输出状态时,写入输出数据到A端口的数据寄存器。P_IOA_Buffer (读/写) (7001H) A 端口的数据向量单元,用于向数据向量寄存器写入或从该寄存器读出数据。当 A 口处于输入状态时,写入是将 A 端口的数据向量写入 A 端口的数据寄存器;读出则是从A 端口数据寄存器内读其数值。当 A 口处于输出状态时,写入输出数据到 A 端口的数据寄存器。 对输出而言,P_IOA_Data 与 P_IOA_Buffer 是一样的.但对输入而言,P_IOA_Data 读的是 IO 的值, P_IO

22、A_Buffer 读的是buffer 内的值。 假设 IOA0作为输出, 并去接LED阳极 (LED阴极接地)。 若P_IOA_Data的IOA0为1。 在某些需要较大驱动能力的LED而言,LED 会亮,但 IOA0会被拉到一个很低的值。此时从 P_IOA_Data 读回为 0,但P_IOA_Buffer则为1。读回的意义是是方便做其它的IO运算。 P_IOA_Dir(读/写)(7002H) A 端口的方向向量单元,用于用来设置 A 口是输入还是输出,该方向控制向量寄存器可以写入或从该寄存器内读出方向控制向量。Dir 位决定了端口位的输入/输出方向:即0为输入,1为输出。 P_IOA_Attr

23、ib(读/写)(7003H) A端口的属性向量单元,用于A端口属性向量的设置。 P_IOA_Latch(读)(7004H) 读该单元以锁存A端口上的输入数据,用于进入睡眠状态前的触键唤醒功能的启动。P_IOB_Data(读/写)(7005H) 由于本系统未涉及到B口的特殊功能,在此就不作介绍。2.4定时及中断2.4.1 中断系统SPCE061A 单片机中断系统,可以提供 14 个中断源,具有两个中断优先级,可实现两级中断嵌套功能。用户可以用关中断指令(或复位)屏蔽所有的中断请求,也可以用开中断指令使 CPU 接受中断申请。每一个中断源可以用软件独立控制为开或关中断状态,但中断级别不可用软件设置

24、。2.4.2 定时器SPCE061A提供了两个16 位的计时/计数器:TimerA和TimerB。TimerA为通用计数器;TimerB为多功能计数器。TimerA的时钟源由时钟源 A 和时钟源 B 进行“与”操作而形成;TimerB的时钟源仅为时钟源 C。定时器发生溢出后,会产生一个溢出信号(TAOUT/TBOUT),它会传送到CPU 中断系统以产生定时器中断信号;此外,定时器溢出信号还可以用于触发ADC输入的自动转换过程,和DAC输出的数据锁存。 (一) 定时器A要启用定时器,要写入一个计数值N到P_TimerA_Data(读/写)(700AH)单元, 或是P_TimerB_Data(读/

25、写)(700CH)单元,然后选择一个合适的时钟源,这时,定时器将在所选的时钟频率下,开始以递增方式计数N,N+1,N+2,0xFFFE,0xFFFF。当计数达到0xFFFF 后,计时/计数器溢出,产生中断请求信号,被CPU 响应后送入中断控制器进行处理。同时,计数值N值将被重新加载计时/计数器并重新开始计数。P_TimerA_Data(读/写)(700AH) TimerA的数据单元,用于向16 位预设寄存器写入数据(预设计数初值)或从其中读取数据。在写入数值以后,计数器便会在所选择的频率下进行加一计数,直至计数到0xFFFF产生溢出。.溢出后 P_TimerA_Data 中的值将会被复位,再以

26、设置的值继续加一计数。一般说来分为以下几步: 1. 选择需要的计数频率。 2. 计算相对应的计数初值。 P_TimerA_Ctrl(写)(700BH) TimerA 的控制单元如表 2.2所示。用户可以通过设置该单元的第 05 位来选择TimerA 的时钟源(时钟源 A、B)。设置该单元的第 69 位,TimerA 将输出不同频率的脉宽调制信号,即对脉宽占空比输出APWMO进行控制。表2.2 P_TimerA_Ctrl 单元b15 b10b9b8b7b6b5b4b3b2b1b0-占空比的设置1时钟源B选择位(表 2.4)时钟源A选择位(表 2.3)注:1:本系统未涉及到占空比,在此就不作阐述。

27、 表2.3 时钟源A选择位b0b2b2b1b0时钟源 A 的频率000Fosc/2001Fosc/25601032768Hz0118192Hz1004096Hz10111100*111EXT1表2.4 时钟源A选择位b0b2b5b4b3时钟源 B 的频率0002048Hz0011024Hz010256Hz011TMB11004Hz1012Hz1101*111EXT2注: *代表默认值为 1。若以 ClkA 作为门控信号,1表示允许时钟源 B 信号通过,而0则表示禁止时钟源 B 信号通过,而停止 TimerA 的计数。如果时钟来源 A 为1,TimerA 时钟频率将取决于时钟来源 B;如果时钟来

28、源 A 为0,将停止 TimerA 的计数。 (二)定时器B。由于本系统未用到定时器B,在此就不作阐述。2.4.3 中断控制SPCE061A 单片机有多个中断源,为了使每个中断源都能独立地被开放和屏蔽,以便用户能灵活使用,它在每个中断信号的通道中设置了一个中断屏蔽触发器,只有该触发器无效,它所对应的中断请求信号才能进入 CPU,即此类型中断开放。否则即使其对应的中断请求标志位置“1”,CPU 也不会响应中断,即此类型的中断被屏蔽。同时 CPU 内还设置了一个中断允许触发器,它控制 CPU 能否响应中断。SPCE061A 对中断源的开放和屏蔽,以及每个中断源是否被允许中断,都受中断允许寄存器 P

29、_INT_Ctrl 和 P_INT_Clear 及 P_INT_Ctrl_New 控制和一些中断控制指令。中断控制单元 P_INT_Ctrl(读/写)(7010H) P_INT_Ctrl 控制单元(如表2.5所示)具有可读和可写的属性,其读写时的意义是不同的。表2.5 P_INT_Ctrl 控制单元b7b6b5b4b3b2b1b0IRQ3KEYIRQ44KHzIRQ42KHzIRQ41KHzIRQ54HzIRQ52HzIRQ6TMB1IRQ6TMB2b15b14b13b12b11b10b9b8FIQ_Fosc/ 1024IRQ0_Fosc1024FIQTMAIRQ1TMAFIQTMBIRQ2T

30、MBIRQ3EXT2IRQ3EXT1当写中断控制单元中的某位为“1”时,即允许该位所代表的中断被开放,并关闭屏蔽中断触发器,此时当有该中断申请时,CPU 会响应。否则如果该位被置 0 则禁止该位所代表的中断。即使有中断申请,CPU也不会响应。 当读取中断控制单元时,其主要作为中断标志,因为其每一位均代表一个中断,当 CPU响应某中断时,便将该中断标志置“1”,即将 P_INT_Ctrl 中的某位置“1”可以通过读取该寄存器来确定 CPU响应的中断。清除中断标志控制单元 P_INT_Clear(写)(7011H) 清除中断标志控制单元(如表2.6所示)主要用于清除中断控制标志位,当 CPU 响应

31、中断后,会将中断标志置位为“1”,当进入中断服务程序后,要将其控制标志清零,否则 CPU总是执行该中断。表2.6 清除中断标志控制单元 P_INT_Clearb7b6b5b4b3b2b1b0IRQ3KEYIRQ44KHzIRQ42KHzIRQ41KHzIRQ54HzIRQ52HzIRQ6TMB1IRQ6TMB2b15b14b13b12b11b10b9b8FIQ_Fosc/ 1024IRQ0_Fosc1024FIQTMAIRQ1TMAFIQTMBIRQ2TMBIRQ3EXT2IRQ3EXT1因为 P_INT_Clear 寄存器的每一位均对应一个中断,所以如果想清除某个中断状态标志,只要将该寄存器

32、中对应的中断位置 1 即可清除该中断状态标志位。该寄存器只有写的属性,读该寄存器是无任何意义的。激活和屏蔽中断控制单元 P_INT_Ctrl_New(读/写)($702DH) 激活和屏蔽中断控制单元(如表2.7所示)用于激活和屏蔽中断。表2.7 激活和屏蔽中断控制单元 P_INT_Ctrl_Newb7b6b5b4b3b2b1b0IRQ3IRQ4IRQ4IRQ4IRQ5IRQ5IRQ6IRQ6b15b14b13b12b11b10b9b8FIQIRQ0FIQIRQFIQIRQ2IRQ3IRQ32.5 看门狗WatchDog 是用来监视系统的正常运作。当系统正常运行时,每隔一定的周期就必须清除 Wa

33、tchDog 计数器。如果在限定的时间内,WatchDog 计数器没有被清除,CPU 就会认为系统已经无法正常工作,将会进行系统复位(reset)。SPCE061A 的 WatchDog 的清除时间周期为 0.75 秒。因为 WatchDog 的溢出复位信号WatchDog_Reset 是由 4Hz 时基信号经 4 分频之后产生的,即每 4 个 4Hz 时基信号(1秒)将会产生一个 WatchDog_Reset 信号。 WatchDog 功能是上电时自动启动,不能被关闭。因此用户使用时,注意要在 0.75 秒内,进行清除 WatchDog 的操作。P_WatchDog_Clear(写) 701

34、2H 要清除 WatchDog, 只需要将“xxxx xxxx xxxx xx01b“写入 P_WatchDog_Clear单元即可,xx 代表任意数值。如果没有在 0.75 秒内清除 WatchDog,或者将不是“xxxx xxxx xxxx xx01b“的数值写入 P_WatchDog_Clear 单元,CPU 将会进行系统复位。当系统处于睡眠模式(sleep mode)时,WatchDog 功能将会被关闭。第三章 系统软件设计3.1 程序流程图程序流程详图3.2 软件描述3.2.1 音频 我们所说的音频是指频率在 20 Hz20 kHz 的声音信号,分为:波形声音、语音和音乐三种,其中波

35、形声音就是自然界中所有的声音,是声音数字化的基础。语音也可以表示为波形声音,但波形声音表示不出语言、语音学的内涵。将模拟的(连续的)声音波形数字元化(离散化),以便利数字计算机进行处理的过程,主要包括采样和量化两个方面。 数字音频的质量取决于:采样频率和量化位数这两个重要参数。此外,声道的数目、相应的音频设备也是影响音频质量的原因。WAVE 文件使用三个参数来表示声音,它们是:采样位数、采样频率和声道数。在计算机中采样位数一般有 8 位和 16 位两种,而采样频率一般有 11025Hz(11KHz),22050Hz(22KHz)、44100Hz(44KHz)三种。 WAVE 格式支持 MSAD

36、PCM、CCITT A Law、CCITT Law 和其它压缩算法,支持多种音频位数、采样频率和声道,是 PC 机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片段。3.2.2 应用程序接口单片机对语音的控制如录放音、合成音及辨识广泛应用到生活中。语音处理大致可以分为A/D转换、编码处理、存储、解码处理及D/A转换等(见图3.1)。然而,有扬声器(MIC)输入所生成的WAVE文件占用的存储空间很大,单片机存储容量有限,凌阳SPEC061A的解决方法就是提供SACM-LIB库。该库将A/D转换、编码、存储、解码及D/A转换作为相应的模块,每个模块都有其应用程序接口(API),只

37、需要了解每个模块所要实现的功能及参数,然后调用该API函数即可以实现该模块的功能。SACM-LIB库中模块及算法类型如表3.1所示。表3.1 SACM-LIB库中模块及算法类型模块名称(Model-Index)语音压缩编码率类型资料采样率SACM_A200016Kbit/s,20 Kbit/s,24 Kbit/s16KHzSACM_S480/S7204.8 Kbit/s,7.2 Kbit/s16KHzSACM_S2402.4 Kbit/s24KHzSACM_MS01音乐合成(16Kbits/s,20 Kbits/s,24 Kbits/s)16KHzSACM_DVR(A2000)16 Kbit/

38、s 的资料率,8 K 的采样率,用于 ADC 通道录音功能6KHz存储喇叭D/A转换A/D转换编码处理麦克风图3.1 单片机对语音处理过程3.2.3 语音识别原理在前面我们已经介绍过语音识别的一些相关的内容, SPCE061 的特定语者辨识 SD(Speaker Dependent) 即语音样板由单个人训练,也只能识别训练某人的语音命令,而他人的命令识别率较低或几乎不能识别。 调用训练模块TrainWord(intWordID, intRespondID)初始化BSR_DeleteSDGroup(0)图 3.2 是语音识别的一个整体框图:初始化识别器BSR_InitRecognizer(BSR

39、_MIC)启动实时监控BSR_EnableCPUIndicator()辨识处理BSR_GetResult()识别部分图3.2 语音识别原理框图3.3 软件设计3.3.1 语音压缩编码语音压缩编码中的数据量是指:数据量=(采样频率量化位数)/8(字节数) 声道数目。 压缩编码的目的:通过对资料的压缩,达到高效率存储和转换资料的结果,即在保证一定声音质量的条件下,以最小的资料率来表达和传送声音信息。压缩编码的必要性:实际应用中,未经压缩编码的音频资料量很大,进行传输或存储是不现实的。所以要通过对信号趋势的预测和冗余信息处理,进行资料的压缩,这样就可以使我们用较少的资源建立更多的信息。 按照实现的功

40、能来分,语音合成可分两个档次: (1) 有限词汇的计算机语音输出 (2) 基于语音合成技术的文字语音转换(TTS:Text-to-Speech) 按照人类语言功能的不同层次,语音合成可分为三个层次: 文本到语音的转换过程如图3.3所示。文本输入合成语音输出词典及语言规范韵律处理语音合成文本处理语音数据库图3.3 文本到语音的转换过程语音辨识: 早期只能辨认特定的使用者即特定语者(Speaker Dependent,SD)模式,使用者可针对特定语者辨认词汇(可由使用者自行定义,如人名声控拨号),作简单快速的训练纪录使用者的声音特性来加以辨认。 随着技术的成熟, 进入语音适应阶段 SA(speak

41、er adaptation),使用者只要对于语音辨识核心,经过一段时间的口音训练后,即可拥有不错的辨识率。 只要按照你正常说话的速度,直接将要表达的说出来,中间并不需要停顿,这种方式是最直接最自然的,难度也最高,现阶段连续语音的辨识率及正确率,虽然效果还不错但仍需再提高。然而,中文字有太多的同音字,因此目前所有的中文语音辨识系统,几乎都是以词为依据,来判断正确的同音字。可辨认词汇数量:内建的词汇数据库的多寡,也直接影响其辨识能力。图 3.4 是简化的语音识别原理图,其中实线部分成为训练模块,虚线部分为识别模块。语音模式训练语音匹配复杂声学、言语条件下的语音输入语音模型声学模式训练识别结果理解结

42、果语言模型语音处理图3.4 语音识别原理简图3.3.2 凌阳音频压缩算法不同音频质量等级的编码技术标准(频响)如表3.2所示:表3.2不同音频质量等级的编码技术标准信号类型频率范围(Hz)采样率(KHz)量化精度(位)电话音200-340088宽带音频(AM质量)50-70001616调频广播(FM质量)20-15k37.816高质量音频(CD质量)20-20k44.116凌阳音频压缩算法处理的语音信号的范围是 200Hz3.4KHz 的电话话音。凌阳音频压缩算法根据不同的压缩比分为以下几种: SACM-A2000:压缩比为 8:,8:1.25,8:1.5 SACM-S480: 压缩比为 80

43、:3,80:4.5 SACM-S240: 压缩比为 80:1.5 按音质排序:A2000S480S240凌阳音频形式和压缩算法:(1) 波形编码:sub-band 即 SACM-A2000 特点:高质量、高码率,适于高保真语音音乐。 (2) 参数编码:声码器(vocoder)模型表达,抽取参数与激励信号进行编码。如:SACM-S240。 特点:压缩比大,计算量大,音质不高,廉价! (3) 混合编码:CELP 即 SACM-S480 特点:综合参数和波形编码之优点。 除此之外,还具有 FM 音乐合成方式即 SACM-MS01。3.3.3 凌阳语音的播放、录制、合成和辨识功能的分析凌阳的 SPCE

44、061A 是 16 位单片机,具有 DSP 功能,有很强的信息处理能力,最高时钟频率可达到 49MHz,具备运算速度高的优势等等,这些都无疑为语音的播放、录放、合成及辨识提供了条件。 凌阳压缩算法中 SACM_A2000、SACM_S480、SACM_S240 主要是用来放音,可用于语音提示,而 DVR 则用来录放音。对于音乐合成 MS01,该算法较繁琐,而且需要具备音乐理论、配器法及和声学知识,所以对于特别爱好者可以到我们的网站去了解相关内容,这里只给出它的 API 函数介绍及程序代码的范例,仅供参考。 对于语音辨识主要有以下两种: (1) 特定发音人识别 SD(Speaker Dependent):是指语音样板由单个人训练,也只能识别训练人的语音命令,而他人的命令识别率较低或几

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号