《2015春DSP技术及应用-C1-DSP绪论.ppt》由会员分享,可在线阅读,更多相关《2015春DSP技术及应用-C1-DSP绪论.ppt(57页珍藏版)》请在三一办公上搜索。
1、第1章 绪论,DSP原理与应用张东亮机械工业出版社,DSP原理及应用邹彦电子工业出版社,DSP技术的发展与应用彭启琮高等教育出版社,数字信号处理技术的优势:精确、灵活、抗干扰能力强、可靠性高、易于大规模集成等。,数字信号处理是通过计算机或专用处理设备,以数字的形式对信号进行分析、采集、合成、变换、滤波、估算、压缩、识别等加工处理,以提取有用的信息并进行有效的传输与应用。,模拟信号与数字信号模拟与数字各有所长,不能彼此取代。现实世界中的绝大部分原始信号都是模拟信号对原始信号的采集和初步处理需要依赖模拟系统模拟信号保证高度的实时性需求雷达、声纳、遥感等高实时性的信号采集需要模拟系统来实现高频信号的
2、原始处理需要采用模拟技术通信系统中RF(射频)信号的发送和接收需要依靠模拟系统来实现。,DSP:Digital Signals Processing-数字信号处理技术 Digital Signals Processor-数字信号处理器,数字信号处理技术是关于理论和计算方法的技术;数字信号处理器是指实现上述技术所需的通用或专用的可编程微处理器芯片。两者是不可分割的。,数字信号处理技术以众多学科为理论基础;数学领域网络理论、控制理论、通信理论数字信号处理已经成为许多新兴学科的理论基础。人工智能模式识别神经网络,(一)算法研究,研究目标 算法的研究是指如何以最小的运算量和存储空间来完成给定的任务。快
3、速傅里叶变换(FFT)研究内容语音与图像的压缩编码、识别与鉴别;信号的调制与解调、加密和解密;信道的辨识与均衡、智能天线;频谱分析等。,(二)数字信号处理的实现,数字信号处理的实现是用硬件、软件或软硬结合的方法来实现各种算法。,数字信号处理的实现方法:,在PC上用软件实现;在PC基础上加入专用的加速处理机实现;用单片机实现;用通用的可编程DSP芯片实现;用专用的DSP芯片实现;用基于通用DSP核的ASIC(Application Specific Integrated Circuits,专用集成电路)芯片实现。,DSP芯片的三个发展阶段19801990 DSP技术的雏形阶段19902000 D
4、SP技术的成熟阶段2000 DSP技术的完善阶段,DSP芯片发展的第一阶段(雏形阶段),时间 1980年前后特点 奠定了理论基础:快速傅里叶变换(FFT)奠定了技术基础:集成电路技术的发展代表性产品:S2811 AMI公司/1978 第一块DSP芯片 TMS32010 TI公司 采用改进的哈佛结构,DSP芯片发展的第一阶段(雏形阶段),TMS32010 TI公司,技术参数5 MIPS(Million Instructions Per Second)4K RAM3微米工艺55000个晶体管汇编语言,技术亮点采用改进的哈佛结构,DSP芯片发展的第二阶段(成熟阶段),时间 1990年前后特点 硬件结
5、构快速发展:硬件傅里叶变换、单指令滤波 应用范围快速扩展:通信领域、语音图像处理领域代表性产品:DSP5600/9600 Motorola TMS320C20/30 TI公司 采用CMOS工艺,DSP芯片发展的第三阶段(完善阶段),时间 2000年以后特点 硬件结构:高速、低功耗、多芯、并行 软件环境:集成化开发环境 应用范围快速扩展:通信、计算机、图形图像代表性产品:TMS320C2x/5x/6x TI公司,DSP技术的发展趋势:,多处理器的并行处理结构便于外部数据交换的串行总线结构 SPBSP McBSP大容量片上ROM和RAM更强的I/O驱动能力外围电路内装化低功耗 智能移动终端,数字信
6、号处理强调运算的实时性,针对实时数字信号处理的需求,进行了改进,主要特点包括:,采用哈佛结构采用多总线采用流水线技术配有专用的硬件乘法-累加器具有特殊的DSP指令快速的指令周期增强的硬件配置支持多处理器结构省电管理和低功耗设计,传统(通用)处理器的冯.诺依曼结构单存储空间 程序指令与数据共用同一个存储空间单一的地址与数据总线 取指令与取操作数通过同一条总线以分时的方式共用,外部管理数据总线,外部管理地址总线,数据总线,数据地址总线,程序数据总线,程序地址总线,CPU(DSP),I/O口,ROM,串行接口,RAM,并行接口,外部存储器接口,哈佛结构特点:双存储空间彼此独立的程序总线与数据总线,对
7、程序与数据独立传输;取指令、执行指令与数据存取并行执行。,程序存储器与数据存储器相分离存储空间独立编址、独立访问,改进的哈佛结构 改进的哈佛结构采用双存储空间和多总线结构,即一条程序总线和多条数据总线。,特点:允许在程序空间和数据空间之间相互传送数据,数据可以由算术运算指令直接调用;提供了存储指令的高速缓冲器(Cache)和相应指令。,重复执行指令时,可读入一次连续使用,从而减少了指令执行所需要的时间。,概念 通过多总线结构能够同时进行取指令和多个操作数的存取操作,并由辅助寄存器自动增减地址进行寻址。CPU在一个机器周期内可多次访问程序空间和数据空间,加快DSP运算速度。,TMS320C54x
8、系列DSP内部有P、C、D、E,4组(对)总线,每组总线中都有地址总线和数据总线。在一个机器周期内可(并行)完成如下操作:从程序存储器中取一条指令:从数据存储器中取两个操作数:向数据存储器写一个操作数。,TMS320C54x的多总线结构,功能 每条指令通过同时使用片内的多功能单元,完成取指、译码、取操作数、执行等多个步骤,实现多条指令的并行执行。目的 在不提高系统时钟频率的条件下,减少每条指令的执行时间。,典型应用 利用流水线结构,通过执行重复操作指令,可以在单指令周期内完成数字信号处理中大量使用的乘法-累加(MAC)运算。,指令1,指令2,指令3,DSP流水线技术流水线结构是DSP硬件结构的
9、主要特征之一流水线技术不能降低DSP指令的执行周期流水技术的核心思想是充分利用系统资源。流水线技术需要其它相关技术的相互配合冗余的功能部件特殊的体系结构多总线高效的指令系统流水线技术的效率与程序设计相关通过合理的程序设计降低片内资源的冲突。,专用硬件乘法-累加器硬件乘法-累加器:可在一个(指令)周期内完成一次乘法和一次累加操作。高效的支持矩阵运算、FIR和IIR滤波、FFT 变换等专用的信号的处理。独立的DMA总线独立的直接存储器访问(DMA)总线提高了数据的访问和传输效率。DMA总线避免了数据传输过程对CPU的影响。独立的DMA总线可作为多处理器通信的主要通道。支持DSP处理阵列中芯片的数据
10、传输。,专用地址生成逻辑设置了专用的地址生成 逻辑,避免了通用CPU中地址生成对ALU资源的占用。程序、数据地址的生成与CPU并行工作。特殊DSP指令根据数字信号处理的特点,在DSP指令系统中设计了一些完成特殊功能的指令。TMS320C54:FIRS、LMS 指令(专门用于完成系数对称的FlR 滤波器和LMS算法)。,快速的指令周期 指令周期低于20ns。丰富的硬件配置支持多处理器 TMS320C40 片内6个高速处理器专用通信接口 TMS320C80 片内5个微处理器低功耗 一般为0.54W,甚至0.25W,接口:串口、HPI、JTAGDMA总线及控制器中断系统,(一)按基础特性分类 依据D
11、SP芯片的工作时钟和指令类型,静态DSP芯片:在某个时钟频率范围内的任何频率上都能正常工作。TI公司TMS320系列芯片一致性DSP芯片:指令集和相应的机器代码及管脚结构相互兼容。TI公司TMS320C54x,(二)按用途分类 DSP芯片的适用性,通用型DSP芯片:可以用指令(软件)编程的DSP芯片。专用型DSP芯片:由内部硬件电路实现相应算法的芯片。,适合于各类数字信号处理的应用具有可编程性,应用灵活可完成复杂的数字信号处理的算法,具有强大的处理能力,只针对某种特定应用用于要求信号处理速度极快的特殊场合,(三)按数据格式分类 DSP芯片采用的数据格式,即按精度或数据的动态范围来分类。定点DS
12、P:数据以定点格式工作的芯片称为定点DSP 芯片。浮点DSP:数据以浮点格式工作的芯片称为浮点DSP 芯片。,TI TMS320C1x/2xAD ADSP21xxMotorola MC56000,TI TMS320C3x/4x/C67xAD ADSP21xxMotorola MC96002,DSP 芯片在众多领域得到广泛的应用。随着DSP 芯片价格的下降,性价比不断提高,DSP 芯片的应用日趋广泛。,1.信号处理 2.通 信 3.语 音 4.图像处理 5.军 事,6.仪器仪表 7.自动控制 8.医疗工程 9.家用电器 10.计 算 机,如:数字滤波、自适应滤波、快速傅氏变换、Hilbert变换
13、、相关运算、频谱分析、卷 积、模式匹配、窗函数、波形产生等;,如:调制解调器、自适应均衡、数据加密、数据压缩、回波抵消、多路复用、传真、扩频通信、移动通信、纠错编译码、可视电话、路由器等;,如:语音编码、语音合成、语音识别、语音增强、语音邮件、语音存储、文本语音转换等;,如:二维和三维图形处理、图像压缩与传输、图像鉴别、图像增强、图像转换、模式识别、动画、电子地图、机器人视觉等;,如:保密通信 雷达处理 声纳处理 导航 导弹制导 电子对抗 全球定位GPS 搜索与跟踪 情报收集与处理等,如:频谱分析、函数发生、数据采集、锁相环、模态分析、暂态分析、石油/地质勘探、地震预测与处理等;,如:引擎控制
14、 声 控 发动机控制 自动驾驶 机器人控制 磁盘/光盘伺服控制 神经网络控制等,如:助听器 X-射线扫描 心电图/脑电图 超声设备 核磁共振 诊断工具 病人监护等,如:高保真音响 音乐合成 音调控制 玩具与游戏 数字电话/电视 高清晰度电视HDTV 变频空调 机顶盒等,如:震裂处理器 图形加速器 工作站 多媒体计算机等,DSP芯片的现状 制造工艺4m的NMOS工艺0.25m或0.18m亚微米的CMOS工艺芯片引脚从40个增加到200个以上需要设计的外围电路越来越少存储器容量片内:几百个单元几十K字片外:程序存储器和数据存储器可达到16M48位和4G40位以上 内部结构多总线、多处理单元和多级流
15、水线结构,运算速度400ns缩短到10ns以下速度从2.5MIPS提高到2000MIPS以上高度集成化集滤波、A/D、D/A、ROM、RAM和DSP内核一体化 运算精度和动态范围字长从8位增加到32位累加器的长度也增加到40位超长字指令字(VLIW)结构高性能浮点芯片扩大了数据处理的动态范围 开发工具集成开发环境CCS,367 MHz,236 MHz,207 MHz,DSP芯片浮点VS定点 主频相同:150Mhz,F28335比F2812性能提升50%。,DSP技术的发展趋势 DSP内核结构不断改善 SIMD、VLIMDSP 和微处理器的融合 DSP 和高档CPU的融合 DSP 和SOC的融合
16、DSP 和FPGA的融合 实时操作系统RTOS与DSP的结合 DSP的并行处理结构 功耗越来越低,SIMD与VLIM技术SIMD(单指令多数据流)技术SIMD是处理器并行的执行同一操作的多组数据。ADSP-2116x为保证SIMD处理器的全速运行,需要程序员对算法、数据进行人为的优化。SIMD技术适合于需要大规模并行处理的算法.VLMI(超长指令字)VLMI将单周期内可执行的多条指令“打包”成一条很长的指令。VLMI指令有汇编器或代码生成工具确定需要并行执行的指令。VLMI需要更宽的指令字,一般需要32位的指令字.,SoC技术SoC(System on Chip)技术,是通过大规模集成电路技术
17、,将整个应用系统集成在芯片上.OMAP(开放式多媒体应用平台)移动通讯领域中,动态环境下的多媒体解决方案.核心模块包括:高性能、低功耗的DSP、通用MCU、内存流量控制器(MTC)DavinciTI于2005年推出面向数字视频的达芬奇技术其主要目标是结合固定功能器件的高效率与可编程器件的高度灵活性,提供一种数字视频终端设备解决方案。TMS320DM6446/6443(DSP+ARM),DSP技术的发展趋势 SoC,高通骁龙,TI DaVinci系列,国内DSP技术的发展现状 硬件DSP核心芯片技术 DSP应用系统 日趋成熟软件DSP应用相对成熟图像压缩与传输等图像信号的处理,语音的编码、合成、
18、识别和高保真等语音信号的处理以及通信信号的调制解调、加密、多路复用、扩频、纠错编码等处理。,典型DSP系统的构成,DSP系统处理的输入信号语音信号视频信号调制信号DSP系统硬件DSP芯片外围电路,DSP系统基本处理流程:,输入信号x(t)进行抗混叠滤波,滤掉高于折叠频率分量,防止信号频谱混叠;经A/D转换器采样和量化,将滤波后的信号转换为数字信号x(n);DSP处理器对x(n)进行处理(通过程序或门电路),得到数字信号y(n);经D/A转换器,将y(n)转换成模拟信号;经低通滤波器,滤除高频分量,得到平滑的模拟信号y(t)。,DSP系统实例1,数 码 相 机 系 统,DSP系统实例2,GSM移
19、动电话系统,接口方便 便于编程高速性 稳定性好 精度高 可重复性好 集成方便,支持各种接口,支持汇编和高级语言,有友好的集成开发环境,模块化设计,便于集成,元器件参数性能一致性高,芯片字长:16位、32位,抗环境干扰性好,可靠性高,快速的指令周期、面向数字信号处理的专用硬件结构,设计阶段:,明确设计任务,确定设计目标算法模拟,确定性能指标(仿真)(matlab等)选择DSP芯片和外围芯片(定点/浮点、字长、处理速度、输入输出等)设计实时DSP应用系统(硬件设计/软件设计)硬件、软件调试 系统集成和测试,根据需求写出任务书确定设计目标,算法研究和系统模拟实现定义系统性能指标,选择DSP芯片和外围
20、芯片,硬件设计,硬件调试,软件设计,软件调试,系统集成和测试,DSP应用系统设计过程框图,选择DSP芯片的考虑因素:,1DSP芯片的运算速度2DSP芯片的价格 3DSP芯片的运算精度 4DSP芯片的硬件资源5DSP芯片的开发工具6DSP芯片的功耗7其它因素,指令周期、MAC时间、FFT执行时间、MIPS、MOPS、MFLOPS、BOPS等。,定点芯片字长通常为16位和24位。浮点芯片字长一般为32位。,片内RAM、ROM的数量,外部可扩展的程序和数据空间,总线接口,I/O接口等,快捷、方便,传统DSP芯片的性能评估指令周期:即执行一条指令所需的时间。MAC时间:一次乘法-累加运算所需的时间。F
21、FT执行时间:运行一个N点FFT 程序的时间。MlPS:每秒执行百万条指令。MOPS:每秒执行百万次操作。MFLOPS:每秒执行百万次浮点操作。应用型性能评估通过专业化的数字信号处理核心算法,对处理器的处理性能、存储需求、能耗等进行综合性 评估。SPEC性能评价BDTI性能评价,BDTI性能评价核心算法,DSP程序的开发环境芯片厂商提供的开发平台visual DSP+ADICCS TI其它第三方开发平台编程语言的选择汇编语言C语言C语言与汇编语言混合编程,C程序中嵌入汇编语句While(1)asm(“SSBXSXM”);/执行汇编指令调用汇编函数_asmfunc:;汇编函数LD*AR0,AR1
22、ADD*(_global),AR1,AR1RETextern void asmfunc(int*);int global;void cfunc()int local=5;asmfunc(/.c中调用汇编函数,目前,通用DSP生产厂家中,最有影响的公司:AD、AT&T(Lucent)、Motorola、TI、NEC。AD公司定点DSP:ADSP21xx系列 16bit 40MIPS;浮点DSP:ADSP21020系列 32bit 25MIPS;并行浮点DSP:ADSP2106x系列 32bit 40MIPS;超高性能DSP:ADSP21160系列 32bit 100MIPS。AT&T公司定点DS
23、P:DSP16系列 16bit 40MIPS;浮点DSP:DSP32系列 32bit 12.5MIPS。,Motorola公司定点DSP:DSP56000系列 24bit 16MIPS;浮点DSP:DSP96000系列 32bit 27MIPS。NEC公司PD77Cxx系列 定点16bit;PD770 xx系列 定点16bit;PD772xx系列 定点24bit或32bit。TI公司 C2x、C24x称为C2000系列 C54x、C55x称为C5000系列 C62x、C64x和C67x称为C6000系列,TI公司产品系列定点DSP 浮点DSP 多处理器DSP,TMS320C1x系列 16bit
24、 第一代 1982年前后;TMS320C2x系列 16bit 第二代 1987年前后;TMS320C5x系列 16bit 第五代 1993年;TMS320C54x系列 16bit 第七代 1996年;TMS320C24x系列 16bit 第七代 1996年;TMS320C6x系列 32bit 第七代 1997年;TMS320C55x系列 16bit 第七代 2000年。,TMS320C3x系列 32bit 第三代 1990年;TMS320C4x系列 32bit 第四代 1990年;TMS320C67x系列 64bit 第七代 1998年。,TMS320C8x系列 32bit 第六代 1994年。,TI产品系列,DSP产品现状,市场占有率,应用领域份额,