数字信号处理系统的实现下.ppt

资源描述

《数字信号处理系统的实现下.ppt》由会员分享，可在线阅读，更多相关《数字信号处理系统的实现下.ppt（52页珍藏版）》请在三一办公上搜索。

1、5.6 数字信号处理硬件-数字信号处理器,一、数字信号处理器的发展概况,1988年以来DSP的市场每年以40%的速度在增长，已超过了半导体的增长速度。预计到2007年DSP连同混合信号处理器件的市场将达到500亿美元。2003年DSP的市场为100多亿中国已占12%。,1979年美国Intel公司发布的商用可编程器件2920是DSP芯片 1980 年，日本 NEC 公司推出的P D7720是第一个具有乘法器的商用 DSP 芯片。MOTOROLA的DSP56和DSP96系列，AD（模拟器件）公司的ADSP2100系列以及AT&T的DSP16和DSP32系列。TI 公司在1982年成功推出其第一代

2、 DSP 芯片 TMS32010及其系列产品之后相继推出了一系列DSP芯片。,最早问世的6种DSP,从运算速度来看，MAC（乘法/累加）时间已经从20世纪80年代初的400ns（如TMS32010）降低到10ns以下DSP芯片内部关键的乘法器部件从1980年的占模片区（die area）的40%左右下降到5%以下，先进的DSP芯片的片内已含有多个乘法器部件和算术逻辑单元，片内RAM的数量也增加了一个数量级以上。1980年采用4m NMOS工艺，而现在则普遍采用亚微米（Micron）CMOS工艺,每隔10年DSP芯片的发展,年份19821992（97）2002工艺线宽（um）30.8（0.35）

3、0.18MAC*（MIPS）540（100）2G时钟（MH）2080（200）500RAM（Words）1441K16KROM（Words）1.5K4K64K价格（美元）150151.5功耗（mv/MIPS）25012.50.1晶体管数50K5005M硅片尺寸3英寸6英寸(8英寸)12英寸*做一次乘法和累加计算的时间,二、DSP的特点,1)采用哈佛（Harvard）总线结构。与哈佛结构相关，DSP芯片广泛采用流水线操作以减少指令执行时间,冯氏结构,2)具有高速阵列乘法器等专用硬件。精度至少为1616位定点，一些DSP的片内已含有4040位的浮点乘法器。,Multiply and Accumul

4、ate Unit,3)具有高速的片内数据存储器和程序存储器。对于一些简单、单一的操作，例如卷积、相关等，可以在片内完成，避免与外部的低速存储器打交道。新近的DSP产品均为双端口片内RAM。,乘法/累加指令位反转寻址模式数据移动操作饱和溢出处理重复指令,4)具有满足信号处理应用要求的一些特殊指令。,并行接口串行接口DMA多处理器并行的链路接口全局存储器的控制逻辑和接口,5)具有高速的I/O接口。,三、TMS320系列数字信号处理器,TI公司于1982年推出了其第一代DSP产品TMS32010，目前已发展到两大类9个分支系列产品，两大类为浮点和定点，9个分支系列分别满足不同的需要。,三种主要 DS

5、P芯片,TMS320C2000系列,比8位或16位微控制器（MCU）速度更快、更灵活、功能更强的、面向控制的微处理器。主要应用包括：电源功率控制、电机控制、制冷系统、可调激光器、不间断电源等。C24X系列为16位定点DSP芯片。C28X系列为TI近年新推出的32位定点DSP芯片。,TMS320C2000系列 C24X系列。,指令周期大约在50-25ns之间。在指令方面有许多特殊功能的指令，如寻址方面有位反转寻址用于支持基二FFT运算，以及支持LMS自适应滤波或浮点归一化等运算的指令。C24X有两套数据总线，即数据读总线和数据写总线，可以在一个机器周期内同时读写数据。C24x系列的芯片具有事件管

6、理器，以便支持马达控制。该事件管理器具有三个加/减定时器和九个比较器。,TMS320C2000系列 C28X系列。,TI近年新推出的32位定点DSP芯片。其乘法器可以执行3232位的乘法，得到64位的结果，参与乘法的两个乘数可以是带符号的数、不带符号的数或一个带符号的数而另一个为不带符号的数。C28X支持32位单周期指令，其数据地址为32位，程序地址为22位，可以访问4G字（16位）的数据空间和4M字的程序空间。,TMS320C5000系列,目前，TMS320C5000主要有两大系列即TMS320C54x和TMS320C55x，这是目前最先进的定点DSP芯片。,Copyright 2003 T

7、exas Instruments.All rights reserved.,Copyright 2003 Texas Instruments.All rights reserved.,应用范围:,Internet Appliances Set-Top Boxes(STBs)Gaming Consoles Digital Cameras Digital Music Players Electronic Books(eBooks)Personal Digital Assistants(PDAs)Home Networking,Etc.,TMS320C54x,指令速率30-500 MIPS，32位长

8、操作数指令。低功耗，供电电压最低的芯片仅为1V。三组16位数据总线和一组程序总线。40位ALU，40位定标移位器和两个独立的40位ACC。1717位乘法器，连接一个 40位的专用加法器，非流水的单周期乘法/累加。,比较、选择和存储单元（CSSU），支持Viterbi算法。单周期指令支持浮点数的归一化和指数编码。新的单周期指令提高了信号处理的效率，例如，对称系数的线性相位FIR滤波。,TMS320C55x,在功耗方面它进一步降低，TMS320C54x 的功耗是0.32mW/MIPS，而TMS320C55x 的功耗只有0.05mW/MIPS两个乘法/累加器MAC两个算术逻辑单元ALU四个40位的累

9、加器8位至48位可变长度。其指令速率高达600 MIPS,TMS320C6000系列,定点芯片系列TMS320C62x、TMS320C64x和浮点芯片系列TMS320C67x。“非常长指令字VLIW（Very-long instruction word）”的结构。对于TMS320C62x其片内含有两个乘法器和6个算术逻辑单元，其CPU在一个时钟周期内可执行高达十条指令，因而其处理速率高达1200-2400MIPS，其片内含有1M位的RAM，程序RAM和数据RAM各占512k位。,TMS320C6000系列,TMS320C64x 在TMS320C62x的基础上又有很大的改进，是第二代VLIW结构

10、的DSP芯片，它的时钟速率高达1GHz，处理速率比TMS320C62x 提高了一倍以上，达3200-4800 MIPS。由于在指令功能、并行度方面的改进其性能至少比TMS320C62x提高了十倍以上。其应用面向第三代移动通信和图象处理，TMS320C64x 专门设计了为这些应用服务的特殊指令，而在功耗方面，它仅为第一代芯片的三分之一。,TMS320C6000系列 TMS320C67x,两个浮点/定点乘法器、四个浮点/定点ALU、两个定点ALU。浮点处理速率高达600MFLOPS-1GFLOPS。TMS320C67x的代码与引脚与TMS320C62x兼容,TMS320C5000的结构原理,TMS

11、320C5000主要有两大系列即TMS320C54x和TMS320C55x。C54x系列的DSP芯片内部CPU的结构上是完全相同的，只是在芯片的工作电压、片内存储器容量和外围接口电路上存在着差别。C55x是在C54x的基础上发展起来的，其指令完全与C54x兼容,TMS320C54x的结构特点,TMS320C54x有一组程序总线和三组数据总线，两组数据总线(CB和DB)用于传送从数据存储器读出的操作数，一组数据总线(EB)用于传送写入到数据存储器的数据，C54x可以在一个周期里完成两个读和一个写操作。,1)中央处理单元,40位算术逻辑单元（ALU）两个累加器，即ACC A 和ACC B定标移位器

12、能将来自累加器或存储器的输入数据进行0到31位的左移和0到16位的右移。1717位的并行乘法器，连接一个40位的专用加法器比较、选择和存储单元（CSSU）指数编码器,2)中央存储组织,大部分C54系列芯片均含有片内ROM片内RAM包括片内双口RAM（DRAM），和片内单口RAM（SRAM）八个16位的辅助寄存器（AR0-AR7）能被中央算逻单元CALU访问，也能被辅助寄存器算术单元ARAU修改系统控制IEEE1149.1标准扫描逻辑电路用于仿真和测试，它提供对所连设备的边界扫描。,3）系统控制,系统控制包括连接内部振荡器或外部时钟源的锁相环（PLL）发生器、支持8位或16位传送的全双工串口、时

13、分多路（TMD）串口、缓冲串口（BSP）、8位并行主机接口、16位硬件定时器、软件可编程等待状态发生器和可编程的存储单元转换等。,4）IEEE1149.1标准扫描逻辑,IEEE1149.1标准扫描逻辑电路用于仿真和测试，它提供对所连设备的边界扫描。同时，它也能用来测试引脚到引脚的连续性，以及完成C54x外围器件的操作测试。IEEE1149.1标准扫描逻辑与访问片内所有资源的内部扫描逻辑电路相连。因而，C54x能使用IEEE1149.1标准串行扫描引脚和专用仿真引脚来完成在线仿真。,5）指令功能大大加强,它提供了七种基本的数据寻址方式，与C25相比，增加了绝对地址寻址、累加器寻址、存储器映射寄存

14、器寻址和堆栈寻址。特别是间接寻址，不仅可以在一个指令中完成一次读或写的操作（单操作寻址），也可以在一个指令中完成访问两个存储单元的操作（双操作寻址），甚至还可以进行取模运算完成循环寻址。C54x支持存储块移动更便于程序和数据的管理。C54x不仅能重复执行单条指令还具有重复执行一段包含若干条指令的程序块的能力。,表5.3 TMS320C54X的间接寻址,表5.3 TMS320C54X的间接寻址,例7 当前辅助寄存器AR1=0200H，以此做为输入数据的基地址，顺序读入八个数即N=8，但按位反转存放。,按时间抽取的8点FFT,解开始对AR0赋值为N/2=4，执行以下两条程序即可：RPT#7POR

15、TR*AR1+0 B,PA0RPTC=7使得下一条指令重复执行八次；第二条为输入语句，从PA0口输入八个数据，即x(0),x(1),x(7),按照指定的间接寻址方式存放。间接地址AR1的内容，分别为：AR1AR1=0200H初始值AR1+AR0 AR1=0204H第1次变址AR1+AR0 AR1=0202H第2次变址AR1+AR0 AR1=0206H第3次变址AR1+AR0 AR1=0201H第4次变址AR1+AR0 AR1=0205H第5次变址AR1+AR0 AR1=0203H第6次变址AR1+AR0 AR1=0207H第7次变址,浮点数的尾数进行归一化处理,例 EXPA；计算累加器A中的；

16、归一化指数STT,EXP；将T寄存器中的指数存；入名为EXP的单元NORMA；对累加器A归一化处理,TMS320C55x的结构特点：,1）先进的电源管理系统它监视着片内的外围设备、存储器阵列、各个CPU单元等部分，如果某一部分不在工作，便自动切断其电源。,2)支持可变长度指令指令长度可以是8位、16位、24位、32位、40位或48位；指令读取由16位增至32位；片内指令缓存器自动分解指令，充分利用每一时钟周期。,3）提高并行度硬件上采用双1717位乘法/累加器（MAC），四个40位累加器（ACC），新增四个数据寄存器和一个16位算术逻辑单元（ALU）；新增并行指令，包括用户可编程并行指令；新

17、增总线和扩展寻址部件，从而保证硬件能充分发挥作用。这些包括三组16位数据读总线，两组16位数据写总线，一组32位程序总线，六组24位地址总线。,4）32位宽度的扩展存储器接口可与外部的高速低成本存储器相连，包括同步的高速DRAM、SRAM以及异步的DRAM、SRAM、ROM和闪存。5）新型的评估硬件 C55x片内含有先进的评估硬件，提高了Debug的速度，简化了Debug的过程。,OMAP 的硬件结构,Dual MAC with Video HWA24 KB icache160 KB SRAM,32KB ROMHardware accelerators for video algorithm

18、s,24 KB cacheData and instruction MMUs32-bit and 16-bit instruction sets,192 KB shared SRAMTwo 16-bit memory interfaces for SDRAM and FlashNine-channel system DMA controllerLCD controllerUSB 1.1.host and clientMMC/SD card interfaceEight serial ports plus three UARTsEight timersReal-time clockKeyboar

19、d interface18 GPIO pins,TMS320C55xTM DSP,ARM925 MPU,Peripherals and on-chip Resources,Flash16,OMAP5910/1510,ARM Shared,Traffic Ctrl75 MHz,ARM Private,Packaging:12mm x 12mm 289-ball MicroStar BGA,32,32,IMIF,32,32,32,32,32,16,DSP Shared,DSP Private,System Shared,EMIFF,EMIFS,SDRAM16,SystemDMA,LCDCtrl,S

20、RAM1.5 Mb,TMS320C55xTM Core150 MHz,DSP,ARM,TI-Enhanced ARM925 Core150 MHz,ARM（Advanced RISC Machines）,ARM（Advanced RISC Machines）是微处理器行业的一家知名企业，设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件。技术具有性能高、成本低和能耗省的特点。ARM将其技术授权给世界上许多著名的半导体、软件和OEM厂商，每个厂商得到的都是一套独一无二的ARM相关技术及服务。利用这种合伙关系，ARM很快成为许多全球性RISC标准的缔造者。,ARM的主要特点,面向低成本市场设计的第一款RISC微处理器。所有产品均采用一个通用的软件体系，所以相同的软件可在所有产品中运行（理论上如此）。小型、快速、低能耗、集成式RISC内核。ARM在手持设备市场占有90%以上的份额。,

展开阅读全文