数据编码的基本方式说课讲解课件.ppt

上传人:牧羊曲112 文档编号:1470091 上传时间:2022-11-29 格式:PPT 页数:63 大小:905.50KB
返回 下载 相关 举报
数据编码的基本方式说课讲解课件.ppt_第1页
第1页 / 共63页
数据编码的基本方式说课讲解课件.ppt_第2页
第2页 / 共63页
数据编码的基本方式说课讲解课件.ppt_第3页
第3页 / 共63页
数据编码的基本方式说课讲解课件.ppt_第4页
第4页 / 共63页
数据编码的基本方式说课讲解课件.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《数据编码的基本方式说课讲解课件.ppt》由会员分享,可在线阅读,更多相关《数据编码的基本方式说课讲解课件.ppt(63页珍藏版)》请在三一办公上搜索。

1、数据编码的基本方式,2,计算机最主要的功能就是处理信息,而信息在计算机中如何表示、存放、传递?这是首先要解决的问题。基本要求是:信息的表示、存放和传递要方便、可靠、易处理。显然,在计算机内部,信息只有经过数字化编码后才能表示、存放和传递。,计算机与信息处理,3,信息的表示及采集编码:用少量的基本符号,根据简单的组合规则,以表示大量复杂的信息。二进制:是一种最简单的编码系统。多媒体信息的表示与采集基于计算机的信息处理信息的组织信息的传输信息的检索,数据编码的基本方式,4,计算机中的信息采用二进制编码来表示。二进制表示数字容易实现(只有0、1)。二进制运算规则简单(逢二进一)。二进制编码在物理上最

2、容易实现;自然界中具有两个固定状态的物理量很多,例如:电流的有无、电压的高低等。,计算机为什么选用二进制,5,数制:人们利用符号来计数的科学方法。进位计数制:按一定进位规则进行计数的方法。基数:是指该进制中允许使用的基本数码的个数。十进制的基数为10,数码为0,1,2,9十个。二进制的基数为2,数码为0,1两个。八进制的基数为8,数码为0,1,7八个。十六进制的基数为16,数码为09,AF十六个。位权:数制每一位所具有的值,简记为“权”。,计算机中的数制,6,按权展开式:234.32=2*102+3*101+4*100+3*10-1+2*10-2,7,在按位定制的计数制中,十进制数可以表示成下

3、列形式(用D代表或略去,无后缀符默认为十进制数):(D)10 = Di10i = Dn-110n-1+Dn-210n-2+D0100+D-110-1+D-m10-m举例: 519.02 = 5102+ 1101+ 9100+ 010-1+ 210-2特点:有0-9十个数字符号,基数为10,是逢十进一的计数制,各数位的权是以10为底的幂。,n-1,i= -m,十进制表示法,8,一个二进制数可以表示成下列形式(用B代表):(B)2=Bn-12n-1+Bn-22n-2+B020+B-12-1 + B-m2-m举例: 1101.01 = 123+ 122+ 021+120+ 02-1+12-2 特点:

4、数值用0,1表示,基数为2,是逢二进一的计数制,各数位的权是以2为底的幂。表示:1101.01B或(1101.01)2,二进制表示法,9,一个八进制数可以表示成下列形式(用Q代表):(B)8=Bn-18n-1+Bn-28n-2+B080+B-18-1 + B-m8-m举例: 3765.02 = 383+ 782+ 681+580+ 08-1+28-2 特点:数值用07表示,基数为8,是逢八进一的计数制,各数位的权是以8为底的幂。表示:452.16Q或(1101.01)8,八进制表示法,10,一个十六进制数可以表示成(用H代表):(H)16= Hn-116n-1+Hn-216n-2+H020+H

5、-116-1 + H-m16-m举例: A3F.3B =10162+316+15160+316-1+1116-2特点:有0-9及A-F共16个数字符号,基数为16,是逢十六进一的计数制,各数位的权是以16为底的幂。表示:3EFH或(20)16,十六进制表示法,11,不同进制数之间的转换,12,(11001.101)2=124123022021120121022123 = (25.625)10(16A.B)16(1162616110160 1116-1)10 (25696100.69)10 (362.69)10(34.6)8= ?,= ( 381480 68-1)10= (2440.75)10=

6、 (28.75)10,二、八、十六进制转换成十进制,13,方法:除2反序取余法例:(29)10=(?)2 结果:(29)10=(11101)2,十进制整数转换成二进制整数,14,方法:乘2顺序取整法例:(0.125)10=(?)2结果:(0.125)10(0.001)2,并非所有的十进制小数都能用有限位的二进制小数来表示。例如将(0.63)10转换为二进制。因为,小数部分乘以2会无限循环下去,故:只能取近似值。,十进制小数转换成二进制小数,15,100(D)=144(Q)=64(H),十进制转化成 八、十六 进制,16,八进制数转换为二进制数只需将每一个八进制数字改写成等值的3位二进制数即可,

7、且要保持高、低位次序的不变。 (16.327)8(001 110 . 011 010 111)2 (1110.011010111)2,二进制与八进制之间的转换,17,整数部分从低位向高位方向每3位用一个等值的八进制数来替换,最后若不足3位的在高位处用0补够3位;小数部分从高位向低位每3位用一个等值的八进制数来替换,不足3位的在低位处用0补够3位。 (011 110 111 . 100 010 101)2(367.425)8 3 6 7 . 4 2 5,二进制数转换成八进制数,18,十六进制数转换成二进制数把每一个十六进制数字改写成等值的4位二进制数即一位拆成四位,且要保持高、低位的次序不变。(

8、4C.2E)16(0100 1100 . 0010 1110)2 4 C 2 E (1001100.0010111)2,二进制与十六进制间的转换,19,整数部分从低位向高位方向每4位用一个等值的十六进制数来替换,即四位并为一位,最后不足4位时在高位处补0,补够4位;小数部分从高位向低位方向每4位用一个等值的十六进制数来替,最后不足4位时在低位处补0,补够4位。(1110 0101 1010 . 1011 1001)2 (E5A.B9)16 E 5 A . B 9,二进制数转换为十六进制数,20,0000010001200103001140100,练 习,50101601107011181000

9、91001,101010111011121100131101141110151111,(1110011010.111)2 ( )8 ( )16,21,计算机是美国人发明的,因此计算机的字符集中自然包含了英文的26个字母。计算机要在全世界通用,必须采用公认的标准格式对字符、符号进行编码。常用的字符编码有ASCII码、BCD码、西文字符编码和EBCDIC码。,编 码,22,十进制数的二进制编码(BCD)是指十进制数在计算机中用二进制编码来表示。二十进制编码的方法很多,8421码是最常见的一种,即每一位十进制数用四位二进制编码来表示。例如,十进制数2816的8421码为: 十进制数 2 8 1 6

10、8421码 0010 1000 0001 0110,BCD码在形式上变成了0和1组成的二进制形式,而实际上它表示的是十进制数,只不过是每位十进制数是用4位二进制编码表示。,BCD(Binary Coded Decimal )码,23,ASCII码有标准ASCII码和扩展ASCII码两种。标准的ASCII码使用7位的二进制数来编码,即每一个字符对应着一个7位的二进制数。所以用标准的ASCII码可以表示27 = 128个字符,其中包含10个阿拉伯数字,52个英文大小字母,33个符号及33个控制字符。扩展的ASCII码用8位二进制数来表示,可以表示256种不同的符号。,ASCII码 (America

11、n Standard Code for Information Interchange,美国标准信息交换码),24,西文字符处理起来比较简单,而中文信息处理起来就复杂了。汉字是图形文字,常用汉字就有30006000个,形状和笔画差异很大。这就决定了汉字字符的编码方案必须完全不同于西文的编码方案。在计算机系统中汉字的输入、内部处理、存储和输出过程中不能使用同一代码。,输入码,机内码,字库,字形码,25,输入码是解决汉字输入采用的编码,如“国标区位码”、“全拼”、“双拼”、“五笔”、“智能ABC”、“搜狗拼音”等输入编码。每一种输入码之所以能存在,是因为各有其特点。如果有人问,哪种输入码最好,回答

12、是“你熟练掌握的那种输入码就是最好的”。,输入码,26,我国在1980年制定了信息交换用汉字编码字符集基本集作为国家标准GB2312-80编码字符集,称为国标码。GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号(包括字母、数字和符号,例如英文、俄文、日文平、片假名等)的代码。在国家标准GB2312-80中,每个汉字采用双字节表示。每个字节只用ASCII码中的低7位,最高位为0。国标码采用十六进制表示。每个汉字的区位码同时对应一个国标码。,国标码,27,十六进制编码,十进制编码,区位编码,国标码编码,0020,21 22 23 24 25 26 7C 7D 7E,7F

13、,0020,位区,1 2 3 4 5 6 91 92 93 94,212F,115,非汉字图形符号(常用符号、数字序号、俄文、英文、法文、希腊字母、日文平、片假名等),3057,1655,啊 阿 埃 一级汉字(3755个),5877,5687,二级汉字(3008个),787E,8894,空白区域,7F,28,由于低7位中只有94种状态可用于汉字编码(其它34位是控制字符,不能用),所以两个字节的低7位共有94 94 = 8836种不同的状态。国标码将6763个汉字和682个非汉字字符(共7445个)划分为94个区,每个区又分为94位,称其为区位表。每个汉字在区位表中有唯一的一个区位码(四位十进

14、制数,前两位数是区号,后两位数是位号)与之对应,称之为“区位码”。例如,汉字“啊”在区位表中的编码是“1601”,既区号是“16”,位号是“01”。,29,GB2312-80统一规定了汉字的基本编码标准,但是要存储在计算机中与西文编码在计算机中的表示有冲突。例如,英文字符“L”和“1”的ASCII码是“76”和“108”,而汉字的“天”的区位码也是“76”和“108”。问题出在ASCII码和汉字国标码都采用字节的低7位编码方式。为了避免冲突,将国标码两个字节的最高位置“1”,形成汉字的机内码。例如,汉字“中国”,的机内码分别是十六进制的“D6D0”和“B9FA” 。,机内码,30,国标码和机内

15、码解决了汉字的编码标准和存储表示,但还没有解决汉字的显示和输出问题。一套汉字(如GB2312)其所有字符形状的数字描述信息组合在一起称之为字库(font)。 对汉字形状的数据描述,我们称为汉字字形码。目前计算机系统中有两种字形码:点阵式字形码和矢量字形码。,字形码,31,以点阵方式来表示汉字。每个点用二进制的一位“0”或“1”来分别表示汉字相应位置处的状态,如白、黑特征,从而体现出字的形和体。点阵越大,点数越多,输出的字形就越清晰,越美观。常见的有1616、2424、3232、4848和128128。 通过一组直线和曲线的数学描述(端点及控制点的坐标),将汉字的每个笔画都转化为数字特征值,组合

16、在一起便得到了这个汉字的字形矢量信息。通过矢量法表示的汉字字形大小、方向可以任意变化,这种方式构成的汉字精度高、美观、清晰,Windows环境中使用的TrueType字库采用的就是典型的矢量字形表示法。缺点是输出前必须通过复杂的运算处理。,字形码,32,“大”字的区号为20,位号为83,区位码为:2083,用14位二进制表示为: 0010100 1010011 国标码: 0110100 1110011 七位+七位 机内码:10110100 11110011 八位+八位(1) 字形码:1616点阵,33,汉字信息的处理过程,34,汉字处理过程中各种编码之间的关系,如下图所示。,自动转换,字节最高

17、位置“1”,转换(调用汉字字库),35,声音、图形(Graphic)、图像(Image)等多种信息在计算机中的处理也是基于二进制的,但其表现形式是复杂多样的。采集量化编码,多媒体信息的表示与采集,36,描述数字声音的参数有:取样频率:一秒钟内采样的次数。量化位数:采样值的二进制位数。声道数目:一次采样所记录产生的声音波形个数,分为单声道和双声道。码率(Bit Rate):表示每秒的数据量,以kb/s为单位。采用的压缩编码方法:MPEG 通过对实际声音的波形信号进行数字化处理而获得的数字声音,我们称为“波形声音”。PC机中使用最广泛的波形声音文件是采用.wav作为扩展名的数据文件,称为波形文件格

18、式。除此之外还有.mid、.mp3等其它描述音乐的数据文件。合成声音是使用符号(参数)对声音进行描述,然后通过合成的方法来生成声音。典型的有MIDI声音。,声音信息的表示,37,1秒钟CD音质的数据量(码率)为: (44.1kHz 16bit 2)8 = 1411.2kb/s 8 = 176.4kB/s 1小时CD音质的数据量为: 176.4kB/s 3600 1000 = 635.04MB,声音信息存储的文件大小计算,38,点阵图像(Dot Matrix Image)/位图图像(Bitmap) “图像”(Image) 几何图形/矢量图形 “图形”(Graphics)通过以下几个方面对Imag

19、e进行描述: 图像由一个像素组成的矩阵来表示。 矩阵中的行数称为图像的垂直分辨率, 列数称为图像的水平分辨率。 矩阵中的元素是像素彩色分量的亮度值,用整数表示,一般是8位12位。描述数字图像属性指标有:图像的分辨率(图像大小)位平面的数目:彩色分量(Component)的数目彩色空间的类型:彩色图像所使用的颜色描述方法,也叫彩色模型。常见的彩色空间有RGB(红、绿、蓝)空间、CMYK(青、橙、黄、黑)空间、YUV(亮度、色差)空间等。,图像信息的表示,图像,39,像素的深度(所有分量的位数之和):决定了图像中可能出现不同颜色(灰度)的最大数目。例如,由R、G、B 三个位平面组成的彩色图像,若三

20、个位平面中像素的位数分别为4、4、2,此时,该图像的深度为10,因而像素的最大颜色数目为24+4+2=210 =1024。 一幅图像的数据量按下面的公式进行计算(以字节为单位):图像数据量=图像宽度图像高度图像深度/8,图像信息存储的文件大小计算,40,图形的形成可以简单地认为是通过使用专业的命令集合来描述形成图形的各种几何要素,如直线、圆、矩形等,同时还要确定它们的位置、大小、线条粗细等等,并能把它们组合在一起构成一幅完整的图像。 用计算机实现时: 造型(Modeling)-绘制(Rendering)/图像合成(Image Synthesis),图形及图像合成,41,信息组织是依据信息资源的

21、主题内容或特征,利用一定的规则和方法,通过对其特征的分析、选择、处理,将无序的信息资源组织为有序集合的过程。 信息组织的层次结构位、字节、域、记录、文件 、数据库文件和数据库技术,信息的组织,二进制的运算,1算术运算(1)加法运算。(2)减法运算。 2逻辑运算(1)逻辑加法( OR “或”运算)。(2)逻辑乘法( AND“与”运算)。(3)逻辑否定( NOT“非”运算)。,数据的单位,数据单位换算公式如下:1Byte=8Bit1KB=1024Byte=210 Byte1MB=1024KB=220 Byte1GB=1024MB=230 Byte1TB=1024GB=240 Byte,44,进制和

22、不同进制之间的转换编码:字符、文字处理。多媒体信息的表示与采集信息的组织,数据编码的基本方式,谢谢大家,46,数据编码的基本方式,数制(计数制)指用一组固定的符号和统一的规则来表示数值的方法。编码是采用少量的基本符号,选用一定的组合原则,以表示大量复杂多样的信息的技术。计算机只认识“0”和“1”,任何信息必须转换成二进制形式数据后才能由计算机进行处理、存储和传输。,47,二进制数的特点:最多只有两个不同的数字符号,即 0 和 1 。逢二进一。 (基数为二,逢二进一,借一为二。)二进制优点:0,1两个状态易物理实现;运算规则简单。算术运算与逻辑运算容易沟通。,一、二进制数,48,二进制数与其它数

23、制的对照表,二进制 十进制 八进制 十六进制0000 0 0 00001 1 1 10010 2 2 20011 3 3 30100 4 4 40101 5 5 50110 6 6 60111 7 7 71000 8 10 81001 9 11 91010 10 12 A1011 11 13 B1100 12 14 C1101 13 15 D1110 14 16 E1111 15 17 F,49,不同进制数之间的转换,50,十进制整数转换为二进制整数,规则:除二取余,直到商为零为止,倒排。例:将十进制数86转化为二进制 2 | 86 0 2 | 43 1 2 | 21 1 2 | 10 0 2

24、 | 5 1 2 | 2 0 2 | 1 1 0所以,(86)10=(1010110)2,51,规则:乘二取整,直到小数部分为零或给定的精度为止,顺排。 例:将十进制数0.875转化为二进制数 0.875 2 1.75 0.75 2 1.5 0.5 2 1.0 所以(0.875)10=(0.111)2,十进制小数转换为二进制小数,52,例: (1999.8)10=1103+9 102+9 101+9 100+8 10-1,“权”,(1101.1)2=123+1 22+0 21+1 20+1 2-1 =(8+2+1+0.5+0.25)10 =(11.75)10,二进制数转换为十进制数,规则:按“

25、权”展开,求和。,53,二、计算机的数据单位与编码,1数据单位 (1)位(bit):位是计算机中存储数据的最小单位,指二进制数中的一个位数,其值为“0”或“1”。 (2)字节(byte):字节是计算机存储容量的基本单位,一个字节由8位二进制数组成。在计算机内部,一个字节可以表示一个数据,也可以表示一个英文字母,两个字节可以表示一个汉字。1024个字节称为1K字节(1KB),1024K个字节称为1兆字节(1MB),1024M个字节称为1吉字节(1GB)。 (3)字(word):字是指计算机一次存取、加工、运算和传送的数据长度,一个字的二进制位数称为字长。计算机中常用的字长有8位、16位、32位、

26、64位等。,54,存储容量:一个存储器中存储单元的总数称为该存储器的存储容量。 表示存储容量的单位有字节(B)、KB、MB、GB、TB,它们之间的关系是 1 KB = 1024 B, 1 MB = 1024 KB, 1 GB = 1024 MB, 1 TB = 1024 GB 。,二、计算机的数据单位与编码,55,汉字编码,汉字字符集与编码1981年,GB2312-80国家标准,其中有6763个汉字和682个非汉字字符,其字符及编码称为国标码又叫国际交换码。GB2312字符集的构成:一级常用汉字3755个,按汉语拼音排列二级常用汉字3008个,按偏旁部首排列非汉字字符682个,56,中文信息的

27、编码与表示(1),汉字也是字符,是中文的基本组成单位。汉字数量大(目前汉字的总数已超过6万个)、字形复杂、异体字多、同音字多。汉字信息的处理相对较复杂,汉字信息的处理一般包括汉字的编码、输入、输出、存储、处理与传输。,57,中文信息的编码与表示(2),汉字字符集与编码:1981年我国颁布了信息交换用汉字编码字符集基本集(GB2312-80) 。汉字的输入:(1)数字编码、(2)拼音编码、(3)字形编码汉字的机内码:是指计算机系统内部为存储、处理和传输汉字而使用的代码,简称内码,是汉字在设备或信息处理系统内部最基本的表达形式。,58,汉字编码,4、汉字的输出:如要显示或打印出来,必须把汉字的机内

28、码转换成人们可以阅读的方块字形式。 5、汉字信息处理的工作过程,59,汉字编码(续),输入码 数码:由数字组成的编码,代码和汉字一一对应,无重码,但编码规则较难记忆,如区位码,电报码。音码:用汉字拼音字母组成的编码,容易学,但重码多,输入速度不高,如拼音码等。形码:把汉字的基本构件偏旁、部首和字根等分类,和不同的键相对应,如五笔字型码、表形码、首尾码等。音形码:根据汉字的读音并兼顾汉字字型而设计的编码,如自然码、声韵部形码、快速输入码等。,60,汉字编码,汉字国标码(GB231280) 每个汉字占两个字节。 一级汉字:3755个;二级汉字:3008个。汉字分区,每个区94个汉字。机内码计算机系

29、统内部处理和存储汉字时所用的代码,简称内码。 汉字 国标码 汉字内码 中 8680(01010110 01010000)B (11010110 11010000)B 华 5942(00111011 00101010)B (10111011 10101010)B,61,汉字编码(续),输出码:又称字型码或字模点阵码。点阵字形(“1”表示对应位置是黑点、“0”表示是空白)轮廓字形(用曲线描述,精度高、字形可变,如:Windows中的TrueType),62,汉字编码(续),汉字字形码点阵:汉字字形点阵的代码 有1616、2424、3232、4848等编码、存储方式简单、无需转换直接输出,放大后产生的效果差矢量:存储的是描述汉字字形的轮廓特征 矢量方式特点正好与点阵相反,此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号