《讲信息编码》PPT课件.ppt

上传人:小飞机 文档编号:5604971 上传时间:2023-08-01 格式:PPT 页数:25 大小:232KB
返回 下载 相关 举报
《讲信息编码》PPT课件.ppt_第1页
第1页 / 共25页
《讲信息编码》PPT课件.ppt_第2页
第2页 / 共25页
《讲信息编码》PPT课件.ppt_第3页
第3页 / 共25页
《讲信息编码》PPT课件.ppt_第4页
第4页 / 共25页
《讲信息编码》PPT课件.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《《讲信息编码》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《讲信息编码》PPT课件.ppt(25页珍藏版)》请在三一办公上搜索。

1、1.2.2 信息编码,计算机既能处理数值数据,也可以处理如字符、汉字、图形、图像、声音等各种类型的数据。所谓编码,就是用少量简单的基本符号,选用一定的组合规则,以表示出大量复杂多样的信息。前面已经强调:计算机只能识别二进制形式的数,所以要计算机进行处理的任何类型的数据都必须用二进制的形式存储在计算机内。,计算机基础知识,1,2023/8/1,1.2.2 信息编码,1)二-十进制的数字编码2)西文字符编码3)汉字编码,2023/8/1,1.2.2 信息编码,1)二-十进制的数字编码(8421码,又称BCD码(全称Binary Code Dicemal))计算机采用二进制,为了便于人机交互,常常用

2、一组四位二进制编码表示一个十进制数字符号,称为二进制编码的十进制数。最常用的是8421码,又称为BCD码。例如,397的BCD码是0011 1001 0111;126的BCD码是0001 0010 0110,计算机基础知识,3,2023/8/1,1.2.2 信息编码,1)二-十进制的数字编码(8421码,又称BCD码(全称Binary Code Dicemal)例如,397的BCD码是0011 1001 0111;74的BCD码是01110100BCD两位十进制数是用8位二进制数并列表示,它不是一个8位的二进制数,而仅仅是一种编码。,计算机基础知识,4,2023/8/1,1.2.2 信息编码,

3、2)西文字符编码字符是计算机中使用最多的信息形式之一,是人与计算机进行通信、交互的重要媒介。同样,要计算机识别字符也必须对字符进行二进制编码。字符的编码有各种规定(标准),我国颁布的字符编码标准与国际上较普遍使用的ASCII码基本相同。,计算机基础知识,5,2023/8/1,1.2.2 信息编码,ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)采用七位二进制编码(d6d5d4d3d2d1d0),故可以表示27=128个字符,其中d3d2d1d0表示字符所在行,d6d5d4表示字符所在列;第位一般为0(如果需

4、要,可以用作奇偶校验位)存储时占一个字节。,计算机基础知识,6,2023/8/1,1.2.2 信息编码,128个字符包括10个十进制数(09),52个英文大写和小写字母(AZ,az),32个通用控制字符,34个专用字符。规律从A到Z、从a到z 和 从0到9 码值均为+1 趋势大小比较:数字大写字母小写字母;如 0Aa要求能正确查找西文字符的ASCII编码!,计算机基础知识,7,2023/8/1,1.2.2 信息编码,计算机基础知识,8,2023/8/1,1.2.2 信息编码,通常计算机中用一个字节(8位二进制码)来表示一个字符,右边七位对应字符的ASCII码,最左边的一位通常用作奇偶校验,用来

5、发现错误。所谓“奇校验”是指在校验位上设置0或1,以保证一个字节中“1”的个数为奇数。奇偶校验码是一种最简单的校验码,如果数码在存储、传送过程中,由于某种原因使得字符编码的某一位发生变化(由1变为0或由0变为1),在接收到的字节中,“1”的个数不是原规定的偶(或奇)数,于是就能发现错误。,计算机基础知识,9,2023/8/1,1.2.2 信息编码,计算机如何区分字符数据和数值数据?例:01000001B41HA65?需要结合使用该数据的软件对该数据的定义和操作在C语言中,可以有这样的表达:”A”+2,或“A”*2,计算机基础知识,10,2023/8/1,1.2.2 信息编码,3)汉字编码汉字比

6、西文字符数量要多且复杂,这给计算机的汉字编码带来了一定的困难。汉字是象形文字,在一个汉字处理系统中,输入、内部处理、输出对汉字有不同的编码要求。汉字信息处理系统在处理汉字时要进行一系列的汉字代码转换。这里主要介绍四类汉字代码:汉字输入码、汉字交换码、汉字内码和汉字字型码。,计算机基础知识,11,2023/8/1,1.2.2 信息编码,为适应计算机处理汉字信息的需要,我国于1980年发布了信息处理交换用汉字编码字符集 基本集GB2312-80。GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。01-0

7、9区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级:第一级是常用汉字计 3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。故而 GB2312最多能表示6763个汉字。,计算机基础知识,12,2023/8/1,1.2.2 信息编码,汉字系统对每个汉字规定了输入计算机的代码,即汉字的外部码,键盘输入汉字是输入汉字的外部码。计算机为了识别汉字,要把汉字的外部码转换成汉字的内部码,以便进行处理和存储。为了将汉字以点阵的形式输出,还要将汉字的

8、内部码转换为汉字的字形码,确定一个汉字的点阵。并且,在计算机和其它系统或设备需要信息、数据交流时还必须采用交换码。,计算机基础知识,13,2023/8/1,1.2.2 信息编码,字符代码化(输入),交换码,汉字编码的过程,1.2.2 信息编码,(1)外部码 外部码是计算机输入汉字的代码,代表某一个汉字的一组键盘符号。外部码也叫汉字输入码。目前汉字输入编码的方案很多,常见的就有几十种,如汉语拼音码、五笔字型、区位码等。各种输入编码法大致可以分为四类:A、数字编码:国标码、区位码B、字音编码:全拼、微软拼音、智能拼音C、字形编码:五笔字型、郑码、太极码D、音形编码:自然码随着科技的发展还有其它方式

9、输入汉字:语音输入、手写输入、OCR识别等。,计算机基础知识,15,2023/8/1,1.2.2 信息编码,外部码例:输入汉字“张”时的区位码、拼音码和五笔码“张”区位码:5337“张”拼音码:zhang“张”五笔码:xt注意:同一个汉字,不同的输入法,它的输入码是不同的。,计算机基础知识,16,2023/8/1,1.2.2 信息编码,(2)内部码 汉字内部码亦称为汉字内码或汉字机内码。计算机处理汉字,实际上是处理汉字的代码。当计算机输入外部码时,通常要转成内部码,才能进行存储、运算、传送。一般用二个字节表示一个汉字的内码。内部码经常是用汉字在字库中的物理位置表示,如汉字在字库中的序号或汉字在

10、字库中的存储位置表示。注意一般情况下,汉字的内部码不能与西文字符编码(ACSII码、EBCDIC码等)发生冲突,并容易区分汉字与西文字符;尽可能占用少的字节表示尽可能多的汉字;与标准交换码兼容。除了二字节汉字内部码外,还有三字节内部码、四字节内部码、带引导码的汉字内部码、带符号的汉字内部码、带括号的汉字内部码等。,计算机基础知识,17,2023/8/1,1.2.2 信息编码,(3)交换码(国家标准交换码)当计算机之间或与终端之间进行信息交换时,要求它们之间传送的汉字代码信息完全一致,国家规定了信息交换用的标准汉字交换码GB312-80信息交换用汉字编码字符集(基本集),即国标码。交换码是用于不

11、同的汉字信息系统间进行汉字交换时使用的编码,简称国标码。国标码共收集了7445个图形字符,其中汉字6763个,一般符号、数字、拉丁字母、希腊字母、汉语拼音等709个。,计算机基础知识,18,2023/8/1,1.2.2 信息编码,(3)交换码GBK字符集(简体繁体)汉字内码扩展规范 即汉字扩充内码规范,又称大字符集,是目前见到的收录汉字最多的汉字系统。BIG-5码(繁体)通用于台湾、香港地区的一个繁体字编码方案。,计算机基础知识,19,2023/8/1,1.2.2 信息编码,汉字国家标准交换码与机内码区位码、国标码和机内码之间的关系:国标码=(区位码的十六进制表示)+2020H机内码=国标码+

12、8080H编码的转换举例 汉字 区位码 16进制 国标码 机内码 文 4636 2E24H 4E44H CEC4H以汉字“大”为例,“大”字的区位码为2083,将其转换为十六进制表示为1453H,加上2020H得到国标码3473H,再加上8080H得到机内码为B4F3H。,计算机基础知识,20,2023/8/1,每个汉字用两个字节的空间存储,1.2.2 信息编码,(4)汉字输出码 又称汉字字形码或汉字发生器的编码。为输出汉字,对汉字字形经过点阵的数字化后的一串二进制数称为汉字输出码。汉字字形码是表示汉字字形的字模数据。汉字的字形码是用在显示或打印汉字时产生字形,通常用点阵、矢量和曲线函数等方式

13、表示用点阵表示字形时,汉字字形码叫做这个汉字的字形点阵码。例如,16*16点阵码,每个汉字占32个字节,其中每个字节的一位(Bit)代表一个点,当该位为“0”时,对应的点为“白”色,为“1”时,对应的点为黑。提高型汉字为24*24点阵、32*32点阵、48*48点阵等。每个24*24点阵汉字占用72字节,同理,每个16*16点阵占用32字节。,计算机基础知识,21,2023/8/1,1.2.2 信息编码,(4)汉字输出码例:汉字“次”的1616点阵字形码,计算机基础知识,22,2023/8/1,1.2.2 信息编码,(4)汉字输出码点阵字形码占用存储空间计算方法方法:字节数=点阵行数点阵列数

14、8原理:点阵中的每个点需要一个二进制的位来存储。例:用16 16点阵和48 48点阵表示一个“次”字,分别需要多大的存储空间?解:16 16点阵占空间:1616/8=32 字节 48 48点阵占空间:4848/8=288 字节,计算机基础知识,23,2023/8/1,1.2.2 信息编码,汉字编码之间的关系例如,我们通过键盘输入一个汉字“计”,并在屏幕上显示,其编码的转换过程如下:通过键盘输入输入码:ji(拼音输入法)。通过输入法控制程序,依据交换码(国标码00111100 01000110),把输入码(ji)转换成机内码(10111100 11000110),并保存在计算机内。汉字显示驱动程

15、序根据机内码计算出“计”的字形码所在字库的地址,通过相应的地址把字库中的字形码取出,存入到相应的显示内存单元中。在显示驱动程序的控制下,根据显示内存中的字形码,在屏幕的相应位置显示汉字“计”的字形。,计算机基础知识,24,2023/8/1,1.2.2 信息编码,其他编码 UCS编码 Unicode码 GBK码由信息产业部和国家质量技术监督局在2000年 3月17日联合发布了 GB18030-2000编码标准,是GB2312-80的扩展,共收录2.7万多个汉字,总编码空间超过150万个码位;延续了GB3211的编码体系结构,采用单双四字节混合编码。该标准与现有的绝大多数操作系统、中文平台在计算机内码一级兼容,为中文信息在国际互联网上的传输与交换提供了保障。中文Windows 2000/2003全面支持GDK内码,能统一地表示20902个汉字。BIG5编码,计算机基础知识,25,2023/8/1,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号