《汉字编码课件.ppt》由会员分享,可在线阅读,更多相关《汉字编码课件.ppt(24页珍藏版)》请在三一办公上搜索。
1、汉字编码,第一章 项目三,重点:汉字编码类型及编码方式难点:ASCII码,1.2.5 字符的编码,1.2.5 字符的编码,字母、数字、各种符号,1.2.5 字符的编码,1.西文字符的编码,计算机中的数据都是用二进制编码表示的,用以表示字符的二进制编码称为字符编码。而,计算机最常用的就是ASCII。美国信息交换标准码ASCII,7位码(128个字符) 扩展码ASCII,8位码(256个字符),7位国际通用,1.2.5 字符的编码,1.西文字符的编码,ASCII码对128个字符进行了编码,这其中包括大小写英文字母、阿拉伯数字、标点符号以及控制字符等特殊字符。ASCII码中共有34个非图形字符(控制
2、字符),94个可打印字符(图形字符)。读表1-6可知,每个符号的ASCII编码为:高3位+低4位。,1.2.5 字符的编码,1.西文字符的编码,“a”字符编码为1100001(97),bcde依次增加 “A”字符编码为1000001(65),BCDE依次增加 “0”数字字符编码为0110000(48),1234依次增加计算机内部用一个字节(8个二进制位)存放一个7位ASCII码,最高位置为0。,重点掌握字符的推算!,1.2.5 字符的编码,ASCII码中存在以下两个规律:(1)大小写英文字母和阿拉伯数字都是按其固有顺序排列在表中的。(2)在表中,阿拉伯数字排在大写英文字母前,而大写英文字母排在
3、小写英文字母前。,1.西文字符的编码,1.2.5 字符的编码,1.西文字符的编码(非图形字符/控制字符),SP(空格)的编码是 CR(回车)的编码是 DEL(删除)的编码是 BS(退格)的编码是,0100000,0001101,1111111,0001000,1.2.5 字符的编码,汉字分成两级: 一级汉字3755个,按汉语拼音字母的次序排列; 二级汉字3008个,按偏旁部首排列。由于一个字节不足以表示6763个汉字,所以一个国标码用两个字节来表示一个汉字,每个字节最高位为0。,2.汉字的编码国标码,1.2.5 字符的编码,GB2312-80将汉字分为94行、94列,代码表分为94个区(行)、
4、94个位(列)。区位码是一个4位十进制数国标码是一个4位十六进制数。,2.汉字的编码区位码,1.2.5 字符的编码,2.汉字的编码区位码、国标码转换,汉字国标码=区位码+(2020)H,区号和位号: 转换为16进制数,分别加上(20)H,1.2.5 字符的编码,3.汉字的处理过程,由于汉字的特殊性(象形文字),汉字的处理过程必须同时需要多种编码才能完成。,1.2.5 字符的编码,3.汉字的处理过程,汉字输入码(外码):为将汉字输入计算机而编制的代码。一个好的输入编码: 编码短,重码少,好学好记,1.2.5 字符的编码,3.汉字的处理过程,汉字内码:是为在计算机内部对汉字进行存储、处理的汉字编码
5、。不同汉字系统使用的机内码可能不同。汉字内码的形式有多种。对应国标码,一个汉字的内码用2个字节存储,每个汉字的最高位置“1”作为汉字内码的标识。,1.2.5 字符的编码,3.汉字的处理过程,国标码,汉字内码,汉字内码=汉字国标码+(8080)H,1.2.5 字符的编码,3.汉字的处理过程,西文字符 7位ASCII 码,区位码分别加20H,国标码,最高位由0变1,即加8080H,汉字内码,1.2.5 字符的编码,4.汉字字形码,又称汉字字模,用于汉字在显示屏或打印机输出。 两种表示方式:点阵和矢量。 点阵规模越大,字形越清晰美观,所占存储空间也愈大。 矢量表示方式存储的是描述汉字字形的轮廓特征。
6、,1.2.5 字符的编码,4.汉字字形码,点阵:有点的用“1”表示,没点的用“0”表示。一位(1 bit)可以存储一个点的信息。显示一个汉字需要多少个点,就需要有多少位(bit)的存储空间来存储它。例:存储一个1616点阵的汉字字形码,需要的存储空间为:1616 bit=256 bit,即2568=32B(字节),1.2.5 字符的编码,4.汉字字形码,汉字的点阵字形编码,仅用于构造汉字的字库字模点阵只能用来构成“字库”,而不能用于机内存储。输出汉字时,先根据汉字内码从字库中提取汉字的字形数据,然后很据字形数据显示和打印出汉字。,1.2.5 字符的编码,4.汉字字形码,点阵式:,1.2.5 字符的编码,4.汉字字形码,矢量式:,1.2.5 字符的编码,5.汉字地址码,是指汉字库中存储汉字字形信息的逻辑地址码。需要向输出设备输出汉字时,必须通过地址码对汉字库进行访问。,1.2.5 字符的编码,6.其他汉字内码,1)GBK码(扩充汉字内码规范):多达2万多简、繁汉字。 2)UCS码:包含字母、音节文字,中日韩的表意文字。 3)Unicode编码:65536个字符编码,主要用来解决多语言的计算问题。 4)BIG5码:香港、台湾地区使用的一种繁体汉字编码。,1.2.5 字符的编码,作业,