字符编码(略看)ppt课件.ppt

上传人:小飞机 文档编号:1932190 上传时间:2022-12-26 格式:PPT 页数:52 大小:282KB
返回 下载 相关 举报
字符编码(略看)ppt课件.ppt_第1页
第1页 / 共52页
字符编码(略看)ppt课件.ppt_第2页
第2页 / 共52页
字符编码(略看)ppt课件.ppt_第3页
第3页 / 共52页
字符编码(略看)ppt课件.ppt_第4页
第4页 / 共52页
字符编码(略看)ppt课件.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《字符编码(略看)ppt课件.ppt》由会员分享,可在线阅读,更多相关《字符编码(略看)ppt课件.ppt(52页珍藏版)》请在三一办公上搜索。

1、1(52),3.5 文字的表示及处理,主要内容: 西文字符编码 汉字编码 汉字的输入和输出 文本处理,文字的表示及处理,2(52),1. ASCII码 ASCII码,即美国标准信息交换码(American Standard Code for Information Interchange),使用7个二进位对字符进行编码。,一、西文字符编码,文字的表示及处理,3(52),基本的ASCII字符集共有128个字符 95个可打印字符(常用字母、数字、标点符号) 33个控制字符(不可直接显示或打印) 特殊字符的ASCII码 空格(32)、A(65)、a(97)、0(48) 下面为ASCII代码表:,文字

2、的表示及处理,4(52),标准ASCII字符集及其码表,控制字符,文字的表示及处理,5(52),0123456789ABCDEF,控制字符,01234567,b3b2b1b0 b6b5b4,文字的表示及处理,6(52),每个字符用标准规定的7位二进制数表示,在机内占一个字节(最高位为0)。 如: 字符“A”的ASCII码为: 字符“0”的ASCII码为:,(00110000)2 或(48)10、(60)8、(30)16,(01000001)2 或(65)10、(101)8、(41)16,文字的表示及处理,7(52),要求: 1.会比较ASCII字符的大小(按其ASCII码值) 空格09A Z

3、az 2.会推算同组字符ASCII码值 如A的ASCII值(十进制)为65,则B、C 的ASCII值分别为66、67,文字的表示及处理,8(52),定义方式: 用8位二进制数位表示一个字符的扩充 二-十进制 交换码.特点: 每个字符对应一个字节,共256种说明: 有很多编码没有使用,保留做为扩充,2.EBCDIC码,文字的表示及处理,9,二、汉字编码,1981年,国家标准局颁布了信息交换用汉字编码字符集-基本集(GB2312-80) (国标码)。 组成: (1)第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号),

4、1.GB2312-80汉字编码,文字的表示及处理,10(52),(2)第二部分:一级常用汉字,共3755个, 按汉语拼音排列(3)第三部分:二级常用汉字,共3008个, 按偏旁部首排列 汉字共6763个 字符共7445个,文字的表示及处理,11(52),(按汉语拼音排列),(按偏旁部首排列),拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,1.GB2312-80汉字编码,GB2312-80字符集,文字的表示及处理,12(52),区位码: GB2312-80是一个二维代码表,有94行、94列, 汉字在代码表中的位置用它所处的行号、列号表示。,1.GB2312-80汉字编码,文

5、字的表示及处理,13(52),例如: “大”字的区号20,位号83, 区位码是20 83 用2个字节表示为: 00010100 01010011,文字的表示及处理,14(52),国标交换码 (国标码):问题:信息通信中,汉字的区位码与通信使用的控制码(00H1FH)发生冲突。解决方案:为了避免汉字区位码与通信控制码的冲突,每个汉字的区号和位号必须分别加上32。得到的代码称为汉字的“国标交换码”,1.GB2312-80汉字编码,文字的表示及处理,15(52),例如: “大”字的区号20,位号83 区位码:20 83 国标交换码:52 115 (+32),二进制表示为:00010100 01010

6、011,二进制表示为:00110100 01110011,文字的表示及处理,16(52),机内码:问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。解决方法:使表示GB2312汉字的两个字节的最高位(b7)都置为“1”。这种汉字编码,称为GB2312汉字的“机内码” 。,1.GB2312-80汉字编码,文字的表示及处理,17(52),例如:“大”字 区位码:20 83 二进制表示为:00010100 01010011 国标交换码:52 115 (+32) 二进制表示为:00110100 01110011 机内码:180 2

7、43(+128) 二进制表示为:10110100 11110011(B4F3),区位码 + 32 = 国标码国标码+128 = 机内码,文字的表示及处理,18(52),问题:GB2312-80只有6763个汉字,使用时功能不够。解决方法:1995年发布GBK,全称为汉字内码扩展规范GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。组成:共收入21886个汉字和图形符号(21003个汉字,883个图形符号),2.GBK汉字内码扩展规范,文字的表示及处理,19(52),GBK编码区分三个部分:汉字区(21003个汉字)、图形符号区、用户自定义区

8、 GBK每一个字符都采用双字节表示总体编码范围为:8140HFEFEH,共23940个码位; 首字节范围:81HFEH(二进制最高位为1); 尾字节范围:40HFEH(二进制最高位可以为0或1);,GBK汉字内码扩充规范,文字的表示及处理,20(52),目的:统一的多文本处理环境,实现所有字符在同一字符集中统一编码途径:UCS:ISO/IEC 10646 (通用多8位编码字符集)Unicode:统一码或联合码,与UCS完全等同的工业标准 优点:编码空间极大(4个字节),能容纳足够多的各种字符集(13亿字符),3.UCS/Unicode汉字编码,文字的表示及处理,21(52),缺点:4字节的字符

9、编码使存储空间浪费严重克服:UCS-2是双字节编码,共有字符49194个,其中包括:欧洲及中东地区使用的拉丁字母、音节文字各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号中、日、韩(CJK)统一编码的汉字,文字的表示及处理,22(52),GB18030-2000编码标准在GB2312和GBK编码标准的基础上进行了扩充,采用单字节、双字节和四字节三种方式对字符编码,因此该标准的汉字有27000多个。包括全部中、日、韩统一字符集和CJK汉字扩充的所有字符。,4.GB18030-2000编码,文字的表示及处理,23(52),BIG5码是台湾、香港等地使用的汉字繁体的编码标准,它用双字节进行

10、编码。BIG5收录了13461个汉字和符号。,5.BIG5编码,文字的表示及处理,24(52),几种汉字编码的对比,文字的表示及处理,25(52),人工输入:通过键盘、手写笔或语音输入方式输入字符 自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码,三、汉字的输入输出,1.汉字输入,文字的表示及处理,26(52),文字的表示及处理,27(52),键盘输入编码 : 汉字字数很多,无法与键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就需要对汉字进行编码。,(1)键盘输入,文字的表示及处理,28(52),汉字输入编码的分类拼音编码:如:智能ABC, 紫光拼音 缺点:同音字引起的重

11、码多,需增加选择操作字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快, 如:五笔字形法和表形码等 缺点: 编码规则不易掌握,文字的表示及处理,29(52),联机手写汉字识别系统构成 输入 、预处理、特征提取、分类、后处理、输出需求的配件: 专用的书写板和笔,(2)联机手写汉字识别(笔输入),文字的表示及处理,30(52),工作过程: 在书写板上书写,书写板将笔尖的运动按时间采样,发送到计算机中,由软件进行识别,然后用该汉字(或符号)对应的代码进行保存。例如: 汉王笔 正识率 95 90,速度 12字/秒,文字的表示及处理,31(52),目的:使计算机具有人的听觉,是模式识别

12、的分支 语音识别的分类(按照不同的应用及要求):孤立词/连接词/连续语音识别小词汇量/中词汇/大词汇量语音识别特定人/限定人/非特定人语音识别 最高目标:非特定人大词汇量的连续语音识别技术,(3)汉字语音识别,文字的表示及处理,32(52),脱机文字识别:对已经印刷或写完的文字进行识别, 自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(Optical Character Recognition)。 分类: 印刷体OCR 和手写体OCR,(4)脱机文字识别,文字的表示及处理,33(52),汉字键盘输入方法的比较,文字的表示及处理,34(52),汉字的输出过程:输出机器内部的汉字编

13、码,需要根据汉字编码对应的汉字字型码进行解释,生成映像,最后再传送到显示器或打印机输出。 机内汉字编码字型码打印输出(显示器/打印机),2.汉字输出,文字的表示及处理,35(52),汉字字型码:用于汉字在显示器或者打印机上输出. 汉字字型码表示形式分类:点阵表示形式矢量表示形式,文字的表示及处理,36(52),汉字字型表示形式:汉字字型码用点阵表示 16*16(占32个字节)、 24*24、48*48等汉字矢量表示存储描述汉字轮廓特征的信息。如:Windows中TrueType技术即为该表示形式。,轮廓描述,点阵描述,文字的表示及处理,37(52),字型库:简称字库,同一种字体的所有字符(例如

14、GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。,文字的表示及处理,38(52),文本编辑的主要功能(了解)对字、词、句、段落进行添加、删除、修改等操作字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等,三、文本编辑,1.文本的编辑,文字的表示及处理,39(52),段落的处理:设置行距、段间距、段缩进、对称方式等页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 “所见即所得”(What You See Is What You Get, 简称WYSIWYG),文字的表示及处理,40(52),文本处理内容:字数统计,字

15、频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换,2.文本的处理,文字的表示及处理,41(52),文本压缩,文本加密,文本著作权保护关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等,2.文本的处理,文字的表示及处理,42(52),(1)面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通信。典型软件: 微软公司的Outlook Express,具有文字的增、删、改以及字体、字号的设置功能,也可

16、以设定一些简单的格式和插入一些图片。,3.常用文本处理软件,文字的表示及处理,43(52),(2)面向办公的文本处理软件功能要求: 文本制作的高效率、高质量;软件面向非专业用户,易学好用;文本处理能力,既功能丰富,又操作简单;排版功能。典型软件: MS-Office、WPS2000,文字的表示及处理,44(52),(3)面向出版的文本处理软件排版软件的主要功能: 将文字、图形和图像等合理地安排在页面内,使版面符合专业排版要求。典型排版软件:方正集团公司的“飞腾”排版软件美国Adobe公司的PageMaker和PDF Writer,文字的表示及处理,45(52),(4)面向网络信息发布和电子出版

17、的文本处理软件 将文本制作成网页发布到internet或作为电子图书进行出版 典型处理软件面向网络信息发布的软件 MS Fontpage、Word 面向电子出版的软件 Adobe公司的Acrobat PDF格式文件,文字的表示及处理,46(52),根据制作文本的用途分为 纯文本 TXT 丰富格式文本 RTF 根据软件的使用不同 DOC、PDF、WPS 等,3.常见文本类型,文字的表示及处理,47(52),纯文本:是由一连串的字符组成的,几乎不包含任何其他格式信息和结构信息。 特性:呈现为一种线性结构,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,没有字体、字号的变化,不能插入

18、图片、表格等,不能建立超链接。由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息,(1)纯文本.txt,文字的表示及处理,48(52),文字的表示及处理,49(52),文本的格式化(字型 字号 颜色 ) 丰富格式文本(rich text、fancy text、formatted text) RTF格式 (不同软件系统相互交互中间格式) 多媒体文档(Multimedia Document)插入图 表 公式 声音 视频 .,(2)丰富格式文本,文字的表示及处理,50(52),使用HTML语言描述为:,本书由南京大学出版社(Publishing House of Nanjing University)出版,用一对指出的是标记,如 和 等,用于说明排版的格式和文字属性,它们不属于正文内容,正文内容,文字的表示及处理,51(52),(3) 超文本,若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本”,“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分,超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等,文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频,文字的表示及处理,52(52),小结:文本的分类,文字的表示及处理,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号