文本和表格信息加工.ppt_三一办公31ppt.com

资源描述

《文本和表格信息加工.ppt》由会员分享，可在线阅读，更多相关《文本和表格信息加工.ppt（22页珍藏版）》请在三一办公上搜索。

1、文本和表格信息加工（一）,信息的编码,仓颉,传说中黄帝的史官。他用祖传的结绳记事的办法替黄帝记载史实。时间一长，那些大大小小、奇形怪状的绳结都记了些什么，连他自己也忘记了。因此，仓颉想造出一种简单易记的符号，用来表达思想，传授经验，记载历史。因为怕人打扰而延误了时间，仓颉把自己关了起来，开始专心地创造新的符号。为了叫起来方便，他给这些符号取了名字，称为“字”。这些字都是依照万物的形态造出来的。比如“日”字，是照着太阳红圆的模样绘的；“月”字，是仿照着月牙儿的形态描的；“人”字，是端详着人的侧影画的；“爪”字，是观察着鸟兽的爪印涂的仓颉就是这样细心观察万事万物，辛辛苦苦造字。一天天过去，仓颉创造

2、出了我们今天用的所有汉字，并将它们传授给了后人。,埃及的象形文字,美索不达米亚的楔形文字,楔形文字,往木头里打楔子，上粗下细。这个锤形石柱上整齐刻着的便是古代两河流域的楔形文字。这种楔子形的文字可以上下竖写，也可以左右横写。比起古埃及的图画字，各国古代的象形文字以及中国的甲骨文，它更接近于现代拼音文字。,林语堂和中文打印机,1916年，林语堂就对中文打字机和中文检字产生了很大的兴趣。1919年商务印书馆制造了中国第一台中文打字机“舒震东式华文打字机”，由舒震东结合日文打字机的相关技术研制而成。中文打字机在最初，都有一个容纳常用字的字盘，别的字则按照使用次数的多少放在另外的字盘里，需要的时候由打

3、字员找出来放在常用字盘。使用这样的打字机，必须经过专门训练。林语堂决定借鉴外文打字机，发明一个更为简单快捷的打字机。林语堂自己的畅销书，一般都交给赛珍珠夫妇经营的公司来出版。在研制打字机的过程中，资金不够，他曾试图要求公司预支稿费，但是被拒绝。后来古董商人卢琴斋先生借给他了一笔钱，他又向银行申请了贷款，这才有了自己发明的打字机。林语堂的打字机一直到1946年5月才完成，高9英寸，宽14英寸，深18英寸，64个键盘取代商务机器的庞大字库，储存7000字。但由于当时中国处于战火中，没有人愿意出资大量生产，他的发明还是没能派上大用场。,CCDOS,1983年，国家计算机工业总局会议把生产IBM PC

4、兼容机定为中国计算机发展的方向。生产IBM兼容PC，硬件厂商没有问题，关键在软件，严援朝接下任务，后为了向专家们证明用软件方案能在IBM PC上显示汉字，严援朝用BASIC写了一个程序，在显示器上画出了一屏“甲”，第二屏显示的全是“田”。严援朝是学摩托罗拉芯片出身，会的是68系列的汇编语言，Intel的汇编指令他从来没接触过，严援朝拿着IBM PC随机带的手册，从头学Intel汇编。6月24日，严援朝正式动手写CCDOS，6月30日写完，一共写了一万多行。CCDOS源代码中，有一句是“6月24日”，别人都不知道是怎么回事，在改进CCDOS的时候都没有删。,王永民与五笔字型,王永民自小就想搞发明

5、创造。时届中年，这个愿望终于在古老的汉字中实现了。20世纪80年代初，面对电脑时代即将来临，如何把汉字输入电脑是当时人们不敢问津的难关，因为这个工作涉及语言文字学、计算机技术、工程心理学等多种学科。于是，王永民这个名字便注定将永远与汉字输入联系在一起了。王永民和助手们开始把现代汉语词典上的1万2千多个汉字逐个分解登记成卡片，然后从几万个统计记录中归并出300多个字根。当时，没有计算机，这项工作全凭手工操作。但是，要做键盘，首先就得找到一种好的输入方案。此后几年一直在压缩键位这条艰难的道路上跋涉。从138键、90键、75键，直到1980年7月，终于压缩到了62键，重码只有26对。初尝甜头的王永民

6、一发而不可收。1983年春节，王永民和他的伙伴们终于设计出一种能与国际先进水平一比高低的汉字输入方案，这就是“五笔字型”汉字输入法。同年2月29日，“五笔字型”作为一项重大发明通过省级鉴定，专家评估其输入速度达到了世界最高水平。,王旁青头戋五一土士二干十寸雨犬三（羊）古石厂木丁西工戈草头右框七目具上止卜虎皮日早两竖与虫依口与川，字根稀田甲方框四车力山由贝，下框几,实践,阅读五笔字根表口决，小组合作，讨论并打下下面一段话：福州第一中学,ASCII 之父Bob Bemer,在ASCII出现之前，不同的计算机之间无法相互通信。每家制造商都使用自己的方式来表示字母、数字和控制码。那时，在计算机中表示

7、字符的方式就有60多种，更可笑的是，IBM的设备中就使用了9种不同的字符集。电脑之间的相互对话都无法完成，更别说与外界对话了。1961年5月，Bemer向美国国家标准研究所（ANSI）递交了一份关于制定通用计算机代码的建议。于是，代表着当时大多数计算机制造商的X3.4委员会得以建立并投入工作。隶属ANSI的这家委员会花了两年多的时间就通用代码达成了一致意见。,实践,试对照ASCII 表写出英语 Im sorry!存储到计算机时是如何存储的。,字节,ASCII虽然用7位二进制组合表示英文字符，但实际存储时，最高位均要补0，以补足8位。Im sorry!,GB2312,GB2312或GB2312-

8、80是一个简体中文字符集的中国国家标准，全称为信息交换用汉字编码字符集-基本集，由中国国家标准总局发布，1981年5月1日实施。GB2312编码通行于大陆；新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。GB2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄罗斯语西里尔字母在内的682个全形字符。GB2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖99.75%的使用频率。对于人名、古汉语等方面出现的罕用字，GB2312不能处理，这导致了后来GB

9、K及GB18030汉字字符集的出现。,例如“大”的机内码是B4F3H，即,计算机发明后，为了在计算机中表示字符，人们制定了一种编码，叫ASCII码。ASCII码由一个字节中的7位(bit)表示，范围是0 x00-0 x7F 共128个字符。他们以为这128个数字就足够表示abcd.ABCD.1234 这些字符了。咳.说中文的人就是聪明！中国人利用连续2个扩展ASCII码的扩展区域（0 xA0以后）来表示一个汉字，该方法的标准叫GB-2312。后来，日文、韩文、阿拉伯文、台湾繁体（BIG-5）.都使用类似的方法扩展了本地字符集的定义，现在统一称为 MBCS 字符集（多字节字符集）。这个方法是有缺

10、陷的，因为各个国家地区定义的字符集有交集，因此使用GB-2312的软件，就不能在BIG-5的环境下运行（显示乱码），反之亦然。咳.说英语的人终于变“聪明”一些了。为了把全世界人民所有的所有的文字符号都统一进行编码，于是制定了UNICODE标准字符集。UNICODE 使用2个字节表示一个字符(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。这下终于好啦，全世界任何一个地区的软件，可以不用修改地就能在另一个地区运行了。虽然我用 IE 浏览日本网站，显示出我不认识的日文文字，但至少不会是乱码了。UNICODE 的范围是 0 x0000-0 xFFFF 共6万多个字符，其中光汉字就占用了4万多个。嘿嘿，中国人赚大发了:0),

展开阅读全文