《第2章汉字输入法.ppt》由会员分享,可在线阅读,更多相关《第2章汉字输入法.ppt(38页珍藏版)》请在三一办公上搜索。
1、教学课件,计算机应用基础,湖北师范学院计科系,第二章 汉字输入法,汉字输入的方法主要有:键盘输入法、汉字字形识别输入法和语音识别输入法三种。键盘输入法是利用计算机键盘输入汉字的方法。汉字字形识别输入法是让计算机直接识别汉字,主要有两种方法:一种是利用扫描仪对文本进行扫描、由计算机进行识别。另一种是利用联机手写装置按照汉字的结构书写在特定的设备上,由计算机识别。语音识别输入法是人通过语音接受器直接对计算机讲话,计算机“听到”后,进行语音处理,将人讲的话翻译成汉字。,2.1.1 汉字的编码,1.汉字信息交换码 汉字信息交换码是用于汉字信息处理系统之间与通信系统之间进行信息交换的汉字代码,简称交换码
2、。,2.汉字输入码(外码)为将汉字输入计算机而编制的代码称为汉字输入码,也叫外码。,2.1 汉字输入基础,3.汉字内码(内码)汉字内码是在计算机内部对汉字进行存储、处理的汉字代码,从而满足存储、处理和传输的要求。,5.汉字地址码 汉字地址码是指汉字库中存储汉字字型信息的逻辑地址码。,4.汉字字型码 汉字字型码是供计算机输出汉字使用的,以字库形式出现。,2.2 智能ABC输入法简介,智能ABC是一种以汉语拼音为基础的汉字输入法。智能ABC又分为“标准”和“双打”两种方式。启动智能ABC时,系统设置为“标准”方式。,1.标准方式,在标准方式下,可直接同时使用全拼、简拼、混拼、全拼加笔形、简拼加笔形
3、、混拼加笔形、纯笔形等多种模式,无须切换。,智能ABC,不仅能输入单字,而且还可以输入词组。但为了明确地区分音节,用“”表示隔音符号(如西安)。,注意:汉语拼音中的“”在键盘上没有相应的字键,规定用字母“v”表示。,全拼输入法:按规范的汉语拼音输入,输入过程和书写汉语拼音的过程完全一致。,简拼输入法:如果对汉字拼音把握不甚准确可以使用简拼输入。其规则是取词组的各个音节的第一个字母组成,对于包含ZH、CH、SH的音节,也可取前两个字母组成。,混拼输入方式:是两个音节以上的词语有的音节全拼,有的音节简拼。,第一键若按“U”或“I”有特殊含义。,第一键按“U”或“u”,可输入用户定义的新词。例如:启
4、动“智能ABC”,右键点击输入法提示条最左侧的图标,在弹出的菜单中选中“定义新词”,在“新词”框中输入所需定义的词;在“外码”处输入代码,点击添加按钮。以后利用“u+外码”即可直接输入自定义词组。如定义新词“十字绣”,外码定义为“szx”,则输入uszx时,即直接输入了“十字绣”。,第一键按“I”或“i”时,用于输入中文数量词。,先键入“I”,再输入相应的数字键则为大写的中文数字。例如:壹=I+1,先键入“i”,再输入相应的数字键则为小写的中文数字。例如:九=i+9,在它们的后面若输入的是字母键,则表示量的含义。例如:斤=i+j,笔形与音形相结合在不会汉语拼音或者不知道某字的读音时,可以使用笔
5、形输入法。按照基本的笔划形状,将笔划分为八类,见下表。,音形混合输入可以极大地减少重码率。其规则为:单字:(拼音笔形描述)词组:(拼音笔形描述)(拼音笔形描述)其中,“拼音”可以是全拼、简拼或混拼。对于词组的输入,“拼音”一项是不可少的;“笔形描述”项可有可无。,2.双打方式,双打输入方式的规则是:将汉语拼音的全部声母、韵母都只用一个英文字母来表示,即一个汉字在双打方式下只需要击键两次,奇数次为声母,偶数次为韵母。,双打方式就是用键盘上的两个按键拼出一个汉字的全部拼音。这种方式使输入汉字的速度更快,但需要记忆双打键盘的代码表,及双打输入方式的有关规则。,只有韵母而无声母的汉字称为零声母音节。规
6、定用字母“O”表示零声母,奇数次按“O”,偶数次按相应的韵母。,2.3 五笔字型输入法,2.3.1 五笔字型概述凡是使用过新华字典的人,对诸如“一、丨、丿、丶、亻、彳、宀、艹”这些偏旁部首不会陌生。这些偏旁部首在“五笔字型输入法”中称为字根,当然,五笔字型输入法所选用的字根和新华字典中的偏旁部首并不相同,但其作用是一样的。五笔字型输入法精心选择了130个字根,并制定了若干条汉字拆分规则。用户只要记住这些字根所对应的按键,并记住相应的规则,也就学会了五笔字型输入法。,1.汉字的构成,汉字是由比汉字更小的“字根”构成,如:弓长张;立早章。可见,一个汉字是由较小的“方块”拼合而成的。这些“方块”就是
7、构成汉字的最基本的单位,被称作“字根”或“码元”。五笔字型确定的字根有130种。笔画指的是在书写汉字时,从落笔到起笔之间一次写成的一个连续不断的线段。汉字、字根、笔画构成了汉字结构的3个层次:基本笔画(5种)字根(130种)汉字,2.汉字的分解,汉字输入之难,难在汉字的“多”,而键盘只有几十个字母键,不可能把汉字都摆上去,所以首先要将进行汉字分解。比如将“桂”分解成“木、土、土”等。因为字根只有130种,这样,把处理几万个汉字的问题,变成了只处理130种字根的问题;把输入一个汉字的问题,变成输入几个字根的问题。分解过程是构成汉字的一个逆过程。当然,汉字的分解是按照一定的章法进行的,这个章法总起
8、来就是:整字分解为字根,字根分解为笔画。,2.3.2 汉字的字型结构1、汉字笔画的选定在书写汉字时,一笔呵成的一个线条叫做汉字的笔画。两笔以上者不叫笔画,只能叫笔画结构,如“十”等。一个连贯的笔画,不能断成几段来处理。如:不能把把“申”分解为“丨、田、丨”等。在这样一个定义的基础上,便可以对成千上万的汉字加以分析。只考虑笔画的运行方向,而不计其轻重长短,根据使用频率的高低,依次用1、2、3、4、5编码,如表2-3所示。,表2-3 汉字的五种笔画,2、汉字字根的选定一个汉字是由若干笔画复合连接交叉所形成的相对不变的结构(即字根)来构成的。五笔字型方案中,字根的选取标准主要基于以下两点:首先选择那
9、些组字能力强、使用频率高的偏旁部首(注:某些偏旁部首本身为一个汉字),如:王、大、木、亻、讠等;组字能力不强,但组成的字在日常汉字中出现次数很多,如:“白”组成的“的”字是汉字中使用频率最高的。所有被选中的偏旁部首称作基本字根,所有落选的非基本字根按“单体结构拆分原则”拆分成几个基本字根。例如:“张”字由“弓”、“长”组成,“弓”字是基本字根,但“长”还需分解成基本字根。,3、汉字的三种字型根据汉字的各字根之间的相对位置关系,可以把汉字分为3种类型:左右型、上下型和杂合型。同样也按照它们拥有汉字的字数多少从13编成代号,如表2-3所示。表中的最后一种字又叫独体字,这3种统称合体字。两部分合并在
10、一起的汉字又叫双合字,3部分合并在一起的,又叫三合字;三合字之后,不再作划分。在字型的划分中,组成一个汉字的几个部分有着明显界线,彼此间隔一定距离。注意:上下型汉字的上部分和下部分之间要有一定的距离,否则不成为上下型。例如“自”字虽然也是由“丿”和“目”上下两部分组成的,但是它们是连接在一起的,没有一定的距离,因此不能算是上下型结构,应算是混合型结构。,表2-3 三种字型,三种字型的作用三种字型称为字根的3种排列方式,用作识别汉字的判据。例如,“口”、“八”上下排列为“只”,左右排列即为“叭”。在输入一个汉字时,除了输入相应的字根外,有时还必须提供这些字根的排列方式,即补充输入一个字型信息。这
11、就是有的字取码不足四码时,要追加末笔交叉识别码的原因。在追加识别时,每种字型又分为5种情况,即末笔为横、竖、撇、捺、折,总共有53=15种情况。例如,左右型汉字的末笔为横时,追加识别码G,例如“柏”为左右型的汉字,按其五笔取码为SR后,只能得到“析”字,此时就必须追加识别码G,因为其最后一笔为“横”笔。,4、字根的4种连接方式一切汉字都是由基本字根组成的,包括没有入选为基本字根的单体结构(注意并不一定都是汉字),也全部是由基本字根与基本字根或者基本字根与单笔画按照一定的关系组成的。基本字根在组成汉字时,按照它们之间的位置关系也可以分为4种类型。单所谓“单”,是指基本字根本身就单独成为一个汉字,
12、与其他的字根没有联系。这样的字根称为“成字字根”,如“口、木、山、田、马、寸”等。2.散所谓“散”,是一个汉字由多个字根组成,各个字根之间不相连也不交,保持一定的距离。如:吕、足、困、识、汉、照等。,3.连“连”的情况有两种:第一种情况,一个基本字根连着一个单笔画。如:“丿”和“目”相连构成“自”,“丿”下连“十”成为“千”,“月”下连“一”成为“且”等。其中单笔画可连前也可连后。注意:这种情况下的字根与单笔画之间,不能当作散的关系。第二种情况,即所谓“带点结构”,即一个基本字根之前或之后带一个孤立的点。例如:勺、术、太、主等字中的点,近也可,稍远也可,连也可,不连也可。由此可以看到,一切基本
13、字根与单笔画相连之后形成的汉字,都不能分为几个保持一定距离的部分。因此,在判断这一类汉字的字型时,它们只能是第三类字型。,4.交所谓“交”,是指多个基本字根相互交叉连接汉字,字根之间有重叠的部分。如:“申”是由“日”,“里”是由“日土”,“夷”是由“一弓人”交叉构成的等。由此可以看到,一切由基本字根相交叉构成的汉字,基本字根之间更是没有距离的。因此,在判断这一类汉字的字型时,毫无疑问,它们都属于第三型。利用字根组字时,还有一种情况是混合型,即几个字根之间有连的关系,又有交的关系。如:“丙”,是“一”一边连一个“内”,而“内”又是由“冂”与“人”相交形成的,自然这类字也属于第三型。因此,基本字根
14、单独成字,不需要判断它的字型结构;属于“散”的汉字,可以属于左右型和上下型结构(1型或2型);属于“连”与“交”的汉字,一律属于杂合型结构(3型);不分左右、上下的汉字,一律属于杂合型结构(3型)。,2.3.3 五笔字型键盘设计1、五笔字型字根的键盘布局按照字根分区划位原则,兼顾键位设计,把125种基本字根共分成5个区,每个区又分成5个位,这样:第1区为1115,即G、F、D、S、A;第二区为2125,即H、J、K、L、M;第三区为3135,即T、R、E、W、Q;第四区为4145,即Y、U、I、O、P;第五区为5155,即N、B、V、C、X。一共有25个键位。(1).区号和位号的定义原则区号按
15、起笔的笔画横、竖、撇、捺、折划分,如:禾、白、月、人、金的首笔均为撇,撇的代号为3,所以它们都在3区。也可以说,以撇为首笔的字根,其区号为3。,(1).区号和位号的定义原则(续上页)区号按起笔的笔画横、竖、撇、捺、折划分,如:禾、白、月、人、金的首笔均为撇,撇的代号为3,所以它们都在3区。也可以说,以撇为首笔的字根,其区号为3。一般说来,字根的次笔代号尽量与其所在的位号一致,如:土、白、门的第2笔均为竖,竖的代号为2,故它们的位号都为2。但并非完全如此,如“工”字的次笔为竖(代号应为2,但它却被放在了15位,而不是12位。单笔画与复笔画字根尽量与位号一致,例如,单笔画:一、丿、丶、乙都在第1位
16、,两个单笔画(如二、冫)的复合字根的都在第2位,3个单笔画的复合字根(如三、川、彡)的都在第3位,依次类推。(2)键名每个键位上一般安排26种字根,字体较大的字根是键名,或称为主字根。每个键位方框左上角的字根就是键名。,2、五笔字型键盘的特点将130种基本字根按照笔画的类别,各对应于英文字母键盘的一个区,每个区又尽量考虑字根的第二个笔画,再分作5个位,即形成5区5位的键盘布局。其中的位号从键盘中部起,向左右两端顺序排列,这就是分区划位的五笔字型字根键盘,如图2-3,2.3.3 五笔字型汉字基本输入法五笔字型输入法把汉字分成三类1.键名汉字输入键名是指各键位组字频度较高,而形体上又有一定代表性的
17、字根,它们中绝大多数本身就是汉字,只要把它们所在键连击四次就可以了。如 王 11 11 11 11(GGGG)立 42 42 42 42(UUUU),2.成字字根汉字输入在每个键位上,除了一个键名字根外,还有数量不等的几种其它字根,它们中间的一部分其本身也是一个汉字,称之为成字字根。成字字根输入公式键名代码首笔代码次笔代码末笔代码如果该字根只有两笔划,则以空格键结束。例二 12 11十 12 11 21(FGH)由 25 21 51 11(MHNG),2.成字字根汉字输入(续)五种单笔划的编码为一 11 11 24 24(GGLL)丨 21 21 24 24(HHLL)丿 31 31 24 2
18、4(TTLL)丶 41 41 24 24(YYLL)乙 51 51 24 24(NNLL),3.单字输入这里的单字是指除键名汉字和成字字根汉字之外的汉字,如果一个字可以取够四个字根,就全部用字根键入,只有在不足四个字根的情况下,才有必要追加识别码,例副 一 口 田|(11 23 24 22 GKLJ)给 纟 人 一 口(55 34 11 23 XWGK)驭 马 又(54 54 41 CCY)汉 氵 又(43 54 41 ICY),3.单字输入(续)对识别的末笔,这里有二点规定,规定取被包围的那一部分笔划结构的末笔,如所有包围型汉字中的末笔,规定取被包围的那一部分笔划结构的末笔,如国 其末笔应取
19、“丶”,识别码为43(I)远 其末笔应取“乙”,识别码为53(V)对于字根“刀、九、力、七”,虽然只有两笔,但一般人的笔顺却常有不同,为了保持一致和照顾直观,规定,凡是这四种字根当作“末”而又需要识别时,一律用它们向右下角伸得最长最远的笔划“折”来识别,如仇 34 54 51化 34 55 51,2.3.5 简码为了提高输入速度,将常用汉字只取前边一个,两个或三个字根构成简码。1.一级简码一 11(G)地 12(F)在 13(D)要 14(S)工 15(A)上 21(H)是 22(J)中 23(K)国 24(L)同 25(M)和 31(T)的 32(R)有 33(E)人 34(W)我 35(Q
20、)主 41(Y)产 42(V)不 43(I)为 44(O)这 45(P)民 51(N)了 52(B)发 53(V)以 54(C)经 55(X)2.二级简码二级简码共有25X25=625个,只要击其前两个字根加空格键即可,如吧 口巴(23,54,KC)胡 古月(13,43,DE),3.三级简码三级简码由单字的前三个根字码组成,只要击一个字的前三个字根加空格即可。如华 简码 人七十(34 55 12 WXF)4.词汇编码(1)双字词分别取两个字的单字全码中的前面个字根代码,共四码组成,如机器 木几口口(SMKK)汉字 氵又宀子(ICPB)(2)三字词前两个字各取其第一码,最后一个字取其二码,共为四码,如计算机 言竹木几(YTSM),(3)四字词每字各取其第一码,共为四码,如汉字编码 氵宀纟石(IPXD)光明日报 小日日扌(IJJR)(4)多字词按“一、二、三、末”的规则,取第一、二、三及最末一个字的第一码,共为四码,如电子计算机 日子言木(JBYS)中华人民共和国 口人人囗(KWWL),