《中文信息处理课件.ppt》由会员分享,可在线阅读,更多相关《中文信息处理课件.ppt(32页珍藏版)》请在三一办公上搜索。
1、中文信息处理Chinese Information Processing,xxx哈尔滨工业大学计算机科学与技术学院,1,感谢你的观看,2019年8月28,2019年8月28,感谢你的观看,2,主要内容,信息处理中文信息处理计算机中文信息处理主要研究对象现代汉语的特点中文信息处理的发展中文信息处理技术发展问题的探讨,2019年8月28,感谢你的观看,3,信息,控制论创始人(维纳 Norbert Wiener)信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。信息论奠基者(香农 Clause Shannon)信息就是能够用来消除不确定性的东西
2、,是一个事件发生概率的对数的负值Robert M.Losee信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息,2019年8月28,感谢你的观看,4,信息的分类,按照计算机处理的信息形式文本信息多媒体信息超媒体信息按照信息的结构化程度结构化信息半结构化信息非结构化信息按照信息的保密程度公开信息一般保密信息绝密信息,2019年8月28,感谢你的观看,5,信息处理,信息处理就是对信息的接收、存储、转化、传送和发布信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备
3、份等处理;信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地;信息的发布:把信息通过各种表示形式展示出来。,2019年8月28,感谢你的观看,6,中文信息处理,中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。计算机科学技术百科全书清华大学出版社,1998,2019年8月28,感谢你的观看,7,计算机中文信息处理主要研究对象,汉字键盘输入技术汉字输出技术
4、软件汉化技术汉字字形识别技术汉语语音识别技术激光照排技术中文平台文本分类信息检索,2019年8月28,感谢你的观看,8,汉字键盘输入技术,汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术汉字编码采用四位十进制数把常用的汉字用“0”9”十个数字按照次序进行编码四角码(字形码)用“0”9”十个数字键对汉字的四个角的形状进行编码机内码用2字节、3字节、4字节来表示一个汉字的机器内部码国际标准化组织(ISO)、Unicode联盟以及IEEE下属的专门委员会研究制订的字符编码标准,2019年8月28,感谢你的观看,9,汉字输出技术,汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的
5、形式,并送输出设备输出汉字字库点阵字库GB5199.1-2001和GB5007-2001是典型的16点阵和24点阵字库矢量字库采用矢量的方法,对每个汉字信息用一组矢量进行描述,2019年8月28,感谢你的观看,10,软件汉化技术,软件汉化是把西文软件直接改造成中文软件的一种技术西文操作系统汉化成中文操作系统内核汉化外挂汉化西文应用软件经过汉化后能够具备处理中文的能力界面的汉化应用程序中中文的通行,2019年8月28,感谢你的观看,11,汉字字形识别技术,汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为
6、所需识别的汉字内码联机识别脱机识别汉字字形识别过程汉字识别前处理汉字分类和判别汉字识别后处理,2019年8月28,感谢你的观看,12,汉语语音识别技术,汉语语音识别技术是自然语言处理的一个重要组成部分,包括语音的识别、处理、合成等语音识别的过程语音识别单元的选取特征参数提取技术模式匹配及模型训练技术,2019年8月28,感谢你的观看,13,激光照排技术,激光照排,即电子排版系统1946年,美国人发明了手动光学照相排版机20世纪60年代,德国人制造了阴极射线管式照排1975年,英国人开始了激光照排的研究1974年8月,国家设立了748工程,2019年8月28,感谢你的观看,14,中文平台,中文平
7、台是指处理中文信息的软件系统的集合,包括支持中文的系统软件、支撑软件和应用软件汉化平台:西文系统上外挂一层软件,使系统可以接收和输出汉字API平台:操作系统提供有关中文信息处理所需要的一套API接口中文平台:在API平台上再增加一些典型的与中文信息处理有关的应用软件工具或产品,2019年8月28,感谢你的观看,15,文本分类,文本分类是一种确定文章所属类别的情报分析方法基于词的归类技术基于知识的归类技术基于信息的归类技术,2019年8月28,感谢你的观看,16,信息检索,文本检索包括了文本信息的存储、组织、表现、查询及存取等各个方面索引的建立自动分类自动聚类文摘(单文档文摘、多文档文摘)检索结
8、果的排序(ranking)分布式信息检索,2019年8月28,感谢你的观看,17,现代汉语的特点,语音字形词汇句子字频词频,2019年8月28,感谢你的观看,18,语音,汉字读音的标记方法直音法用一个汉字给另一个汉字进行注音“厶”“司”,“翯”“贺”反切法用两个汉字给另外一个汉字注音“鲁”“郎古切”,第一个汉字为声母,第二个汉字是韵母和声调注音字符汉语拼音21个声母,35个韵母,4声调,2019年8月28,感谢你的观看,19,字形,汉字结构笔画汉字字形最小连笔单位五种基本笔画:横、竖、撇、点、折部首字形归类的部件,是字典根据汉字形体偏旁所分的门类繁体字和简体字“進”“进”,“裏”“里”繁体字和
9、简体字并不是一一对应的关系字序义序、音序、形序,2019年8月28,感谢你的观看,20,词汇1,词汇是语言中所有的词和短语的总和汉语的词根和词缀词根:意义实在、在合成内位置不固定的粘着语素(不能单独构成词的语素,如伟、丰、型)和自由语素(能独立成词的语素,如金、木、水、火、土)词缀:意义不实在、在合成内位置固定在前或后的粘着语素“筷子”“筷”是词根语素,“子”是词缀语素,2019年8月28,感谢你的观看,21,词汇2,词的种类单纯词由一个语素构成的词,如人、走、天双音节连绵词,如鸳鸯、垃圾、琳琅、葡萄音译词,如沙发(sofa),咖啡(coffee)译自少数民族的地名,如哈尔滨、呼和浩特合成词重
10、叠词:两个相同的词根相叠构成的词,如哥哥、姐姐、星星附加词:由词根和词缀构成,如老虎、石头、刀子、桌子复合词:内部结构基本上是和句法结构一致的,有主谓、偏正、联合等,如质量、体制、开关,2019年8月28,感谢你的观看,22,句子,句子:能够表达一个相对完整意思的并且有一个特定语调的语言单位汉语句子是“以意为本”的,生成的第一要素是语义无论是否是主谓结构的,只要完成表意功能,就是一个句子,2019年8月28,感谢你的观看,23,字频,字频:就是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计的材料的总字数的比例如果在一篇2000字的文章中,“的”使用了78次,则“的”的频率就是78/20
11、00*100%=3.9%在信息检索中有着重要的应用文本分类信息检索中索引表的建立,2019年8月28,感谢你的观看,24,词频,词频:就是一个词的相对使用频率对于词典的编撰、中文信息处理有着重要的作用新词的出现:非典、超女、网友信息检索,2019年8月28,感谢你的观看,25,中文信息处理的发展,学习和理论探索的萌芽阶段这一阶段以介绍国外计算语言学领域的理论方法为主对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表早期将国外的理论方法进行全面系统汉化的主要刊物有:86年底创刊的中文信
12、息学报、语言学界的国外语言学和语言文字应用学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语言理解做了深层次的带有哲学色彩的思考80年代中期宁春岩发表的自然语言理解中的几个根本问题,以及他译介的美国哲学家休伯特.德雷福斯(Hubert L.Dreyfus)的专著计算机不能做什么-人工智能的极限语言学界袁毓林1993年发表了自然语言理解的语言学假设这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用,奠定了中文信息处理后期的理论基础,2019年8月28,感谢你的观看,26,中文信息处理的发展,汉字信息处理为主的
13、早期阶段1974年周恩来总理亲自批准了“七四八”工程它标志着计算机中文信息处理技术受到了国家高度重视并且进入了他的第一个发展阶段汉字信息处理时代,2019年8月28,感谢你的观看,27,中文信息处理的发展,字、词等表层处理为特征的初级阶段北京大学开发的华光排版系统被评为1985年中国十大科技成就之一,并荣获中国发明协会发明奖“六五”期间(1981-1985),北京航空学院主持,中国人民大学等十几个院校,研究机构参加的“现代汉语词频统计”工程是这一阶段代表性的重大科研成果,这是国内首次使用计算机进行大规模语料(2000万字)的词频统计研究的大型语言工程第一个汉语自动分词系统CDWS,建立了一个有
14、13万余词条的计算机词典,研制了一个有52个属性的汉字信息库1988年初,北京航空航天大学在承担国家“七五”科技攻关项目信息处理用规范现代汉语词库的同时,制定了信息处理用规范现代汉语分词规范,2019年8月28,感谢你的观看,28,中文信息处理的发展,句法和语义等深层处理为代表的中期阶段“八五”期间,中文信息处理技术的研究开发重点逐步由字,词的表层处理转向了以句法,语义分析为核心的深层处理,2019年8月28,感谢你的观看,29,中文信息处理的发展,语料库统计方法兴起的近期阶段1979年,武汉大学建设的汉语现代文学作品语料库,共计527万字,是我国最早的机器可读语料库人民日报收集了48年的全部
15、文字和图像内容,公开发行北京大学计算语言学研究所与富士通公司(Fujitsu)合作,加工2700万字的人民日报语料库1998年,清华大学建立了1亿汉字的语料库,着重研究歧义切分问题,现在生语料库已达7-8亿字香港城市理工大学语言资讯科学研究中心建立了LIVAC(Linguistic variety in Chinese communities)语料库,其宗旨在于研究使用中文的各个地区使用语言的异同。总字数为15,234,551字,经过自动切词和人工校对之后总词数约为8,869,900词用来翻译和研究各种不同语言对比的语料库北大、哈工大、东北大学建立的英汉双语语料库北京外国语大学的北京日本学研究
16、中心建立了2000万字的汉语和日语并行语料库,2019年8月28,感谢你的观看,30,中文信息处理的发展,以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段 Internet迅猛发展,根据中国互联网络信息中心发布的报告,截止到2002年6月30日,中国上网计算机总数1613万,上网用户总数4580万主要需求有信息分类,信息提取,自动问答,基于内容的快速信息检索,基于个性的信息推送,数字化图书馆和信息网格等,2019年8月28,感谢你的观看,31,中文信息处理技术发展问题的探讨,汉语言学家没有为中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的中文信息处理研究力量分散而且存在着低层次重复,缺乏统一规范和标准的问题现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变,2019年8月28,感谢你的观看,32,