英语语言文化论文中英文混合分词方法及应用研究.doc

上传人:仙人指路1688 文档编号:2884403 上传时间:2023-03-01 格式:DOC 页数:3 大小:19.50KB
返回 下载 相关 举报
英语语言文化论文中英文混合分词方法及应用研究.doc_第1页
第1页 / 共3页
英语语言文化论文中英文混合分词方法及应用研究.doc_第2页
第2页 / 共3页
英语语言文化论文中英文混合分词方法及应用研究.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《英语语言文化论文中英文混合分词方法及应用研究.doc》由会员分享,可在线阅读,更多相关《英语语言文化论文中英文混合分词方法及应用研究.doc(3页珍藏版)》请在三一办公上搜索。

1、中英文混合分词方法及应用研究 中英文混合分词方法及应用研究 Chinese and English Mixed Segmentation Method and Applied Research【中文摘要】 随着科学技术的迅猛发展,计算机在各个领域得到了前所未有的广泛应用。已从过去的数据处理、信息处理发展到现在的知识处理和对语言文字的信息处理。自从20世纪80年代初,中文信息处理提出自动分词以来,众多专家和学者在这一领域取得了令人可喜的进展,并且基于中文分词的算法也随着信息的多元化,复杂化在不断的升级,改进和完善。分词算法在信息检索,自动归档等领域都有着广泛的应用,但是由于中国经济的飞速发展使得

2、中国与世界的联系更加紧密,在一些前沿领域或是国人刚刚开始涉足的领域就难免要借鉴和引用一些发达国家的科研成果或创新理论。这样,信息的形式就难免要使用中外语言混合的形式来表达,特别是中英文混合使用的情况将会越来越普遍。这就要求信息处理系统不仅能够将中文正确分词,还要能够对中英文混合的情况正确分词。目前有关中英文混合分词的研究相对较少,还没有形成比较成熟的理论,中英文混合分词的规范、评价体系还没有建立。对于中英文混合字段一般是将中文汉字和英文字母、中文汉字和阿拉伯数字、英文字母和阿拉伯数字直接分开,没有对其进行词的判断和消岐处理。基于此课题首先研究中英文混合的新特点,并着重研究了中英文混合分词的算法

3、,特别是混合分词的消岐问题。本文主要研究了中英文混合的形式、结构以及人们使用中英文混合的习惯,分析了现有的中文分词算法,提出了一种实用的中英文混合分词算法。对于分词难点之一的消歧问题,本文做了深入的研究,并在现有消歧算法基础之上分析了需要继续消歧的原因并且给出了具体实施方法。对于最大词长问题的解决本文充分考虑了分词速度的要求,提出了以待切分字符串的双首字开始的Hash词典的词长和待切分文本的长度进行比较从而确定RMM的最大词长。为了验证该算法的效率,开发了中英文混合分词系统,以中国风能信息中心系统为例对中英文混合分词算法做了试验验证。试验表明,该算法能够有效的将中英文混合文档正确的分词,其消歧

4、率到达了较高的水平,算法对未登录词中的姓名名词也有很好的识别能力。最后依据算法的分词结果初步达到了文章自动分类归档的目的。【英文摘要】 With the rapid development of science and technology, computer has been widely used ever. It develops from the data processing to knowledge processing. Since the early-1980s, Chinese information processing has proposed the automatic

5、 segmentation, many experts and scholars in this field have made great progress. The algorithm also has a wide range of applications in information retrieval, automatic archiving and other areas. The link between China and the world has been more closely due to the rapid development of Chinas econom

6、y, however, we unavoidably use the experience of other countries for reference.Such informations form unavoidably must be used Chinese and foreign language mixed to express our thought, especially Chinese and English mixed form. This set a higher request to the information management system,.At pres

7、ent, the research of Chinese and English mixed word segmentation is relatively few, and it has not formed a quite mature theory. The Chinese and English mixed word segmentation standard and the appraisal system have not been established. Based on this, The paper has studied the new features of Chine

8、se and English mixed form and proposed a new algorithm.This paper has mainly studied the Chinese and English mixed form, the structure and the use custom. It aslo presents a practical segmentation algorithm of Chinaese and English mixed. The removing ambiguity is one of the difficulties of segmentat

9、ion.This article has done the thorough analytical study and proposed the implementation method. for continuing removing ambiguity. To solve the biggest word length, a method which compared the length of the first two-character string beginning Hash dictionary of the waiting string with the length of

10、 the text to determine the maximum word length of RMM has been proposed.The experiment indicated that using this article proposed method can split the words of Chinese and English mixed effectively. The method can not only keep a higher level of removing Ambiguity, but also do well in unknown word i

11、dentification. Finally it arrived at the goal of article automatic sorting based on the algorithm participle result. 【中文关键词】 中英文混合分词; Hash; RMM; 消歧; 未登录词 【英文关键词】 Chinese and English mixed word segmentation; Hash; RMM; Removing Ambiguity; Unknown word 【论文目录】摘要 4-5 Abstract 5 1 引言 9-12 1.1 研究背景及意义 9-1

12、0 1.1.1 研究背景 9-10 1.1.2 研究意义 10 1.2 研究现状 10-11 1.3 论文的组织 11-12 2 分词算法综述 12-17 2.1 中文自动分词基本算法 12-14 2.1.1 基于字符串匹配算法 12-13 2.1.2 基于统计的方法 13 2.1.3 基于理解的方法 13-14 2.2 歧义处理 14-15 2.2.1 歧义定义 14 2.2.2 探测歧义 14 2.2.3 消歧算法 14-15 2.3 未登录词识别 15-16 2.3.1 未登录词识别的方法 15 2.3.2 未登录词识别的现状 15-16 2.4 中文分词评价 16-17 3 中英文混合

13、分词评价体系 17-19 3.1 中英文混合使用现象原因 17 3.2 中英文混合特点 17-18 3.2.1 由引进英文而产生的歧义 17 3.2.2 网络语言的大量使用 17 3.2.3 由领域性产生的歧义 17 3.2.4 缺失字母问题 17-18 3.3 中英文混合分词评价体系 18-19 3.3.1 增加词语纠错能力评价 18 3.3.2 未登录词标准发生变化 18-19 4 中英文混合分词的算法实现 19-40 4.1 常用的分词词典 19-23 4.1.1 整词二分的分词词典机制 19-21 4.1.2 TRIE 索引树的分词词典机制 21-22 4.1.3 逐字二分的分词词典机

14、制 22-23 4.2 三种分词词典机制的实验结果 23-24 4.3 本文采用的词典机制 24-26 4.3.1 改进的词典机制 25-26 4.4 词典的实现 26-30 4.4.1 词典的构成 26 4.4.2 词典定义 26-27 4.4.3 加载基本词典 27-29 4.4.4 加载停用词典和姓氏词典 29-30 4.5 中英文混合分词算法 30-35 4.5.1 初切分算法 30-31 4.5.2 分词过程 31-35 4.6 歧义处理 35-38 4.6.1 中英文混合歧义形式 35 4.6.2 歧义探测 35-36 4.6.3 改进的消歧算法 36-37 4.6.4 与消歧效果 37-38 4.7 系统功能实现 38-40 5 中英文混合分词在中国风能信息中心的应用 40-44 5.1 系统介绍 40 5.2 分词、文本自动分类的实现 40-44 5.2.1 技术类别 40-41 5.2.2 文本自动归档 41-44 6 总结 44-46 6.1 论文总结 44 6.2 有待继续完善的工作 44-46 参考文献 46-49 在读期间发表的学术论文 49-50 作者简介 50-51 致谢 51

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号