《教育学专业的中文分词设计.doc》由会员分享,可在线阅读,更多相关《教育学专业的中文分词设计.doc(5页珍藏版)》请在三一办公上搜索。
1、教育学专业中文分词设计刘千祥( 广东省大埔县洲瑞实验学校 广东大埔 514257)摘要:本文设计了教育学专业的词库,深入分析三个基本算法最大正向匹配法(MM法)、逆向最大匹配法(RMM法)、统计法的基础上,设计并实现了MM+RMM+统计法,较好地解决了交集型歧义。最后提出了引入神经网络的研究思路。关键词:教育学 中文分词 算法中图分类号:G343, TP315, O212.4 文献标识码:A中文分词技术应用相当广泛,在信息检索、自动标引、自动文摘、机器翻译、语言学研究、搜索引擎研究和自然语言理解等方面都有很多研究。分词系统也是一个比较复杂的信息处理系统,在中文信息处理中占有基础性的地位,存在一
2、些技术难点。一是词典机制,在分词过程中需要频繁地访问词典,词典的内存储结构、查询效率等都会影响分词的速度 学者提出了很多机制,例如整词二分法的词典机制、基于TRIE索引树的词典机制、基于逐字二分法的查询机制、TRIE索引树动态化等。;二是分词算法,基于词典的分词算法,速度和准确率很大程度上依赖于词典完整程度和查询机制的优劣;无词典分词算法需要训练大规模的语料库,使用训练的结果来进行分词 作为中文处理技术的基础,很多学者做了这方面的研究,仅80年代以来见诸文献的自动分词方法和算法归纳起来就有:最大匹配法、逆向最大匹配法、逐词遍历法、最佳匹配法、设立切分标志法、有穷多层次列举法、扩弃转移网络分词法
3、、高频优先分词法、二次扫描法、邻接约束法、基于期望的分词法、联想回溯法、双向扫描法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM算法、演化算法、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM分词算法、改进的MM分词算法、RMM算法和DMM算法等上百种。,中文分词系统的改进更多地依赖于分词算法的创新(文庭孝,2006);三是歧义消除,歧义是指一句话可能有很多种切分方法,主要分为交集型歧义和组合型歧义以及真歧义 真歧义需要人根据自身的知识来判断,例如乒乓球拍卖完了,可以是
4、“乒乓/球拍/卖完/了”,也可以是“乒乓球/拍卖/完了”。,组合型歧义的消解需要付诸更宽的上下文中的语法、语义甚至语用信息,成为难中之难(秦颖等,2007),消除歧义被认为是中文分词系统最困难也是最核心的问题(孙铁利、刘延吉,2009);四是为未登录词,未登录词主要是指未登录到词典的人名、地名、外国译名等专业名词,还有新词、简称、方言词语、文言词语、行业用词等非专业名词,此问题和歧义消除被归结为中文分词的两大难题(秦颖等,2007;蔡勇智,2006)。考察教育学独立化以来的二三百年的历史以及这些年来关于教育学学科建设和元教育学讨论的意见,在教育学学科发展的目标取向上形成了两种不同的形式和主张。
5、一种是教育学的科学化追求;另一种则是人文化或者艺术化取向。如果只是简单地把自然科学的那一套标准的范式加于教育学,从而指责教育学的不科学,进而严格以自然科学为样板企图建立科学严密的体系,会阻碍教育学的发展。人文主义的反科学倾向也同样会使教育学走入歧途。因此,教育学必然向多元化方向发展,新的词汇会不断地产生。教育学的多元化发展和人文主义色彩,使得其没有表达范式,因此教育学文章不像数学那样完美、规范,会产生较大的歧义 这里并不是说教育学学者表达不够规范,只是从分词角度来看,容易产生多种结果。,对歧义处理的要求更高。接下来将进行词库和算法的设计与实现。一、词库设计本文采用Hash散列表来组织词库,如图
6、1所示。这样在分词过程中不再逐次减一,而是先是逐步增加,再逐步减少。对任意P=C1C2进行分词处理,算法描述如下:1) 取出两个字(初始时为C1C2),根据哈希表找到首字C1,在第二层是否存在C22) 如果不存在,则C1为单字词,一次分词结束,返回1)。3) 存在,取出C1C2下层节点汉字的最大长度,设为n4) 若n=0,一次分词结束,得到结果5) 否则,取出C1C2后面的n个中文字符,6 ) 在第三层中进行匹配7) 存在,分词结束,返回1)。8) 不存在,取出C1C2后面的n-1个中文字符,转6 )。育师诲学家学院心理学哈希表教校范.图1 词典组织结构 吴佳倩(1984)、张念宏(1987)
7、、浙江大学中德翻译信息中心项目委员会(杭州)和德国汉斯赛德尔基金会项目协调和信息中心(北京)(1987)出版了教育学词典,这些书籍收集大量的教育学专业词汇,但是都是八十年代出版的。最近二十年教育专业在快速发展,产生大量的词汇,也吸收了大量的外来语,本文收了2295个词汇。二、算法设计基于规则的方法的依据是分词词典和分词规则库,原理是字符串匹配;基于统计的方法的依据是字与字间、词与词间的同现频率。最大匹配法(Maximum Matching Method,简称MM法)、逆向最大匹配法(Reverse Maximum Matching Method,简称RMM法)是典型的字符串匹配分词法。MM法的
8、基本思想为:设D为词典,MaxLen表示D中的最大词长,str为待切分的字串。MM法是每次从str中取长度为MaxLen的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MaxLen个汉字后继续匹配,否则子串逐次减一进行匹配。最大的缺点就是无法消除歧义,只是机械地根据词库进行分词,因此MM法隐藏了大量的歧义,MaxLen的取值难以确定。RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,RMM法在切分的准确率上比MM法有很大提高,但仍存在着与MM法一样的问题。
9、基于统计的分词算法。设已对进行切分,由切分算法和歧义处理算法得到为一个词,为一个词,与之间皆为单字词,即和是相邻最近的两个多字词,则将作为一个多字词进行词频统计,在对文章全部切分完毕之后,若的出现次数达到f时,则将其看作一个词,否则,将其拆分为单字词。该算法可以充分利用文章的信息,解决部分歧义字段。由于基于统计的分词算法要进行复杂的计算,效率较低。因此,其常与机械分词算法结合。MM+RMM+统计法。一般情况下,每一个算法都有其自身的优势和劣势。通过结合多个算法,可以使算法扬长避短,得到一个更好的效果。MM法和RMM法对于歧义字段没有很好的处理,隐藏了大量需要歧义,需要采用一种统计的方法,引入互
10、信息和t-测试解决交集型歧义。MM+RMM+统计法认为MM法和RMM法得到的分词结果不一样时,该分词结果产生了歧义字段。当该歧义字段为交集型时,统计法采用互信息及t-测试差这两个统计量来消除歧义。互信息和t-测试差是为交集型歧义字段而选取的。交集型歧义:字段S=ABC, AB和BC都是一个词,则字段S称为交集型歧义切分字段,B称为交段,其中A、B、C 为字串。例如,取MaxLen=4的情况下,自学进修_学校_(MM法)和_自学_进修学校(RMM法得到)两种切分结果,这就产生了交集型歧义。互信息:对有序字串xy,汉字x、y的互信息为 (1)其中,p(x, y) 是x , y的邻接同现概率,p(x
11、)、p (y)是x和y各自的概率。互信息用于定量估计两个汉字间的亲合力,即x和y之间的位置信息:I (x ,y)0,I值越大,x和y结合的紧密程度越高;I (x ,y)0,则y倾向于与其后继字z相连,值越大,倾向越强;如果tx,z(y)0 时,x、y相互吸引,倾向于组合在一起,值越大,组合的倾向越强;t (x , y)0时, x、y相互排斥,倾向于分开,绝对值越大,排斥断的倾向越强;t (x , y)= 0时,则无任何倾向,无法用t-测试差进行判断。MM+RMM+统计分词算法的流程图如图1所示。SEG2RMM法分词分词词典MM法分词SEG1文本预处理读入文本N(SEG2)N(SEG1)SEG1
12、=SEG2SYesSEG1EYSEG2=SEG1 SEG0SEG0SesYesNoI判断I(Pt2)-I(Pt1)断I(Pt1)I(Pt2)SEG2|I(Pt2)I(Pt1)|Tx, z判断=/2, =/2且SEG1或算法失效,无法用这两个统计量消除歧义图1 MM+RMM+统计法的流程图参数和由实验测得,0和0分别是互信息、t-测试失效的临界值,这些参数值的大小对算法准确率有重要影响,需要进行大量的实验测验测试,进行反复地修改。本文在VC+进行编程,使用ODBC连接词库。这里只给出一个常见的教育学的交集型歧义的短语(学术研究机构),说明此算法是如何进行消除歧义的。原文:武汉大学国际法研究所是我
13、国高等院校最早成立的国际法学术研究机构取MaxLen=4MM法:武汉大学_国际法_研究所_是_我_国_高等院校_最早_成立_国际法_的_学术研究_机构_类型,设置_了_多_个_分支_学科_;RMM法:_武汉大学_国际法_研究所_是_我_国_高等院校_最早_成立_的_国际法_学术_研究机构_类型,设置_了_多_个_分支_学科。两种分词算法得到的结果不同,产生了歧义,为交集型歧义。两种分词方案最大交集为“研究”,本研究共收集了2285个教育学专业词汇,x=“学术”、y=“研究”、z=“机构”,r(x)=20, r(y)=46, r(z)=13, r(xy)=12, r(yz)=9, I(x, y)
14、= 4.8975, I(y, z)= 5.1039,I(y, z)- I(x, y)= 0.2065;u=“国际法学”、v=“设置”,tu, y(x)=3.4641; tx, z(y)=-2.1848; ty, v(z)=-1.1773,t (x , y)= 5.6489、t (y , z)= -1.0075,t (x , y) -t (y , z)= 6.6563。若设置=1.0、=1.0,最后的分词结果由MM法得到;若设置=0.1、=1.0,则是RMM得到的。三、结论与展望本文设计了教育学专业中文分词的词库和算法,并进行了实践MM+RMM+统计分词算法相比单纯的MM法和RMM,具有一定的歧
15、义消除功能,但也存在一定的缺陷。教育学专业的人文主义性质对分词算法的消除歧义特性要求高,因此,将BP神经网络分词算法引入到教育学专业中文分词系统中来进行歧义消除,是下一步的研究工作,林亚平等(1997)、尹锋(1998)、张晓淼(2005)、何嘉和陈琳(2006)、张艳梅等(2007)、何嘉和陈琳(2007)等已经作了一些探讨。另外,BP神经网络还具有进行未登录词的识别(张艳梅等,2007)。参考文献1 蔡勇智.未登录词识别算法的改进J. 福州电脑,2006年第3期:115-1172 何嘉,陈琳.基于神经网络汉语分词模型的优化J.成都信息工程学院学报,2006年12月,第21卷第6期:812-
16、8153 何嘉,陈琳.基于遗传神经算法优化的汉语分词模型J.西南师范大学学报(自然科学版),2007年8月,第32卷第4期:90-934 林亚平,李彦,童调生等.汉语自动分词中的神经网络技术研究J.湖南大学学报, 1997, 24(6): 95-101.5 秦颖、王小捷.张素香. 汉语分词中组合歧义字段的研究J. 中文信息学报,2007年1月,Vol.21 No.1:3-86 孙铁利 刘延吉. 中文分词技术的研究现状与困难J. 信息技术,2009年第7期:187-1897 孙巍一种面向信息检索的汉语自动分词方法J现代图书情报技术,2006年第7期:33-368 文庭孝汉语自动分词研究进展J图书
17、情报,2005(15):54-639 吴佳倩.教育学名词辞典M.台北:名山出版社,198410 尹锋. 基于神经网络的汉语自动分词系统的设计与分析J.情报学报, 1998, 17(1): 41-49.11 张晓淼.基于神经网络的中文分词算法的研究D. 大连理工大学,硕士论文,200512 张艳梅,胡文淑,曾鍚.基于神经网络的中文分词技术研究J. 软件导刊,2007年12月:15-1713 浙江大学中德翻译信息中心项目委员会(杭州),德国汉斯赛德尔基金会项目协调和信息中心(北京).德汉教育学词典M.安徽合肥:安徽科学技术出版社,2000作者简介:刘千祥,男,广东省大埔县洲瑞实验学校,中学一级教师,从事数学教学,广东省梅州市大埔县洲瑞实验学校,514257,13411218592,lqx68592;