汉语分词分词的提出和定义课件.ppt

资源描述

《汉语分词分词的提出和定义课件.ppt》由会员分享，可在线阅读，更多相关《汉语分词分词的提出和定义课件.ppt（45页珍藏版）》请在三一办公上搜索。

1、2019-8-26,1,汉语分词,谢谢观赏,2019-8-26,2,主要内容,分词歧义分词规范主要分词方法生词识别,谢谢观赏,2019-8-26,3,分词的提出和定义,汉语文本是基于单字的，汉语的书面表达方式也是以汉字作为最小单位的，词与词之间没有显性的界限标志，因此分词是汉语文本分析处理中首先要解决的问题添加合适的显性的词语边界标志使得所形成的词串反映句子的本意，这个过程就是通常所说的分词,谢谢观赏,2019-8-26,4,分词的意义,正确的机器自动分词是正确的中文信息处理的基础文本检索和服 | 务 | 于三日后裁制完毕，并呈送将军府中。王府饭店的设施 | 和 | 服务 | 是一流的。如

2、果不分词或者“和服务”分词有误，都会导致荒谬的检索结果。文语转换他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha）行侠仗义的 | 查金泰 | 远近闻名。（“查”读音为zha),谢谢观赏,2019-8-26,5,分词面临的主要难题,如何面向大规模开放应用是汉语分词研究亟待解决的主要问题如何识别未登录词如何低廉地获取语言学知识词语边界歧义处理实时性应用中的效率问题,谢谢观赏,2019-8-26,6,分词歧义,交集型切分歧义组合型切分歧义,谢谢观赏,2019-8-26,7,交集型切分歧义,汉字串AJB被称作交集型切分歧义，如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此

3、时汉字串J被称作交集串。例 “结合成分子”结合 | 成分|子 |结合|成|分子|结 | 合成 |分子|例 “美国会通过对台售武法案”例 “乒乓球拍卖完了”,谢谢观赏,2019-8-26,8,组合型切分歧义,汉字串AB被称作组合型切分歧义，如果满足条件：A、B、AB同时为词例组合型切分歧义：“起身”他站 | 起 | 身 | 来。他明天 | 起身 | 去北京。,谢谢观赏,2019-8-26,9,“真歧义”和“伪歧义”,真歧义指存在两种或两种以上的可实现的切分形式，如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义伪歧义一般

4、只有一种正确的切分形式，如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等,谢谢观赏,2019-8-26,10,未登录词,虽然一般的词典都能覆盖大多数的词语，但有相当一部分的词语不可能穷尽地收入系统词典中，这些词语称为未登录词或新词分类：专有名词：中文人名、地名、机构名称、外国译名、时间词重叠词：“高高兴兴”、“研究研究” 派生词：“一次性用品” 与领域相关的术语：“互联网”,谢谢观赏,2019-8-26,11,分词规范,词是自然语言的一种客观存在汉语书写过程中并不分词连写，对词组和词、单字语素和单字词的划分因人而异，甚至因时而异汉语信息处理现在需要制订统一的分词标准，否则将严重

5、影响计算机的处理信息处理用现代汉语分词规范及自动分词方法：结合紧密、使用频繁,谢谢观赏,2019-8-26,12,具体的分词标准实例,二字或三字词，以及结合紧密、使用稳定的：发展可爱红旗对不起自行车青霉素四字成语一律为分词单位：胸有成竹欣欣向荣四字词或结合紧密、使用稳定的四字词组:社会主义春夏秋冬由此可见五字和五字以上的谚语、格言等，分开后如不违背原有组合的意义，应予切分: 时间/就/是/生命/ 失败/是/成功/之/母,谢谢观赏,2019-8-26,13,具体的分词标准实例,结合紧密、使用稳定的词组则不予切分:不管三七二十一惯用语和有转义的词或词组，在转义的语言环境下，一

6、律为分词单位: 妇女能顶/半边天/ 他真小气，象个/铁公鸡/ 略语一律为分词单位:科技奥运会工农业分词单位加形成儿化音的“儿” :花儿悄悄儿玩儿,谢谢观赏,2019-8-26,14,具体的分词标准实例,阿拉伯数字等，仍保留原有形式:1234 7890 现代汉语中其它语言的汉字音译外来词，不予切分:巧克力吉普不同的语言环境中的同形异构现象，按照具体语言环境的语义进行切分: 把/手/抬起来这个/把手/是木制的,谢谢观赏,2019-8-26,15,常见的动词分词规范,动词前的否定副词一律单独切分:不/写不/能没/研究未/完成用肯定加否定的形式表示疑问的动词词组一律切分，不完整的

7、则不予切分:说/没/说看/不/看相信/不/相信动宾结构的词或结合紧密、使用稳定的:开会跳舞解决/吃饭/问题孩子该/念书/了结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼学/滑冰写/信,谢谢观赏,2019-8-26,16,常见的动词分词规范,动宾结构的词或词组如中间插入其它成分，则应予切分:吃/两/顿/饭跳/新疆/舞动补结构的二字词或结合紧密、使用稳定的二字动补词组，不予切分:打倒提高加长做好“2十1,1”或“1十2”结构的动补词组一律切分:整理/好说/清楚解释/清楚打/得/倒提/不/高偏正结构的词，以及结合紧密的词不予切分:胡闹瞎说死记,谢谢

8、观赏,2019-8-26,17,常见的动词分词规范,复合趋向动词一律为分词单位:出去进来当插入“得、不”时应予切分:出/得/去进/不/来动词与趋向动词结合的词组一律切分:寄/来跑/出去多字动词无连词并列，一律切分:调查/研究宣传/鼓动,谢谢观赏,2019-8-26,18,主要的分词方法,简单的模式匹配：正向最大匹配、逆向最大匹配法、双向匹配法基于规则的方法：最少分词算法基于统计的方法：统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词,谢谢观赏,2019-8-26,19,正向最大匹配分词(Forward Maximum Matching method, FMM),基

9、本思想：设自动分词词典中最长词条所含汉字个数为I；取被处理材料当前字符串序数中的I个字作为匹配字段，查找分词词典。若词典中有这样的一个I字词，则匹配成功，匹配字段作为一个词被切分出来，转6；如果词典中找不到这样的一个I字词，则匹配失败；匹配字段去掉最后一个汉字，I-；重复2-4，直至切分成功为止；I重新赋初值，转2，直到切分出所有词为止。,谢谢观赏,2019-8-26,20,分析,“市场/中国/有/企业/才能/发展/” 对交叉歧义和组合歧义没有什么好的解决办法错误切分率为1169往往不单独使用，而是与其它方法配合使用,谢谢观赏,2019-8-26,21,逆向最大匹配分词(Backward Ma

10、ximum Matching method, BMM法),分词过程与FMM方法相同，不过是从句子(或文章)末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字“市场/中/国有/企业/才能/发展/ 实验表明：逆向最大匹配法比最大匹配法更有效，错误切分率为1245,谢谢观赏,2019-8-26,22,双向匹配法（Bi-direction Matching method, BM法）,比较FMM法与BMM法的切分结果，从而决定正确的切分可以识别出分词中的交叉歧义,谢谢观赏,2019-8-26,23,最少分词问题,分词结果中含词数最少等价于在有向图中搜索最短路径问题,谢谢观赏,2019-8-26,24,

11、最少匹配算法(Fewest Words Matching,FWM) ),分段逐段计算最短路径(Dijkstra算法)得到若干分词结果统计排歧发展中国家发展中国家算法复杂性与FMM相当,谢谢观赏,2019-8-26,25,基于统计的词网格分词,第一步是候选词网格构造：利用词典匹配，列举输入句子所有可能的切分词语，并以词网格形式保存第二步计算词网格中的每一条路径的权值，权值通过计算图中每一个节点（每一个词）的一元统计概率和节点之间的二元统计概率的相关信息根据图搜索算法在图中找到一条权值最大的路径，作为最后的分词结果,谢谢观赏,2019-8-26,26,字串“中华人民共和国”的切分词网格,谢谢观

12、赏,2019-8-26,27,分析,可利用不同的统计语言模型计算最优路径具有比较高的分词正确率算法时间、空间复杂性较高,谢谢观赏,2019-8-26,28,一种基于N-gram信息的生词获取,基本思想：N元对词频过滤互信息过滤校正生词获取词频互信息（Mutual Information）词频与互信息的关系候选生词的校正,谢谢观赏,2019-8-26,29,一些抽取出的新词（三元组）,谢谢观赏,2019-8-26,30,一些抽取出的新词（二元组）,谢谢观赏,2019-8-26,31,人名识别,规则方法：利用语言规则来进行人名识别。优点：识别较准确；缺点：很难列举所有规则，规则之间往往会顾此失彼，

13、产生冲突，系统庞大、复杂，耗费资源多但效率却不高统计方法：一种是仅从字、词本身来考虑，通过计算字、词作人名用的概率来实现，另一种结合基于统计的汉语词语边界划分来实现。统计方法占用的资源少、速度快、效率高，但准确率较低。其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证。搜集合理的有代表性的统计源的工作本身也较难。混合方法：取长补短,谢谢观赏,2019-8-26,32,一种基于统计和规则的人名识别方法,中文姓名用字特点（82年人口普查结果）729个姓氏用字姓氏分布很不均匀，但相对集中有些姓氏可用作单字词名字用字分布较姓氏要平缓、分散名字用字涉及范围广某些汉字既可用作姓氏，又可

14、用作名字用字,谢谢观赏,2019-8-26,33,人名识别系统资源,语料库：95、96两年的人民日报语料全集。共约4000万字。人名库：包含共约31000多个人名。是95、96两年人民日报语料的所有人名的集合。人名库和语料库的一致性对保证统计数据的准确性至关重要。,谢谢观赏,2019-8-26,34,人名识别系统知识库,姓氏用字频率库和名字用字频率库：653个单姓氏，15个复姓，1894个名字用字,谢谢观赏,2019-8-26,35,人名识别系统知识库,名字常用词表,谢谢观赏,2019-8-26,36,人名识别系统知识库,称谓库三种类型只能用于姓名之前，如：战士、歌星、演员等；只能用于姓

15、名之后，如：阁下、之流等；姓名前后皆可，如：先生、主席、市长等。称谓前缀表：“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等,谢谢观赏,2019-8-26,37,人名识别系统知识库,简单上下文指界词表：约110个词动词：说、是、指出、认为、表示、参加等；介词：在、之、的、被、以等；正在、今天、本人、先后等。标点符号集人名出现在句首或句尾（包括分句）的机会比较大，标点符号可用来帮助判断人名的边界。顿号一边是人名时，另一边的候选人名的可靠性高。,谢谢观赏,2019-8-26,38,人名识别系统知识库,非名字用词表：有些双字词，如：时间、奖励、纬度等不作名字用词

16、，但因为组成它们的单字可作为名字用字，如果跟在姓氏后面，往往会将其与可作姓氏的字一起误判为姓名。例：“做这件事花了我们一段时间。”,谢谢观赏,2019-8-26,39,中文人名识别过程,谢谢观赏,2019-8-26,40,人名识别的具体实现,姓氏判别名字识别概率判断候选字符串为人名的概率为： P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字的概率P2*P3(单名时，为P2),谢谢观赏,2019-8-26,41,校正(对潜在人名的后处理),当两个已辨识的人名相似时，需要检查是否要更正 C1C2C3与C1C2C4同时存在，C1C2正确；C1C2C3与C1C2C4同时存在，C1C2C3

17、正确；C1C2C3与C1C2同时存在，C1C2正确；C1C2C3与C1C2同时存在，C1C2C3正确,谢谢观赏,2019-8-26,42,校正(对潜在人名的后处理),自动校正：如果两个潜在人名相似，考察它们的权值。一高一低时，将低权值的潜在人名清除(李文常、李文)；都为高权值时，两者都认为是人名(刘文军、刘文俊)；都是低权值时，则各自通过第三个字作名字用字的概率大小来判断。概率够高，识别为人名。否则将第三个字去掉(李文常、李文及) 。人工校正,谢谢观赏,2019-8-26,43,人名识别结果与分析,实验结果：8个测试样本，共22000多字，共有中文人名270个。系统共识别出中文人名330个，其

18、中267个为真正人名。召回率=文本中的中文人名辨识正确的比例=267/270*100% =98.89% 准确率=真正辨识正确的人名的比例 =267/330*100% =80.91% 准确率和召回率是互相制约的，可通过概率阈值的调整来调节二者的关系。,谢谢观赏,2019-8-26,44,人名识别结果与分析,产生错误的主要原因被未识别的地名干扰。“湖北英山县詹家河乡陶家河村， ”受非中式人名的干扰。“司马义艾买提 ”分词结果不理想。“为迎接香港回归送贺礼” 规则不准确。“南宋大诗人杨万里“惊如汉殿三千女， ”其他。“全世界每年影片产量高达两三千部， ”,谢谢观赏,2019-8-26,45,改进措施,采用更好的分词系统构建更准确的姓名用字库、指界词库等识别时结合一些语法、语义知识采用更合理的大规模人名语料进行训练，使阈值确定得更合理增加一些校正措施,谢谢观赏,

展开阅读全文