中文分词研究现状.ppt

上传人:牧羊曲112 文档编号:5170454 上传时间:2023-06-10 格式:PPT 页数:54 大小:380KB
返回 下载 相关 举报
中文分词研究现状.ppt_第1页
第1页 / 共54页
中文分词研究现状.ppt_第2页
第2页 / 共54页
中文分词研究现状.ppt_第3页
第3页 / 共54页
中文分词研究现状.ppt_第4页
第4页 / 共54页
中文分词研究现状.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《中文分词研究现状.ppt》由会员分享,可在线阅读,更多相关《中文分词研究现状.ppt(54页珍藏版)》请在三一办公上搜索。

1、目录,引言关键问题ICTCLAS评测由字构词总结,目录,引言关键问题ICTCLAS评测由字构词总结,Everything is made of particles,so Physics is very important.The World-Wide-Web is made of Language,so Computational Linguistics is very important.ACL2007执行委员会主席 Mark Steedman,中文分词做什么?,中文以字为基本书写单位,词语之间没有明显的区分标记。通俗的说,中文分词就是要由机器在中文文本中词与词之间加上标记。输入:我是学生。

2、输出:我/是/学生/。,英语有词语切分问题吗?,英语中不是完全没有词语切分问题,不能仅凭借空格和标点符号解决切分问题。缩写词N.A.T.O i.e.m.p.h Mr.AT&T连写形式以及所有格结尾Im Hed dont Toms数字、日期、编号128,236+32.56-40.23 02/02/94 02-02-94带连字符的词text-to-speech text-based e-mail co-operate英语中的切分通常被叫做Tokenization。和中文相比,英语切分问题较为容易。,目录,引言关键问题ICTCLAS评测由字构词总结,中文分词的关键问题,切分歧义消解未登录词识别,切分

3、歧义(1),交集型歧义对于汉字串AJB,AJ、JB同时成词例:结合/成,结/合成组合型歧义对于汉字串AB,A、B、AB同时成词例:门/把手/坏/了,请/把/手/拿/开 将来,现在,学生会混合型歧义同时包含交集型歧义和组合型歧义例:这样的/人/才能/经受住考验 这样的/人才/能/经受住考验 这样的/人/才/能/经受住考验中文文本中,交集型歧义与组合型歧义出现的比例约为1:22。,切分歧义(2),真歧义歧义字段在不同的语境中确实有多种切分形式例:地面积 这块/地/面积/还真不小地面/积/了厚厚的雪伪歧义歧义字段单独拿出来看有歧义,但在所有真实语境中,仅有一种切分形式可接受例:挨批评挨/批评()挨批

4、/评()对于交集型歧义字段,真实文本中伪歧义现象远多于真歧义现象,歧义的发现(1),歧义消解的前提是歧义的发现。切分算法应该有能力检测到输入文本中何时出现了歧义切分现象。MM和RMM只能给出一种切分结果,不能检测出歧义。双向最大匹配法(MM+RMM)MM企业用工的/自主/权RMM企业用工的/自/主权存在歧义检测盲点MM、RMM 他/从/马上/下来对中文句子进行统计分析的实验表明:,歧义检测成功,歧义的发现(2),MM+逆向最小匹配法全切分方法依据词表,给出输入文本的所有可能的切分结果。输入:提高人民生活水平输出:提/高/人/民/生/活/水/平提高/人/民/生/活/水/平提高/人民/生/活/水/

5、平提高/人民/生活/水/平提高/人民/生活/水平依据一定的原则,选择一种结果作为最终切分结果,如:选择次数最少的切分结果(最短路径)选择概率最大的切分结果,歧义切分的表示词图,歧义消解(1),基于记忆的歧义消解伪歧义所占比例很大。从一亿字真实汉语语料库中抽取交集型歧义切分字段。高频的前4619个字段,覆盖了该语料库中全部交集型歧义切分字段的59.20%。其中4279个属伪歧义,覆盖率达53.35%。鉴于伪歧义的消解与上下文无关,可以把它们的正确(唯一)的切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。基于规则的歧义消解“一起”+V 一+起我们/一起/去实验室一/起/恶性交通事故,歧

6、义消解(2),基于统计的歧义消解在词图上寻找统计意义上的最佳路径。如何评价最佳路径?例如:基于一元模型进行评价统计词表中每个词的词频,并将其转化为路径代价C=-log(f/N)切分路径的代价为路径上所有词的代价之和寻求代价最小的路径,未登录词,实体名词和专有名词中国人名:李素丽 老张 李四 王二麻子中国地名:定福庄 白沟 三义庙 韩村 河马甸翻译人名:乔治布什 叶利钦 包法利夫人 酒井法子翻译地名:阿尔卑斯山 新奥尔良 约克郡机构名:方正公司 联想集团 国际卫生组织 外贸部商标字号:非常可乐 乐凯 波导 杉杉 同仁堂专业术语和新词语专业术语:万维网 主机板 模态 逻辑 贝叶斯算法缩略语:三个代

7、表 五讲四美 打假 扫黄打非 计生办新词语:卡拉OK 波波族 美刀 港刀,未登录词识别,未登录词识别困难未登录词没有明确边界,缺少英语中的分隔符、大小写、词的形态、冠词等语法信息例:张掖市民乐县许多未登录词的构成单元本身可以独立成词例:张建国与普通词相似例:爱子面容俨然是父亲的“女性版”呈现一定的句法结构例:好又多、我爱我家房地产经纪公司通常每一类未登录词都要构造专门的识别算法识别依据内部构成规律(用字规律)外部环境(上下文),理解和分词孰先孰后?,Andi Wu主张把分词的决定放在句法分析的过程中去解决,而不是在句法分析前就做出决定。他的系统使用基于句法-语义规则的句法分析器NLPwin。2

8、003年,他的系统参加第一届Bakeoff评测,取得了很好的成绩。但面对Bakeoff的实验数据,他承认句法分析器对分词性能的影响十分有限。在CTB语料的封闭测试中,采用句法分析器的分词精度甚至低于没有句法分析器的情况。在2005、2006、2007年的Bakeoff上,已经很难找到这种基于手工规则的系统的身影了。取而代之的是基于词,尤其是基于字的统计学习方法。,目录,引言关键问题评测由字构词总结,目录,引言关键问题ICTCLAS评测由字构词总结,什么是词?,最小的能够独立运用的语言单位。信息处理用现代汉语分词规范对词的定义二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位。

9、信息处理用现代汉语分词规范缺乏操作标准。汉语中,语素、词和词组的界限模糊。象牙 兔牙吃饭 吃鱼毁坏 打坏,Bakeoff 2003(2),Feature Templetes,Bakeoff 2003(3),特征生成举例我/爱/北京/天安门/。C0生成的特征为:我,LR爱,LR北,LL京,RR天,LL安,MM门,RR。,LR,C-1C0生成的特征为:我爱,LR爱北,LL北京,RR京天,LL天安,MM安门,RR门。,LR,Bakeoff 2003(4),Maximum Entropy ModelJoint probability of a history h and a tag t is defi

10、ned as:,Given(h,t),feature function is calculated as,is a normalization constant,1,k are the model parameters and f1,fn are feature functions.Each feature has a corresponding parameter i,that effectively serves as a“weight”of this feature.,Bakeoff 2003(5),In the tagging process,given a sequence of c

11、haracters c1,cn,the tagger searches for the tag sequence t1,tn with the highest probability,In the training process,given a sequence of characters c1,cn and their POC tags t1,tn as training data,the purpose is determine the parameters,1,k that maximize the likelihood of the training data.,Bakeoff 20

12、05(1),Low and Ng(代表新加坡国立大学)采用最大熵模型,在四项开放测试中夺得3项第一和1项第二。Boundary Tagss,b,m,eBasic FeaturesExternal FeaturesHuihsin Tseng(代表Stanford NLP Group)采用条件随机场模型,在四项封闭测试中取得2项第一、1项第二和1项第三。以上两队,采用的都是基于字标注的分词系统。,Bakeoff 2005(2),GATE的中文分词评测取得的名次为3、5、5、6、8、9、13、14。GATE中文分词的插件名为Chinese Segmenter PR,基于GATE研究人员参加Bakeo

13、ff 2005中文分词任务的工作。采用PAUM算法,从Bakeoff 2005训练语料(北大和台湾中研院提供)学习得到的PAUM模型,可以直接从网上下载。无论是训练语料还是生成的切分好的文本,以空格表示切分。注意训练语料与被切分文本的字符编码要保持一致。运行时参数:,Bakeoff 2006,黄昌宁,赵海等代表微软亚洲研究院(MSRA)参加6项赛事(没有参加MSRA提供语料的2项赛事),取得4个第一,2个第三。其余4个第一,各被一家夺走。至少获得一个第一名的系统,共有5个,称这5家单位为top-5。下表为top-5的情况:,s,Bakeoff 2007 概况,以上CRF模型都采用免费工具CRF

14、+实现,Bakeoff 2007 香港城市大学,“Character tagging becomes a prevailing technique for this kind of labeling task for Chinese language processing,following the current trend of applying machine learning as a core technology in the field of natural language processing.”赵海标注集分词:沿用MSRA在Bakeoff 2006的6词位标注(B,B1,B

15、2,M,E,S)对于命名实体识别的标注集,举例如下:特征模板集对于分词和命名实体识别封闭测试,采用同样的特征模板集:除以上特征模板,还包括“无监督切词器的输出”,Bakeoff 2007 香港城市大学,在Bakeoff 2006数据上的实验,展示了CRF模型计算的开销:,CRF的计算负载一般要比ME高一个数量级 赵海,赵海的博客,Bakeoff 2007 MSRA&NEU,Basic CRF Tagger标注集:沿用MSRA在Bakeoff 2006的6词位标注特征模板集:在MSRA Bakeoff 2006的基础上增加了Word FlagWord Based Segmenter对每句,用三元

16、语言模型切词,选择概率最大的3种方式。对某个字,如果基于字的标注的概率小于某个阈值,则使用基于词的标注,用以提高已登录词的召回率。但是,如果该字基于词的标注是“独立成词”,那么使用基于字的标注。这种做法的原因是:基于词的标注常常将未登录词切分为单字。Post-processing Rule处理一种特定情况:一个未登录词常常被分为多个词。处理当前句子时,缓存前20个句子,如果存在2-7个字组成的字符串重复出现,次数超过阈值,且这个字符串没有在训练数据中出现过,那么这个字符串加入候选词。,Bakeoff 2007 法国电信北京研发中心,Problems of NER with only local

17、 information“Many empirical approachesmake decision only on local context for extract inference,which is based on the data independent assumption.But often this assumption does not hold because non-local dependencies are prevalent in natural language.”Observation from Experiments:There are many seen

18、 named entities are missed;At least 10%of unseen and missed named entities have been labeled out correctly for at least once.“If the context surrounding one occurrence of a token sequence is very indicative of it being an entity,then this should also influence the labeling of another occurrence of t

19、he same token sequence in a different context that is not indicative of entity”.,Bakeoff 2007 法国电信北京研发中心,Bakeoff 2007 法国电信北京研发中心,Local FeaturesUnigram:Cn(n=-2,-1,0,1,2)Bigram:CnCn+1(n=-2,-1,0,1)and C-1C10/1 FeaturesAssign 1 to all the characters which are labeled as entity and 0 to all the character

20、s which are labeled as NONE in training data.In such way,the class distribution can be alleviated greatly,taking Bakeoff 2006 MSRA NER training data for example,if we label the corpus with 10 classes,the class distribution is:0.81(B-PER),1.70(B-LOC),0.95(BORG),0.81(I-PER),0.88(I-LOC),2.87(I-ORG),0.7

21、6(EPER),1.42(E-LOC),0.94(E-ORG),88.86(NONE)if we change the label scheme to 2 labels(0/1),the class distribution is:11.14(entity),88.86(NONE),Bakeoff 2007 法国电信北京研发中心,Non-local FeaturesToken-position features(NF1)These refer to the position information(start,middle and last)assigned to the token sequ

22、ence which is matched with the entity list exactly.These features enable us to capture the dependencies between the identical candidate entities and their boundaries.Entity-majority features(NF2)These refer to the majority label assigned to the token sequence which is matched with the entity list ex

23、actly.These features enable us to capture the dependencies between the identical entities and their classes.So that the same candidate entities of different occurrences can be recalled favorably,and their label consistencies can be considered too.Token-position features&entity-majority features(NF3)

24、These features capture non-local information from NF1 and NF2 simultaneously.,技术进步背后的理念更新,中文的词语只应有一个标准,还是可以有多个标准并存?中文词语是被怎样精良定义的?规范+词表+大规模标注语料库字本位,还是词本位?,目录,引言关键问题ICTCLAS评测由字构词总结,由字构词,每个字在构造一个特定的词语时,都占据着一个特定的构词位置(词位)。把分词视为字的词位分类问题。词位分类词首B占领词尾E抢占词中M独占鳌头单字词S已占全国分词结果上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。

25、词位标注上/B海/E计/B划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/M美/M元/E。/S,由字构词背后的思想,“,the POC tags reflect our observation that the ambiguity problem is due to the fact that a hanzi can occur in different word-internal positions and it can be resolved in context.”Nianwen Xue中文词一般不超过4个字,所以字位的数量很少。

26、部分汉字按一定的方式分布。利用相对固定的字推断相对不定的字的位置问题,如:“们”总是出现在一个词里最后的位置,由此可以推断:“们”与前面的字结合成词;“们”后面的字是下一个词的开头。虽然不能将所有的词列入词典,但字是基本稳定的。,由字构词方法的构词法基础(1),能产度(Productivity)令,任意字 在词位 下的能产度可定义如下:主词位对于任意一个字,如果它在某个词位上的能产度高于0.5,称这个词位是它的主词位。MSRA2005语料中具有主词位的字量分布:,由字构词方法的构词法基础(2),自由字并不是每个字都有主词位,没有主词位的字叫做自由字。除去76.16%拥有主词位的字,仅有大约23

27、.84%的字是自由的。这是基于词位分类的分词操作得以有效进行的基础之一。,由字构词方法的实验数据(1),以下数据摘自N.Xue and L.Shen.2003.实验概况数据来源:Penn Chinese Treebank,由新华新闻专线文章构成。训练数据:237,791词(404,680字)测试数据:12,598词(21,612字),未登录词占3.95%实验1a,正向最大匹配算法实验1b,正向最大匹配算法+测试数据得到的词典实验2,最大熵模型+字位标注,由字构词方法的实验数据(2),实验结果当有未登录词时,FMM算法的f值大大下降,而由字构词的方法仍然取得了很好的f值。在未登录词召回率方面,由

28、字构词方法的优越性就体现的更明显了。虽然未登录词没有出现在训练数据中,但是构成这些词的字出现过,所以基于这些字的分布,可以发现这些词。测试数据中,有137个人名(既有中国人名,也有外国译名,其中122个不同),119个被正确的切分,召回率为86.86%。总的来说,对于这个模型,长名更容易有问题。,无未登录词,2003年863评测中,人名识别召回率最高为78.07%,由字构词的优点,平衡的看待词表词和未登录词的识别问题。词表词和未登录词都是用统一的字标注过程来实现,既不必强调词表词信息,也不用专门设计特定的未登录词识别模块,使得分词系统的设计大大简化。,基于有效子串的中文分词,此方法参见赵海的论

29、文基于有效子串标注的中文分词。基于字标注的方法忽略了很多有意义的组合信息。如“北京”,高频而且固定,但是基于字标注的学习算法不能有效利用这一信息。利用迭代最大匹配过滤算法,构造子串词典使用截断频率抽取高频词利用生成子串词典对训练语料做最大匹配切分如果切分跨越了训练语料中的切分,如“中医疗法”,则从词典中去掉该词重复检查双词典最大匹配算法使用子串词典,对测试语料进行最大匹配切分保证以上切分不跨越辅助词典中的词将以上切分出来的子串的各部分,用做子串标注单元使用基于字标注的方法,对子串进行标注,Word Boundary Decision Segmentation Model,Chu-Ren Hua

30、ng,Institute of Linguistics,Academia SinicaThe WBD model treats word segmentation as a binary decision on whether to realize the natural textual break between two adjacent characters as a word boundary.Context:abcdInterval:Unigrams:b,cBi-grams ab,bc,cdVector:Advantages:F,robust,space and time cost,目

31、录,引言关键问题ICTCLAS评测由字构词总结,总结,国际中文自然语言处理Bakeoff为中文分词技术提供了一个公开、可比的评测平台,推动了中文分词技术的进步。基于字标注的方法通过改进未登录词识别能力,提升了分词系统的总体性能。“基于字标注的方法+机器学习”成为中文分词主流技术。,中文分词给我们带来的机遇,目前研究中文分词的科研单位有:中科院、清华、北大、哈工大、北京语言学院、东北大学、IBM研究院、微软亚洲研究所。企业有:海量科技。因为中文需要分词,所以会影响一些研究,但同时给一些企业带来机会。因为国外的企业想要进入中国市场,首先要解决中文分词问题。而中文研究方面,中国人有明显的优势。,值得

32、进一步研究的工作,中文分词CRF+基于字标注的方法ME+基于字标注的方法分词的颗粒度基于边界标注的方法中文词性标注中文分词和词性标注一体化系统HHMM(参照ICTCLAS),参考文献(1),宗成庆.统计自然语言处理.清华大学出版社,2008.黄昌宁,赵海.中文分词十年回顾.中文信息学报,2007,21(3):8-19.黄昌宁,赵海.由字构词中文分词新方法 A.中文信息处理前沿进展中国中文信息学会二十五周年学术会议论文集 C,2006.孙茂松,邹嘉彦.汉语自动分词综述J.当代语言学,2001,3(1),22-32.杨尔弘,方莹等.汉语自动分词和词形评测.中文信息学报,2006,20(1):44-

33、49.赵海.对于bakeoff-3的简单综述.http:/王开铸.关于歧义字段切分的思考与实验.中文信息学报,1998,第2期,63-64.常宝宝.现代汉语词语切分研究.刘开瑛.中文文本自动分词和标注.商务印书馆,2000,6667.孙茂松,左正平等.高频最大交集型歧义切分字段在汉语自动分词中的作用.中文信息学报,1999,第1期,27-34页.,参考文献(2),Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing.Sproat R.,Shi,C.et al.A Stochastic finite-sta

34、te word segmentation algorithm for ChineseJ.Computational Linguistics,1996,22(3):377-404.Hua-Ping Zhang,Qun Liu,Xue-Qi Cheng,Hao Zhang and Hong-Kui Yu.Chinese Lexical Analysis Using Hierarchical Hidden Markov Model.proceedings of 2nd SigHan Workshop,August 2003,pp.63-70.N.Xue and L.Shen.2003.Chinese word segmentation as LMR tagging.In Proc.Of SIGHAN Workshop.,推荐一个找论文的网站,ACL Anthology Network The network is currently built using 13706 of the ACL papers.This includes all papers up to and including those published in November 2008 which were successfully processed.,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号