《《中文分词》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《中文分词》PPT课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、1,3.4 中文分词原理,2,【目录】,什 么 是 中 文 分 词,查 询 处 理,分 词 技 术 分 析,应 用 举 证,分 词 技 术 概 述,1,2,3,4,5,为什么要分词,英文Knowledge is power单词之间有空格,很容易进行词语的匹配。,中文的语义与字词的搭配相关,和服务必于三日之后裁制完毕王府饭店的设施和服务是一流的,杭州市长春药店杭州市长春药店,中文的语义与字词的搭配相关,后人又有人写:1、下雨天留客,天留,我不留。2、下雨天留客,天留我不留。3、下雨天,留客,天留,我不留。4、下雨天,留客,天留我,不留。5、下雨天留客,天留我不?留!6、下雨天,留客天,留我不留?
2、7、下雨天,留客天,留我?不留!8、下雨天留客,天!留我不?留!9、下雨天,留客!天!留我不留?,唐朝时,一个穷人到他朋友家去玩,这个穷人非常的聪明。又一天,下起了雨,这个朋友想让他快点回去,不好意思说,于是,写了一封信,但没加标点。这个朋友的意思是:下雨天留客,天留人不留。没想到,这位聪明的穷人在信中夹了标点,意思全变了:下雨天,留客天,留人不?留。,6,什么是中文分词,中文分词定义,上海/武警/总队/医院/地址,分词就是将一句话切分成一个个单词的过程.分词的目的是更加有效、准确的关键词索引。,中文分词概述,什么是分词?比如句子“内塔尼亚胡说的确实在理”,中文分词概述(Cont.),分词作用
3、互联网绝大多数应用都需要分词,典型应用实例汉字处理:拼音输入法、手写识别、简繁转换 信息检索:Google、Baidu 内容分析:机器翻译、广告推荐、内容监控 语音处理:语音识别、语音合成,基于关键词的口碑分析,客户:某知名全国连锁餐饮品牌需求:自身及竞争对手在互联网上的口碑变化,2023/7/9,2023/7/9,11,Part 2,【接受用户查询后做了哪些事情】,查询处理,12,用户提交字符串小于3个字符,用户提交字符串多于3个字符,提交的中文查询包含英文单词,查询处理,用户查询方式,13,查询处理,小于等于3个字符串,皮肤病,用户查询方式,皮肤病,14,查询处理,用户查询方式,小于等于3
4、个中文汉字,将直接调取数据库中索引的词汇,注,15,查询处理,用户提交了不止一个查询串多于3个字串符,上海皮肤病医院,用户查询方式,上海/皮肤病/医院,上海皮肤病/医院,上海/皮肤病医院,上海皮肤病医院,16,查询处理,用户查询方式,大于等于4个中文汉字,搜索引擎会默认将所有字符串按词分隔开,分成若干子查询串,注,17,查询处理,提交的中文查询包含英文单词,用户查询方式,Iphone手机,Iphone/手机,Iphone手机,18,查询处理,用户查询方式,当提交的中文查询包含英文单词时,查询结果会将英文单词优先完整展现,即使查询的单词不存在,也会当做一个字符处理,不会进行拆分,注,中文分词概述
5、(Cont.),分词难点歧义无处不在交叉歧义(多种切分交织在一起)内塔内亚胡说的/确实/在理组合歧义(不同情况下切分不同)这个人/手上有痣我们公司人手真歧义(几种切分都可以)乒乓球拍/卖/完了乒乓球/拍卖/完了,中文分词概述(Cont.),分词难点新词层出不穷人名、地名、机构名奥巴马 表哥 房叔网名你是我的谁 旺仔小馒头公司名、产品名摩托罗拉 谷歌 爱国者 腾讯 网易 新浪诺基亚C5 尼康D700,中文分词概述(Cont.),分词难点普通词与新词互用高明表演真好(演员)/他的表演很高明汪洋到深圳检查工作/洞庭湖一片汪洋普通词与新词交织在一起克林顿对内塔尼亚胡说胡锦涛听取龚学平等同志的汇报,中文
6、分词概述(Cont.),分词难点(需要重新处理)需求多种多样切分速度:搜索引擎VS单机版语音合成结果呈现:切分粒度要求不同:机器翻译VS搜索引擎分词重点要求不同:语音合成VS搜索引擎唯一结果VS多结果:语音合成VS搜索引擎新词敏感度不同:语音合成VS搜索引擎处理对象:书面文本(规范/非规范)VS口语文本硬件平台:嵌入式VS单机版VS服务器版,23,Part 3,【都有哪些分词技术】,分词技术概述,24,Part 3,分词技术概述,目录,基于字典的分词方法,基于统计的分词方法,基于词义分词方法,25,Part 3,基于字典的分词方法,按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹
7、配,若在词典中找到某个字符串,则匹配成功,概 念,26,Part 3,基于字典的分词方法,第一页,最后一页,27,正向最大匹配法,反向最大匹配法,最短路径分词法,基于字典的分词方法,常用方法,28,正向最大匹配法,中医治白癜风,中医/治/白癜风,基于字典的分词方法,正向最大匹配法,29,反向最大匹配法,中医治白癜风,中/医治/白癜风,基于字典的分词方法,反向最大匹配法,30,最短路径分词法,中医治白癜风,中医/治白癜风,基于字典的分词方法,最短路径分词法,31,基于字典的分词方法,常用方法,采用最短路径分词方法,因词典中没有“治白癜风”这个词组,所以从用户体验考虑,调取了字典中意思相近、用户搜
8、索量大的词“治疗白癜风”、“治愈白癜风”,注,32,基于统计的分词方法,相邻的字同时出现的次数越多,就越有可能构成一个词,优点,用于系统自动识别新词,缺点,对常用词的识别精度差,例如:你的、我的、许多的、最好的、之一,常用方法,统计分词,生成式统计分词判别式统计分词,生成式分词,原理首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理两个假设前提马尔可夫假设当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。输出独立性假设当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。,生成式
9、分词(Cont.),学习素材,句子,切分结果,分词知识库,分词词典,生成式分词(Cont.),分词过程实例第一步:全切分,生成式分词(Cont.),第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率P1=P(说|他)*P(的|说)*P(确实|的)*P(在理|确实)*P($End|在理)P2=P(说|他)*P(的确|说)*P(实在|的确)*P(理|实在)*P($End|理)第三步:选择概率最大的路径 为切分结果,生成式分词(Cont.),优点在训练语料规模足够大和覆盖领域足够多的情况下,可以获得较高的切分正确率(=95%)不足需要很大的训练语料新词识别能力弱解码速度相对较慢,
10、统计分词,生成式统计分词判别式统计分词,判别式分词,原理在有限样本条件下建立对于预测结果的判别函数,直接对预测结果进行判别,建模无需任何假设。由字构词的分词理念,将分词问题转化为判别式分类问题典型算法MaxentSVMCRFPerceptron优势能充分利用各种来源的知识需要较少的训练语料解码速度更快新词识别性能好,判别式分词(Cont.),由字构词把分词问题转化为确定句中每个字在词中位置问题每个字在词中可能的位置可以分为以下三种 词首B(日本 占领 了 东三省)词中M(游泳 比赛 菲尔普斯 独占鳌头)词尾E(中国队 抢占 了 风头)分词结果形式化分词结果:毛/B新/M年/E2/B0/M0/M
11、0/M年/E毕/B业/E/于/B东/B北/M大/M学/E还原:毛新年/2000年/毕业/于/东北大学,判别式分词(Cont.),学习素材,句子,切分结果,分词知识库,判别式分词(Cont.),特征所涉及的语言学知识列表字的上下文知识形态词知识:处理重叠词、离合词、前后缀仿词知识:2000年成语/惯用语知识普通词词典知识歧义知识新词知识/用户词典新词的全局化知识,判别式分词(Cont.),优点理论基础扎实解码速度快分词精度高新词识别能力强所需学习素材少弱点训练速度慢需要高配置的机器训练,我们即将以昂扬的斗志迎来新的一年。,2023/7/9,依存句法分析标注关系(共15种)及含义,2023/7/9
12、,在家禽摊位中,有一个摊位专卖乌骨鸡。,2023/7/9,49,概 念,尚不成熟,试验阶段,通过让计算机模拟人对句子的理解,达到识别词的效果,基于理解的分词方法,常用方法,50,Part 4,【实例举证】,分词技术分析,51,分词技术分析,百度匹配结果:,皮肤/医院,52,分词技术分析,正向最大匹配:,解小东/北京/华/烟云,反向最大匹配:,解/小/东北/京华烟云,百度实际匹配结果:,解小东/北/京华烟云,解小东/北京,53,分词技术分析,正向最大匹配:,相同/仁/医院/墙,正向最大匹配:,反向最大匹配:,相/同仁/医/院墙,百度实际匹配结果:,相/同仁医院/墙,54,结 论,分词技术分析,百
13、度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名、书名、地名、影视剧名等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。,古巴比伦常,正向最大匹配:古巴比伦/常,反向最大匹配:古巴/比/伦常,百度输出结果:古巴比伦/常,如果正向和反向结果不一致百度采取最短路径方法,55,分词技术分析,首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的那个结果,如果最短路径长度相同,则选择单字词少的那一组切分结果。如果单字也相同,则选择正向分词结果,56,分词技术分析,用
14、专用词典切出专有名词剩下部分进行双向分词,如果单字也相同取正向匹配结果,如果最短路径相同取单字词少的那一组切分结果,如果不同,取最短路径结果,如果相同,说明没有歧义,输出结果,57,Part 5,【常见切词效果】,应用举证,58,应用举证,【常见切词效果】,白癜风 上海 白癜风 治疗中心 治疗 白癜风 最好的 医院-上海武警总队医院,A、白癜风B、上海白癜风C、上海白癜风治疗D、上海白癜风治疗中心,E、治疗白癜风最好的医院F、上海治疗白癜风最好的医院G、上海白癜风治疗医院H、上海白癜风医院,59,上海皮肤病医院_长宁区白癜风_闵行牛皮癣_皮肤科医院 武夷路_闸北保德路 黄埔 徐汇 静安 奉贤
15、宝山 嘉定 杨浦 虹口 松江 金山 普陀 浦东新区 青浦区最好的皮肤病专科医院,A、上海皮肤病医院B、上海皮肤科医院C、上海皮肤病医院 武夷路D、上海皮肤病专科医院,E、上海皮肤病医院 保德路F、长宁区白癜风医院G、长宁区皮肤科医院H、.,应用举证,【常见切词效果】,60,网页的Title长度根据关键词匹配的数量和热度而定,好比一个页面只做两三个竞争度强的词,那么Title就应该尽量控制在30字以内,因为关键词拆分得越多,就意味着需要匹配得越多,而匹配的越多,对排名值的贡献会减弱。而第二个例子中,之所以Title标题会高于70字,也是根据情况而定,因为70字中所匹配的关键词除了第一个出现的完全
16、匹配的关键词“上海皮肤病医院”词以外,其他词相对而言竞争度都非常小,所以切词匹配后能排名的几率仍然非常高,为什么要完全匹配?,应用举证,【常见切词效果】,61,网站首页Title根据网站定位可以参考此类写法,但文章内页一般一篇文章只做1-2个长尾词,所以切不可将标题写的和例2中一样太过于冗长而影响用户体验,同时网站内页也没有如此高的权重能带起那么多长尾词的排名。文章内页Title一般一句话能匹配出2个长尾词就足够了,常见的是一句话匹配一个词,注:,应用举证,【常见切词效果】,62,注:,脸上长白斑怎么办,小腿有白点,搜索词:,应用举证,【常见切词效果】,63,标题中的关键词不一定非得完全匹配,
17、但关键词汇一定要在标题中有关联的出现,应用举证,64,完全匹配,包含主要关键词“皮肤”、“过敏”的相关匹配同样能展现,应用举证,65,主要关键词要放在标题和描述的最前面,关键词越靠前切词时获得的权重越高,排名越好,应用举证,66,通过梯形图很容易看出,关键词出现位置越靠前排名越好,应用举证,67,关键词出现的频率同样是排名的关键,关键词出现密度高的网页将会获得好的排名,应用举证,68,A网站比B网站关键词出现密度显然要高,所以略占优势,完全匹配,A,B,提示:如果是在完全匹配的情况下,关键词密度应该要严格控制。标题中关键词精确匹配一次,短语匹配一次为佳,描述中关键词精确匹配和短语匹配可以和标题
18、一样穿插使用出现1-3次。如果完全匹配的关键词如果放到标题或内容的最后面,其排名未必见得会高于那些短语匹配出现密度高的关键词的排名,应用举证,69,总 结,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,因为用户搜索的词或是词中某个字符串和搜索引擎词典中的某个字符串匹配成功,那么包含这些字符串的网页将会被罗列出来,基于字典的分词方法,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果,?,?,70,总 结,为什么一再强调文章的标题要和文章主旨相符,?,除用户体验外因素外,另一个因素是因为通过搜索引擎对标题以及内容的了解,在标
19、题语义和句法的分析上能够更准确,从而避免分词时增加歧义错误率的发生,基于词义的分词方法,71,总 结,为什么一再强调文章中关键词的出现密度,?,能加强搜索引擎对新词的识别能力,更好的识别文章中的主要关键词是什么,同时也降低了将主要关键词进行错误切词的概率,基于统计的分词方法,内容提要,分词概述分词技术发展国际分词评测分词技术总结,分词系统,ICTCLAS这可是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API
20、不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C+编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C+、C#、Delphi、Java等主流的开发语言。,分词系统,CC-CEDICT一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。IKIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的
21、,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。PaodingPaoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率和 高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒可准确分词 100万汉字。采用基于 不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析。仅支持Java语言。,分词系统,MMSEG4JMMSEG4J基于J
22、ava的开源中文分词组件,提供lucene和solr 接口:1mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。2MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。盘古分词盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本)和HubbleDotNet的接口 高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒 准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。,分词技术总结,分词系统,2023/7/9,可以看出,在所测试的四个数据集上,BosonNLP和哈工大语言云都取得了较高的分词准确率,尤其在新闻数据上。,2023/7/9,2023/7/9,哈工大语言云:语言技术平台,2023/7/9,2023/7/9,