中文同义词自动抽取研究ppt课件.ppt

上传人:sccc 文档编号:5809504 上传时间:2023-08-22 格式:PPT 页数:27 大小:2.55MB
返回 下载 相关 举报
中文同义词自动抽取研究ppt课件.ppt_第1页
第1页 / 共27页
中文同义词自动抽取研究ppt课件.ppt_第2页
第2页 / 共27页
中文同义词自动抽取研究ppt课件.ppt_第3页
第3页 / 共27页
中文同义词自动抽取研究ppt课件.ppt_第4页
第4页 / 共27页
中文同义词自动抽取研究ppt课件.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《中文同义词自动抽取研究ppt课件.ppt》由会员分享,可在线阅读,更多相关《中文同义词自动抽取研究ppt课件.ppt(27页珍藏版)》请在三一办公上搜索。

1、中文同义词自动抽取研究,南京师范大学计算机学院自然语言处理小组曹冉 孙玉霞 狄颖指导老师:曲维光 周俊生,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,同义词词林(扩展版),在同义词词林(扩展版)中,编码末尾为=的词语集合表示的是同一个语义。因此,目标词的同义词即为包含目标词的编码末尾为=的词语集合。,目标词“规则”对应的同义词集合:,目录,基于语

2、义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,中文概念词典 CCD,CCD中使用Synset字段来描述概念。但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。一个词语也可能出现在多个Synset中。,如目标词“爱好”:,基于中文概念词典,本文提出基于典型同义词的过滤方法。基本思想:在包含目标词的Synset中统计出典型同义词。使用典型同义词按照一定规则在Synset中过滤出同义词。,典型同义词统计方法,典型同义词统计方法,基于典型同义词的过滤算法,最终“爱好”的同义词为 嗜好,喜好,业余

3、爱好,偏好,偏爱,偏袒,喜欢。,基于语义词典-实验结果,基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,基于模式匹配方法-基本思想,在互联网上抓取目标词的百度百科词条在百科词条概述中,利用人工提取的“目标词+模式词+候选同义词”模式取得高质量同义词。利用高质量同义词在百科全文中获取限定语料

4、,自动提取出上下文环境模式。利用目标词和上下文环境模式提取同义词。,基于模式匹配的方法,人工模式提取基于770个词条百科,手动进行模式提取,这里的模式是指同义词提示词。,基于模式匹配的方法,自动模式获取基于百科全文获取包含同义词词对的句子。在获得的句子集合上,提取左右词语列表、左三元组列表,并根据获得的列表进行同义词穷尽自动抽取。如下表所示:,基于模式匹配的方法-规则过滤,由于网络资源存在不规范性,需要对获取到的同义词进行筛选。筛选方法:首先对获取到的同义词进行分词,然后使用如下规则进行筛选:规则1 若候选同义词是一个完整的分词结果,同义词有效。规则2 若候选同义词分词结果中包含 共和国,市,

5、州,镇,县,郡,帝国 中任一后缀,同义词有效。规则3 若候选同义词分词结果是两个字数词性一致的词语,同义词有效。规则4 若候选同义词分词结果包含目标词语,同义词无效。上述四个规则,优先度依次递减。,基于模式匹配的方法-实验结果,对于给定的9455个目标词,其中有8268个词语能够获取到对应的词条百科。基于词条概述能够获取到同义词的有815个目标词。,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,基于并列结构的方法-基本思想,并列结构包含的两个词语一般有共同的形态,语义相似或相关,中间使用“和,

6、或,逗号,顿号”等并列连词进行连接。假设并列结构包含的两个词语中一个是目标词,则另一个可以作为该目标词的候选同义词。采用基于词素和知网的方法进行过滤,提高同义词抽取的正确性。,“责任感”与“责任心”“责任感”与“事业心”则不是。相同数为0。文档-文件-档案-案例,基于并列结构的方法,基于并列结构的方法,基于并列结构的方法-实验结果,对于给定的9455个目标词,其中有2026个能够通过并列结构的方法获取到对应的同义词。,目录,基于语义词典的方法基于同义词词林(扩展版)基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法,同义词传递性扩充,对于获取到的同义词,可能有交叉现象。例如:然而并不是所有含有相同同义词的两个目标词都应该合并。例如:,传递性验证规则,测评结果,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号