《词汇语义关系评测.ppt》由会员分享,可在线阅读,更多相关《词汇语义关系评测.ppt(15页珍藏版)》请在三一办公上搜索。
1、词汇语义关系评测,吴云芳 万富强 周蜜北京大学计算语言学研究所2012-12-2,纲要,任务描述评测数据的准备评测数据的标注参赛系统的结果存在问题进一步工作展望,缘起,词汇语义信息是自然语言处理中很重要的资源,是进一步进行句法和语义分析的基础。在信息检索中的查询扩展、机器翻译中的模块识别等方面,相似词都是不可或缺的知识资源;在句法分析、词义消歧等信息处理任务中,词语相似度也发挥着重要的作用。而相似度词典的手工构建是一项费时费力的浩大工程,存在着不易更新、覆盖度不全等诸多缺陷。,任务描述,任务一:同义词发现文件文书文本文牍公文文献档案文档任务二:下位词发现 算法分治法 动态规划法 贪心法 回溯法
2、,同义词词语的选词范围,去重之后得到 9464 个同义词词语。,下位词词语的选词范围,去重之后得到 9354 个上下位词词语。,评测数据的准备,综合各家结果,求并集;对同义词集/下位词集结果进行简单的统计:结果数据.xlsx选取评测的目标同义词;人工标注:北京大学中文系语言学专业硕士研究生 同义词集投入了更多的时间,同义词目标词的选择,去重之后得到 3129个目标词,作为人工标注的对象词语。,人工标注后,删除没有同义词的目标词,最终得到778个评价词。,尽量涵盖不同来源、不同类型的词语。,下位词语目标词的选择,然后再选择下位词数在2,99之间的目标词1076个,作为人工标注的对象。,人工标注后,删除没有下位词的目标词,最终得到256个评价词。,尽量选择有潜在下位词的目标词。,参赛系统,报名:23个队伍参赛:同义词8队10组结果 上下位词4队5组结果,参赛系统的结果同义词,参赛系统的结果下位词,存在问题,自动获取的准确率不高人工标注的时间花费大人工标注的难度大:同义词如何来定义?标注的一致性如何来把握?,进一步工作展望,同义词是非常重要的基础资源各位老师同学都有较大的兴趣和爱好是否有可能联合构建大规模的同义词资源?,谢 谢!,