基于知网的汉语问句分类.doc

上传人:sccc 文档编号:5192613 上传时间:2023-06-12 格式:DOC 页数:6 大小:596.67KB
返回 下载 相关 举报
基于知网的汉语问句分类.doc_第1页
第1页 / 共6页
基于知网的汉语问句分类.doc_第2页
第2页 / 共6页
基于知网的汉语问句分类.doc_第3页
第3页 / 共6页
基于知网的汉语问句分类.doc_第4页
第4页 / 共6页
基于知网的汉语问句分类.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《基于知网的汉语问句分类.doc》由会员分享,可在线阅读,更多相关《基于知网的汉语问句分类.doc(6页珍藏版)》请在三一办公上搜索。

1、精品论文大全基于知网的汉语问句分类贾可亮 12,樊孝忠 1,陈康 1,许进忠 11. 北京理工大学计算机学院,北京(100081)2. 山东经济学院信息管理学院,山东济南(250014)摘要:提出了一种基于知网语义相似度和语义相关度的问句分类新方法,该方法主要使用 句子的语义信息,利用知网的义原分类树计算问句之间的相似度和利用语义场计算句子间相 关度,引入最近邻算法进行问句分类。实验结果表明了该方法的有效性,利用 TREC2004 问 句集翻译的中文问句集进行测试,在 6 个小类的分类精度达到了相似度分类 88.8%和相关度 分类 85.8%。关键词:问句分类、知网、语义相似度、语义相关度1引

2、言随着互联网技术的迅速发展,互联网上的信息越来越丰富,但是人们发现通过搜索引擎 来获取与用户查询相关的信息也越来越困难。传统的搜索引擎是用户提供一系列与查询相关 的关键词,返回相关的网页列表。但在实际情况下用户可能更倾向于用自然语言描述问题。 例如“第一个登上月球的人是谁?”自动问答系统就是对于自然语言问题能够从大规模的文 本集中抽取出精确答案的系统,是目前自然语言处理研究的一个热点,也是 TREC 会议最受 关注的主题之一。一个典型的问答系统包括:问句分析,信息检索,侯选答案的抽取和答案选择四个主要 模块。问句分析主要包括问句分类,关键词提取等;信息检索模块主要是利用问句分析的结 果检索相关

3、的文本、段落或句子;侯选答案抽取模块就是在第二步的基础上抽取侯选答案; 答案选择模块就是对侯选答案进行排序,并选择出最佳答案。问句分类就是根据答案的类型把问题划分为相应的语义类别,是问句分析中的一个重要 模块。这主要体现在两个方面:第一,问句分类能够决定答案的语义,有效地减少侯选答案 的空间。例如,当用户查询“第一个登上月球的人是谁?”这个问题属于特定人物类,在答案 抽取时系统主要考虑人名,有效地减少了侯选答案的空间。第二,问句分类能够决定答案选 择的策略,根据不同的问题类型调用不同的答案选择策略,因为没有一种方法能够适用于所 有问题。由此可见问句分类是问答系统的重要组成部分,其结果直接影响问

4、答系统的质量。对于问句分类的研究,最初的方法主要是基于规则的方法1,2,3,4 。例如下面的两条 规则来自于4:Whatis|are ?What is the definition of ?这两个问句都是问定义的。手工编写规则的方法耗费了大量的人力和时间,并且其可移 植性差。手工编写的规则在一个问句集上效果很好,而在另一个问句集上效果可能很差,需要重新修改这些规则,造成规则修改维护的困难。 现在基于统计的机器学习方法占到了主导地位,如 SVM5,6,7,8,SNoW9,10,最大熵模型11,改进贝叶斯模型12等。其中 Xin Li9,10等人提出层次分类的思想,主要选择词汇、 词性、语块(ch

5、unk)、命名实体(NE)、中心语块(head chunk)、相关词(related word)作 为特征,利用 SNoW 分类器,对 6 个大类和 50 个小类分类的精确率分别达到了 91%和 84.2%。 本课题得到教育部博士点基金资助(No.20050007023)。-6-Dell Zhang 提出采用 SVM5进行分类,利用 tree kernel 提取特征,最终达到 6 个大类 90.0% 的分类精度。李鑫13等提出的利用句法信息和语义信息作为分类特征,采用 VSM 使得大类 的分类精度达到了 91. 6%。以上部分研究都是对英文问句进行分类。文献8采用词、词性、 词汇语义、结构信息

6、、n-gram 特征及关联度信息,以 VSM 为分类器对汉语问句进行分类,也达到了较高的准确率。本文主要提出了基于知网语义相似和语义相关的问句分类方法。第二部分介绍汉语问句 分类体系;第三部分介绍知网以及如何利用知网进行语义相似度和语义相关度的计算;第四 部分给出实验结果及分析;第五部分是总结和展望。2汉语问句分类体系由于汉语问句很复杂,本文重点研究简单陈述问句的分类问题。汉语问句分类的目标是 根据实际问句特征将其归为一定集合的汉语问句类型中的一种。由于当前汉语问句分类没有 统一的标准,本文根据汉语问句自身的特点,并结合参考英文问句分类文献5,8,9中的 分类标准将汉语问句分为两个层次,第一层

7、 7 个大类,每个大类下面又分为许多小类,共60 多个小类,具体如下表。表 1 本文的问句分类体系大类小类缩写缩写 表达式人物特定人物 团体机构 人物描述 人物列举 人物其他地点星球 城市 国家 大陆 省 河流 湖泊 山脉 海洋 岛屿 地点列举 地址 其他数量编码 总数 价格 百分比 速度 温度 年龄 距离 重量 面积 范围 顺序 频率 数字列举 数字其他时间日期 时间 时间范围 时间列举 时间其他实体动物 植物 食物 身体 疾病 事件 机械 仪器 交通工具 语言 宗教 货币 颜色 术语 其他描述定义 描述 方式 原因 其他描述3知网及语义相似度和相关度计算知网(Hownet)14是一个以汉语

8、和英语的词语所代表的概念为描述对象,以揭示概念 与概念之间以及概念所具有的基本属性之间的关系为基本内容的常识知识库。知网对汉语词 汇的描述是基于“义原”这一基本概念,义原可以被认为是汉语中最基本的不易于分割的最小 语义单位。由于汉语中词在不同的语境中会表达不同的含义,因此 Hownet 把汉语中的词理 解为若干个义项的集合。知网语义词典中每条记录都是由一个词的一条义项及其描述所组 成,既一条记录对应一个词语的一个义项,而每一个义项又是由多个义原来描述的。3.1 知网语义的相似度计算3.1.1 义原的相似度计算15Sim( p1 , p2 ) =2 Spd ( p1 , p2 )Depth( p

9、1 ) + Depth( p2 )(1)其中 p1,p2 表示两个义原,Spd ( p1 , p2 ) 为 p1,p2 两个义原的重合度, Depth( p) 为义原在义原层次体系中的深度。3.1.2 概念词的相似度计算知网中实词概念(义项)可以分为 4 个部分:第一基本义原描述式,DEF 项中的第 一个义原;其他基本义原描述式,DEF 项中除第一独立义原以外的所有其他独立义原或 具体词;关系义原描述式,DEF 项中用“关系义原=基本义原”或者“关系义原=(具体词)”或 者“(关系义原=具体词)”描述概念的部分;符号义原描述式,DEF 项中用“关系符号 基本 义原”或者“关系符号(具体词)”描

10、述概念的部分。在此,把两个概念这四部分对应的相似度分别记为 Sim1 (C1 , C2 ) 、Sim2 (C1 , C2 ) 、Sim3 (C1 , C2 ) 、和 Sim4 (C1 , C2 ) 。同时,令概念词 的整体相似度为:4Sim (C1 , C 2 ) = 1 Sim 1 (C1 , C 2 ) + 1 i Sim i (C1 , C 2 )i = 2(2)其中, i (1 i 4) ,并满足: 1 + 2 + 3 + 4 = 1, 1 2 3 4 0 。3.1.3 汉语词的相似度计算两个汉语词语 W1 和 W2,如果 W1 有 n 个义项(概念):c11 , c12 c1n ,W

11、2 有 m 个义项:c21 , c22 c2 m 。规定 W1 和 W2 的相似度为各义项的相似度之最大值,即sim(W1 ,W2 ) =maxi =1n, j =1msim(s1i , s2 j )(3)3.1.4 汉语句子的相似度计算两个句子 S1 和 S2,S1 有 n 个词语: w11 , w12 w1n 。S2 有 m 个词语: w21 , w22 w2 m 。句子相似度计算方法是分别以两个句子的词集为基础,依次从一个集合中选取一个词分别跟另一个集合中的各个词计算相似度,挑选取得最大相似度的词对,循环直到第一个集合词为 空,然后把挑选出来的这些词对的相似度相加,除于第一个集合包含的词

12、数量,最后将分别 以两个集合为基础计算的结果平均得到两个句子的相似度,其计算公式如下: n m Sim(s1 , s2 ) = max Sim(w1u , w2v ) / n + max Sim(w1u , w2v ) / m / 2(4) u =1 1v m3.2 语义相关度计算v=1 1u n 语义相关度与语义相似度是两个不同的概念,它反映的是 两个词语相互关联的程度,可以用这两个词语在同一语境中共现的可能性来衡量。相关的词语的语义可能相近也可能相 反。定义 1 语义场:在知网中,给定一个词,选取其某个义项,所有与该义项具有相同 DEF的词构成了该词的语义场(DEF 是知网中概念词的定义)

13、。 例如,“漂亮”这个词,.选取“美”这个义原,那么与此相关的词是“标致”“美丽”“佳丽”“娟秀”“锦绣”“美观”“美妙”“秀丽”等一组词;如果选取“好”这个义原,那么与此相关的词是“高 明”“光辉”“精彩”“精采”“漂亮”等。以此构成词语“漂亮”的语义相关场。3.2.1 词语的语义相关度计算 可以认为两个词语义场中相同词的数量越多,这两个词越相关,并且相关度还与语义场的规模有关。因此用下式表示两个词的语义相关度。rel(w1 , w2) = | relevance(w1 ) relevance(w2 ) | relevance(w1 ) relevance(w2 ) |(5)relevanc

14、e(w) 表示词 w 所有义原语义相关场词语的并集,上式中分子、分母分别表示两个词语相关场交集和并集元素个数。3.2.2 句子相关度计算 汉语句子的相关度计算参考汉语句子的相似度计算 n m rel(s1 , s2 ) = max rel(w1u , w2v ) / n + max rel(w1u , w2v ) / m / 2(6) u =1 1vmv =1 1u n 4实验及结果分析4.1 数据集对于汉语问句分类没有统一的标准问句测试集和训练集。这里我们所说的问句集就是一 些按照一定问句分类体系标定问句类型的句子集合。TREC 会议自从 TREC-8 增加了 QA 测 试任务,每年都提供了

15、大量的英语问句集进行 QA 评测,为此我们采用 TREC200417免费 的问句集,然后通过翻译部分问句和对部分问句进行变换后形成汉语问句集的一部分。下面 是一个例子。原始英文问句:What is the tallest mountain? 翻译:最高的山峰是什么? 变换:世界上最高的山峰是什么?世界上哪座山峰最高? 哪座山峰最高?另外本文还从实验室以前开发的银行领域问答系统中抽取了部分问句以及从 Internet 上 收集了部分问句共同构成了我们的汉语问句集,共 1500 个问句。选取:城市、日期、特定人物、总数、钱数、定义六种小类进行测试。4.2 实验及结论我们从问句集中随机抽取 300

16、个问句作为测试集,其余的问句作为训练集。评测标准为 问句分类正确率。实验一:验证语义相关度和语义相似度对问句分类效果的影响 利用语义相似度和语义相关度分别对六种类型的问句进行测试。我们用 600 个问句作为训练集对 300 个问句进行测试。测试结果如下:表 2 语义相似度和语义相关度对问句分类的影响问句类别语义相似度方法语义相关度方法日期84.0%74.1%城市88.2%86.2%特定人物85.7%85.7%总数84.6%87.2%钱数85.1%87.0%定义84.7%87.5%实验结果表明,基于语义相关度的问句分类在日期、特定人物两种类型上比基于语义相似度的分类结果差,而在总数、钱数和定义三

17、种类型的分类结果比相似度分类要好。因此基 于语义相关度的问句分类总体上与基于语义相似度的问句分类性能差别不大,证明了本文提 出的两种分类方法都有一定的可行性。实验二:验证训练集规模对问句分类的影响表 3 不同训练集规模对问句分类的影响训练集规模问句类别6009001200相似度相关度相似度相关度相似度相关度日期84.0%74.1%85.2%74.1%87.6%75.3%城市88.2%86.2%88.2%88.2%90.1%88.2%特定人物85.7%85.7%88.1%86.9%89.3%88.1%总数84.6%87.2%86.7%87.2%87.2%89.7%钱数85.1%87.0%87.0

18、%87.0%88.9%88.9%定义84.7%87.5%86.1%87.5%87.5%88.9%实验结果表明语义相关度分类受问句集规模的影响较小,稳定性比较好。语义相似度分类结果受问句集规模影响较大,随着问句集规模的增加,分类精度提高,但是问句集规模的 扩大必然增加计算的开销,也可能带来一些数据噪声对分类结果产生影响。4.3 实验结果误差分析1有些问句的类别比较含糊,很难确定属于那种类别。例如“故宫在哪儿?”应该分为“城 市类别”还是“地址类别”?类似这样一些难于确定的问题给分类带来了一定的精度损失。这 类问句的正确分类需要更多的世界知识、背景知识、自然语言处理技术以及上下文环境知识。2知网知

19、识的不全面也对分类结果造成一定的影响。知网作为一个通用的世界知识库, 收录了 66000 多个词汇,但是还是有一些词汇没有包含进来,这些词汇没法进行相似度和相 关度计算,因此影响了分类精度。5总结本文提出的利用知网的语义相似度和语义相关度计算进行问句分类取得了相似度分类88.8%和相关度分类 85.8%的精度。下一步我们要考虑如何把语义块和命名实体识别等语义 信息作为分类特征以及提高问点和疑问词的权重,并尝试用其它机器学习方法,希望进一步 提高问句分类的精度。参考文献:1 Hull, D.: 1999, Xerox TREC-8 question answering track report.

20、 In: Proceedings of the 8th Text RetrievalConference (TREC-8).2 Lee, K.-S., J.-H. Oh, J. Huang, J.-H. Kim, and K.-S. Choi: 2003, TREC-9Experiments at KAIST: QA, CLIRand Batch Filtering. In: Proceedings ofthe 9th Text Retrieval Conference (TREC-9).3 Prager, J., D. Radev, E. Brown, A. Coden, and V. Sa

21、mn: 1999, The use of predictive annotation for question answering in TREC. In: Proceedings of the 8th Text Retrieval Conference (TREC-8).4 Pasca, M. and S. M. Harabagiu: 2001, High Performance Question/Answering.In: Research and Development in Information Retrieval. pp. 366-374.5 Dell Zhang, and Wee

22、 Sun Lee. Question Classification using Support Vector Machines. In Proceedings of the26th annual international ACM SIGIR conference on Research and development in information retrieval, Page:2632, Toronto, Canada, 2003.6 Jun Suzuki, Hirotoshi Taira, Yutaka Sasaki, and et al. Question Classification

23、 using HDAG Kernel. InProceeding of 6th Information-Based Induction Sciences, pp. 217-222, 2003.7 Donald Metzler and W. Bruce Croft Analysis of Statistical Question Classi_cation for Fact-based Questions8 Youzheng Wu, Jun Zhao, and Bo Xu Chinese Question Classification from Approach and Semantic Vie

24、ws9 Xin.Li, and D Roth. Learning Question Classification. In Proceedings of the 19th International Conference onComputational Linguistics, Taibai, 2002.10 Xin Li, Dan Roth, and Kevin Small. The Role of Semantic Information in Learning Question Classifiers. InProceedings of NLPKE2003, Beijing, 2003.1

25、1KrystleKocik.QuestionClassificationusingMaximumEntropyModels.Availableat http:/www.it.usyd.edu.au/research/news/kocik_summary.pdf.12Zhang Yu, Liu Ting, Wen Xu. Modified Bayesian Model Based Question Classification. In Proceeding of theFirst National Conference on Information Retrieval and Content S

26、ecurity, pp236-241, Shanghai, China, 2003.13 李鑫,杜永萍,等.基于句法信息和语义信息的问题分类A.第一届全国信息检索与内容安全学术会议C,复旦大学,2004,243-25114HowNetR.HowNets HomePage. 15 夏天 中文信息处理中的相似度计算研究与应用Chinese Qusetion Classification Based on HowNetJia Keliang1,2, Fan Xiaozhong1, Chen Kang1, Xu Jinzhong1(1 School of Computer Science and Te

27、chnology , Beijing Institute of Technology, Beijing 100081, China)(2 School of Information Management, Shandong Economic University, Ji Nan, Shan Dong250014, China)AbstractThis paper presents a new method which introduces the semantic similarity and relevancy based on HowNet. Sentence semantic is us

28、ed for question classification by computing similarity and relevancy between sentence and sentence. We translate and transform the questions of TREC2004 into Chinese questions as a part of our question set. The experimental result validates the effectiveness of this method, the classification precision of the six fine classes reach 88.8% by similarity method and 85.8% by relevancy method, which achieved the expected results.Keywords :Question classification; HowNet; semantic similarity; semantic relevancy; questionanswering system

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号