问答系统-问题分类.ppt

上传人:牧羊曲112 文档编号:5884892 上传时间:2023-08-29 格式:PPT 页数:27 大小:223.10KB
返回 下载 相关 举报
问答系统-问题分类.ppt_第1页
第1页 / 共27页
问答系统-问题分类.ppt_第2页
第2页 / 共27页
问答系统-问题分类.ppt_第3页
第3页 / 共27页
问答系统-问题分类.ppt_第4页
第4页 / 共27页
问答系统-问题分类.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《问答系统-问题分类.ppt》由会员分享,可在线阅读,更多相关《问答系统-问题分类.ppt(27页珍藏版)》请在三一办公上搜索。

1、问答系统问题分类,文勖2004-6-20,问答系统总体框架,问答系统总体框架,问答系统的简单流程,问题分类,查询扩展,文本检索,答案抽取,答案排序和选择,目前问答的小组成员,1.张老师总体指导负责2.文勖问题分类3.王丽娟查询扩展4.赵世奇答案抽取5.汤云山答案排序和选择,陈儒负责调用google api,去掉导航信息,负责几个模块的连接和界面设计,调试等等,具体例子,1.系统输入:用户输入问题“第一个进入太空的中国人是谁”2.问题分类:HUM_PERSON3.查询扩展(王丽娟讲解)4.文本检索:(1)杨利伟是第一个进入太空的中国人,他于2003年10月15日乘神州五号进入太空,开始了21个小

2、时的太空之行(2)杨利伟是第一个进入太空的中国人,第431位进入太空的地球人。.当飞船绕地球运行第八圈时 5.答案抽取(世奇讲解)6.答案排序和选择(根据编辑距离进行聚类)7.系统输出:杨利伟,问题分类,我所用的两种算法SVM算法(用的是http:/www.csie.ntu.edu.tw/cjlin/libsvm/所提供的libsvm-2.6程序包)简化贝叶斯算法,利用布尔权值的SVM,布尔权重的数学表示:具体操作:类似于文本分类,首先去掉停用词,把同一类型的所有问题实例都作为一个文本,Libsvm的输入格式,:.:.:.,输入格式的一个例子,HUM_PERSON 谁/r 发现/v 镭/n H

3、UM_PERSON 谁/r 发现/v 美洲/ns 谁/r(323)发现/v(4523)镭/n(23355)谁/r(323)发现/v(4523)美洲/ns(132)Libsvm要求的输入格式为:1 323:1 4523:1 23355:11 323:1 4523:1 132:1,训练和测试,假设训练文件为index_file,通过svmtrain.exe 进行训练得到训练模型index_file.model假设测试文件为test_file,通过svmpredict.exe进行测试得到测试结果存放到result_file,简化贝叶斯分类,假设词与词之间是相互无关的对一个问句Q,首先进行分次和词性标

4、注,去掉停用词,得到如下形式:Q1 Q2Qn。qc为问题类型的变量我们的目标:,简化贝叶斯分类(续),因为分母相同,只需处理我们假设有下式成立,简化贝叶斯分类(续),如何计算权值?N=65类别总数目 表示term和qci的共现频率,Tf-idf权值处理,对P(qc,term)进行降低权值的处理,处理理由如下:1.如果一个词在某个问题类型中出现的次数越多,那么它与该问题主体的关联性越强;2.如果一个词在集合中很多问题类型中都出现多次,那么它对分类的贡献就小。基于此,我们采用了tf-idf进行权值处理。,Tf-idf公式,Tf-idf公式参数含义:其中N和上面的一样,N=65,M表示term在M种

5、问题类型中出现。,Tf-idf二次处理,首先看看不太均匀的语料库,Tf-idf二次处理(续),Tf-idf二次处理(续),针对我们语料库分布不太均匀和汉语的特点,对某些特定的词项再次降低了权值,DES_OTHER中的什么/r,LOC_OTHER中的什么/r,哪个/r,DES_REASON中的什么/r,OBJ_OTHER中的什么/r,TIME_OTHER中的什么/r,我们再次运用tf-idf。,Tf-idf二次处理(续),例如在考虑DES_OTHER类型中的“什么/r”counter(DES_OTHER,什么/r)=counter(DES_OTHER,什么/r)*logX为语料库中DES_OTH

6、ER的问题实例数目,Y为“什么/r”在DES_OTHER出现的次数,即通过这样的降低权值以后,性能有了一定的提高。,确定问题类型,找到使 取最大值的问题类型qc*,例子,用户输入(系统输入):中国哪个地区的气候最好 预处理后得到:中国/ns 哪个/r 地区/nz 气候/n 最好/d 假设只有两个问题类型LOC_OTHER(0),DES_OTHER(1),进行分类,具体为:比较和,实验结果及分析,分类器训练集数目测试集数目分类然而SVM的分类结果却让人非常遗憾,对很多的测试问题都分到训练集中问题实例较多的那5个类。实验结果让人沮丧。以上的测试集是小百科全书的问题集的一部分,问题分布不太均匀。,实

7、验结果分析,产生分类结果不好的原因主要有以下这些:1.训练集实例分布极其不均匀 2.由于文本分类和问题分类存在一些差异,所以单纯的借用文本分类的思想还有一些缺陷,比如单纯的利用布尔权值已经损失了很大一部分信息,这样势必会对分类有很大影响。,实验结果分析,3.分词和词性标注的错误对分类有一些影响,例如对于“他的大作为什么会出名”这个问题,若分词分成了“他 的 大 作为 什么 会 出名”或者“他 的 大作 为什么 会 出名”,前者分词错误,所以很可能不能正确的分类到原因类,实验结果分析(续),4.定义问题类型的数目较多N=65,一般是20左右个类,(17个类,87%的准确率)5.算法也需要改进,The end,Thanks,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号