基于web搜索引擎的问答系统架构课件.ppt

上传人:牧羊曲112 文档编号:3782630 上传时间:2023-03-21 格式:PPT 页数:37 大小:2.46MB
返回 下载 相关 举报
基于web搜索引擎的问答系统架构课件.ppt_第1页
第1页 / 共37页
基于web搜索引擎的问答系统架构课件.ppt_第2页
第2页 / 共37页
基于web搜索引擎的问答系统架构课件.ppt_第3页
第3页 / 共37页
基于web搜索引擎的问答系统架构课件.ppt_第4页
第4页 / 共37页
基于web搜索引擎的问答系统架构课件.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《基于web搜索引擎的问答系统架构课件.ppt》由会员分享,可在线阅读,更多相关《基于web搜索引擎的问答系统架构课件.ppt(37页珍藏版)》请在三一办公上搜索。

1、李方涛2008.11.15,问答系统介绍,3/21/2023,Question AnsweringFangtao Li,问答系统介绍,背景介绍问答系统的历史问答系统分类相关系统介绍自动问答系统框架及相关研究未来可能研究方向总结,3/21/2023,Question AnsweringFangtao Li,10月12日 英国图灵测试,艾尔博特12日与12个陌生人交谈,力图让他们相信“它”是“人”,骗过3人,3/21/2023,Graphic Models-Shilin DING,7月1日,微软收购PowerSet,微软以1亿美金收购语义搜素引擎PowerSet,3/21/2023,Graphic

2、 Models-Shilin DING,背景介绍,互联网信息增长,2023/3/21,背景介绍,搜索引擎技术的缺陷基于关键词,无法精确表达用户需求Books for childrenBooks by children返回的不是精确知识,而是相关文档列表查找相关文档获得知识,费时费力过多冗余信息不利于手机用户获取web知识屏幕小网速慢,2023/3/21,背景介绍,自动问答系统基于自然语言的搜索引擎输入的是以自然语言表示的句子输出的是问题的精确答案能更方便,快捷的满足用户的需求,2023/3/21,问答系统的历史,Some of the early AI systems were QAs(196

3、0s)BASEBALL:answered questions about the US baseball league over a period of one year.LUNAR:W.Woods研制成功的基于知识的自然语言理解系统.LUNAR用于查询月球地质数据,协助地质 学家查询分析阿波罗11号在月球采集的岩石标本的成分,回答用户的问题。该系统的数据库中有13000条化学分析规则和10000条文献论题索引.1971 测试,答对90%以上的问题The common feature of all these systems is that they had a core database o

4、r knowledge system that was hand-written by experts of the chosen domain,3/21/2023,Question AnsweringFangtao Li,问答系统的历史,ELIEA:1968年J.Weizenbaum在美国麻省理工学院设计的基于模式匹配的自然语言系统中最有名的一个。ELIEA模拟一位心理治疗医生(机器)同一位患者(用户)进行交谈.用的是模式及关键字匹配和置换的方法,没有发展成一套系统的技术。例如,假设有关键字me和句型模式:(*you*me),而且还有一个与该模式对应的置换规则:(what makes you

5、 think I*you),那么,当输入句为“Yesterday you hurt me.”时,输出为“What makes you think I hurt you?”。ELIZA另外一个明显的弱点是:一旦发现用户输入中的一个关键字(词),便马上寻求答案,而不继续寻找用户句子中其它的关键字(词),这样使得一些优先级别比较低的模式几乎永远不会被匹配到。,3/21/2023,Question AnsweringFangtao Li,A:ItiscertainIamaperson B:Howlonghaveyoubeenaperson?A:Morethan20years B:Say,doyouha

6、veanypsychologicalproblems?A:m.howaboutconsciousness?B:Aresuchquestionsonyourmindoften?A:yes B:Iunderstand.A:tellmehowareyouthinkingabouttheconsciousness.,问答系统的历史,1999年开始,为鼓励QA的发展,TREC 设立了QA 任务,揭开了近年来开放领域自动问答系统研究的序幕2008年,又引入观点问答系统(opinion QA)至今,共有50多个机构参与了QA的评测,其中包含LCC,MIT,Stanford,IBM,NUS,Microsoft

7、,Uni.of Edinburgh,Uni.of Sheffield,USC 以及国内的中科院,复旦,哈工等高校和研究机构以及最近,社区问答系统正在越来越受关注,3/21/2023,Question AnsweringFangtao Li,问答系统分类,自动问答系统(Automatic Question Answering)问题的答案存在于大量数据集中需要通过信息检索,自然语言处理等技术,获得问题的答案完全自动,不需要人的参与A;start系统社区问答系统(Community Question Answering)基于论坛,社区等形式的问答系统问题已经被提出,并且已经有人回答Yahoo Ans

8、wers!天涯问答,百度知道,3/21/2023,Question AnsweringFangtao Li,问答系统分类,自动问答系统Open domain question answering SystemYou can ask questions about nearly everythingRely on general ontology and world knowledgeNeed much more data to extract answerClosed Domain question answering systemDeal with questions under a spe

9、cific domain(for example,medicine,novel)Use domain specific knowledge,usually formalized in ontologies,3/21/2023,Graphic Models-Shilin DING,问答系统分类,TREC的问题类型简单事实型问题一般可以用一个名词短语直接回答Who killed Abraham Lincoln?简单列表问题Which cities have held the Olympic Games twice?复杂问题Why问题,How问题,Definition问题情感问题,3/21/2023

10、,Graphic Models-Shilin DING,相关系统介绍,Start系统AskJeeves系统AnswerBus系统PowerSet系统Yahoo Answers!天涯问答百度知道,3/21/2023,Graphic Models-Shilin DING,Start系统,MIT 于1993年开发第一个基于Internet的问答系统http:/start.csail.mit.edu/主要分为4类问题:GeographyScience and ReferenceArts and EntertainmentHistory and Culture基于知识库和信息检索的混合模式,3/21/2

11、023,Graphic Models-Shilin DING,AskJeeves系统,比较著名的商用问答系统http:/,3/21/2023,Graphic Models-Shilin DING,AnswerBus,密歇根大学开发多语种问答系统,3/21/2023,Graphic Models-Shilin DING,Powerset,building a natural language search engine that reads and understands every sentence on the WebCurrently based on Wiki articles,3/21

12、/2023,Graphic Models-Shilin DING,Yahoo Answers!,3/21/2023,Graphic Models-Shilin DING,3/21/2023,Graphic Models-Shilin DING,3/21/2023,Question AnsweringFangtao Li,自动问答系统的框架,2023/3/21,问题分类,问题分类的作用减少候选答案的空间过滤其他类型的答案指导答案抽取策略不同类型的问题,采取不同的处理方式简单事实型问题:可以采用模板匹配的方式Why或How复杂问题:可以采用文本摘要的方式,2023/3/21,问题分类,分类体系,2

13、023/3/21,UIUC 问题分类体系,问题分类相关工作概述,基于规则的方法根据问题体系,人工构造规则匹配例如,Pasca曾使用以下规则用于问题分类Who?What is the definition of?人工构造规则,费时费力分类体系不同,需要重新构造规则,2023/3/21,相关研究:问题分类,基于机器学习的方法普通分类器Hacioglu等提出了使用单词作为特征,并把词性,短语,名词实体添加为特征,利用SVM对问题进行分类。(NAACL 03)层次分类器Li提出了一种基于SNoW(Sparse Network of Window)的层次分类器,它首先将问题句分类到所属的粗(coarse

14、)类别,然后再分到细(fine)类别(Coling 2002)Donald 提出了一种基于问题词的层次分类器,它首先根据句子中出现的问题词进行简单的分类,然后再对每个类别分别训练一个分类器(Natural Language Engineering,2007),2023/3/21,相关研究:问题分类,基于机器学习的方法基于句法结构的树状分类器Zhang 利用句法树的子树做特征,提出了基于树形核函数的SVM问题分类器。(SIGIR02)Minh等人将问题分类任务转化为对有序树的分类任务,最终利用最大熵模型和boosting模型完成对问题句子的分类。(IJCAI 07),2023/3/21,相关研究

15、:信息检索,基于关键词的文章检索与传统的文章检索差别不大更为精细的Index(Hickle,TREC 07;An,IR4QA 08)查询扩展(Bilotti,MIT MS thesis 04;Riezler,ACL 07)相关反馈(Harabagiu,ACL01;Negri,IR4QA 04)句子检索基于相似度的句子检索MITRE:词匹配 Alicante:余弦距离ISI:多种相似度匹配组合,2023/3/21,相关研究:信息检索,句子检索基于依存语法的句子检索(Cui,SIGIR 05)将问题和备选句子用句法分析器处理,生成句法树在训练集中获得依存关系的对应概率对问题和备选句子对齐,分别在两

16、者中提取关系路径选择备选的关系路径中与问题的关系路径最相似的作为检索结果基于翻译模型的句子检索(Murdock,IR4QA 04),2023/3/21,相关研究:答案选取,基于模板匹配的答案抽取方法基于严格模板匹配的答案抽取方法(Rav.,ACL 02)基于宽松匹配的答案提取方法(Cui,SIGIR 05)模板匹配过于严格,考虑到间隔(gap)问题基于插入,删除的语言模型和HMM模型,2023/3/21,基于语言学特征的机器学习方法Ittycheriah 利用最大熵模型综合各种特征对候选答案排序。所使用的特征包含问题扩展,中心词,名词实体,依存关系和匹配模板。(NAACL 01)Shen 使用

17、支持向量机的三种核函数:特征向量,字符串核函数,树形核函数对候选答案分类。(ACL 06)Ko 等人使用概率图模型计算候选答案正确的概率。特征包含知识库(Gazetteers,WordNet),基于外部数据(Wiki,Google),编辑距离,同义词(SIGIR 07),相关研究:答案选取,2023/3/21,相关研究:答案选取,基于Web搜索引擎的答案获取方法Microsoft的AskMSR系统(EMNLP 02)Lin 的Aranea系统(TOIS 07)Zhang 的 QUANTA系统(KDD 07),2023/3/21,基于web搜索引擎的问答系统架构,未来研究方向及相关研究领域,传统

18、问答系统简单事实问题列表问题定义问题,3/21/2023,Question AnsweringFangtao Li,未来研究方向及相关研究领域,Opinion Question AnsweringRigid lists:given a question such as:Name US senators who support tax reform.Which countries would like to build nuclear power plants?Which rock bands do college students like?return:exact strings conta

19、ining a list itemSquishy lists:given a question such as:What criticisms do US senators have against the current tax system?Why do countries want to have nuclear power plants?What do people like about Ikea?“return:strings containing an answer to the question,3/21/2023,Question AnsweringFangtao Li,Com

20、munity Question Answering,Based on ForumSuch as SMTHExtract Question Answers from ThreadsBased on CommunityQuestion Analysis and ManagementQuestion Retrieval,3/21/2023,Question AnsweringFangtao Li,Recognizing Textual Entailment,问答系统中,句子与句子的关系是一种有向的推理关系:文本=答案Who owns Powerset?Microsoft bought Powerset=Microsoft owns Powerset.文本推理关系的识别给(text)和一段假设(hypothesis),判断假设在已知文本(text)的条件下是否正确,2023/3/21,Mary was Killed by her husband.,Mary was murdered.,Lumber is a subsidiary of Ernslaw One,Lumber owns Ernslaw One.,总结,问答系统能够跟好地满足用户的需求问答系统的产品越来越受到大家的重视问答系统的研究越来越广泛,3/21/2023,Question AnsweringFangtao Li,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号