知识库构建与应用.ppt_三一办公31ppt.com

资源描述

《知识库构建与应用.ppt》由会员分享，可在线阅读，更多相关《知识库构建与应用.ppt（42页珍藏版）》请在三一办公上搜索。

1、徐源北京邮电大学,知识库构建与应用,目录,语义信息抽取知识库语义检索海量数据处理,语义信息抽取泛网资源与信息语义抽取内容模式抽取层级构建,语义信息抽取海量资源与信息,泛在网为我们提供了无所不在的资源及信息。如何在海量信息中获取我们需要的信息？如何快捷的获取？机器理解？如何让机器更好的理解？语义抽取,语义信息抽取语义抽取内容,实体抽取(Named entity extraction)：人物、地点、机构、疾病，等命名或专有实体。属性抽取(Attribute extraction)：实体的自身属性。关系挖掘(Relation mining)：实体之间的关系。事件挖掘(Event mining)：由多

2、个关系元组所构成。,语义信息抽取实体抽取,识别文本中出现的实体 MUC(1997):Person,Location,Organization,Date/Time/Currency ACE(2005):100多种更具体的类型针对不同实体类型与领域考虑不同方法封闭类(e.g.,geographical locations,disease names,gene&protein names)：人工规则+词典语法相关(e.g.,phone numbers,zip codes)：正则表达式语义相关(e.g.,person and company names)：综合考虑上下文,句法特征,词典,启发式

3、规则等,语义信息抽取实体抽取,人工规则方法某些情况构建简单:电话号码、邮政编码等。调试和维护简单拓展性问题机器学习方法当容易构建大量训练数据时适合采用能够捕捉复杂的模板主要方法：Naive Bayes；Hidden Markov Models；Maximum Entropy Markov Models；Conditional Random Fields(CRF),语义信息抽取属性抽取,属性包括：属性名属性值,语义信息抽取属性抽取,语义信息抽取属性抽取,基于无结构化与前面方法类似模板改变:A of IA of I is V;V is A of I 种子改变:(China,capit

4、al)(China,capital,Beijing)基于Wikipedia Infobox 基于HTML表格,语义信息抽取关系抽取,ACE（Automatic Content Extraction）会议将关系抽取任务表述为：探测和识别文档中特定类型的关系，并对这些抽取出的关系进行规范化表示。一个比较完整的关系抽取系统应包括依次相连的5个模块：NLP处理和实体抽取、模式匹配或分类、共指消解、新关系处理以及规范化输出。关系抽取的困难可以归纳为3个方面：特定领域标引数据集的获取模式的获取共指消解,语义信息抽取关系抽取,基于模式匹配的关系抽取先构造出若干基于语词、基于词性或基于语义的模式集合并存

5、储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。基于词典驱动的关系抽取基于词典驱动的关系抽取方法非常灵活，新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。但只能识别以动词为中心词的关系。基于机器学习的关系抽取将关系抽取看作是一个分类问题。在人工标引语料的基础上构造分类器，然后将其应用在领域语料关系的类别判断过程中。目前使用比较多的学习算法有MBL算法和SVM算法。混合抽取方法基于词汇：“located in”基于句法结构：“(Obj)(Verb located)(*)(Subj)”机器学习方法

6、有监督学习：基于人工标注数据训练模型（SVM,MaxEnt,KNN等）1.基于特征的方法 2.核方法：核函数Kernel(x,y)定义对象x与y之间的相似度,则可直接使用核函数代替上述公式中基于显式特征的点积运算半监督学习：基于自举方法从种子样例中训练模型自举方法(Bootstrapping)轮流发现实体关系对与抽取模板。无监督学习：自动发现主要的关系与相应的对象基于对象对与关系上下文的对偶性利用聚类算法,语义信息抽取事件抽取,事件由事件触发词和描述事件结构的元素构成，通常需要共指消解，消岐，去重，推理。事件抽取由两个步骤组成：事件类别识别：事件模板由事件的类别决定。ACE2005定

7、义了8种事件类别以及33种子类别。事件元素识别：事件元素是指事件的参与者。根据所属的事件模板抽取相应的元素，并为其标上正确的元素标签。,语义信息抽取事件抽取,事件抽取主要有两种方法：模式匹配和机器学习的方法。模式匹配的方法对某类事件的识别和抽取是在一些模式的指导下进行的，采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。机器学习的方法把事件抽取任务看作分类问题，把主要的精力放在分类器的构建和特征的发现、选择上。,语义信息抽取模式抽取,一阶共现：模版（PB）Hours may vary on holidays,such as Easter,Thanksgiving and Christma

8、s.Pattern:(such as|including)T,T*(and|,|.)Easter,Thanksgiving,Christmas 二阶共现：分布式相似性（DS）前提是假设：出现在相似上下文(词语、句法)中的词语比较相似。定义上下文（句法上下文,词语上下文.）将每个短语表示为一个特征向量（特征:短语出现的一个上下文；特征值:上下文针对短语的权重）计算短语相似性（特征向量之间的相似性：Cosine,Jaccard）,语义信息抽取语义层级构建,为短语(term)赋予类标签或上位词(label)Beijingcity，capital；Applecompany，fruit 方法:Patte

9、rn matching+counting 为语义类(semantic class)赋予类标签(label)Beijing,Shanghai,Dalian.cities,Chinese cities.方法:投票(Voting)构建层级,知识库典型知识库构建方式应用,知识库典型知识库,人工构建的知识库 WordNet:专家构建、英语 Wikipedia:社区网民构建,实体/属性自动抽取得到的知识库 YAGO:Wikipedia+WordNet,自动构建,准确率高 DBpedia:Wikipedia+社区网民创建的映射规则,召回率高 Freebase:Wikipedia+其他数据库+用户编辑,知识

10、库构建方式,YAGO自动构建方式1.利用WordNet和Wikipedia（Infobox和Categories）抽取相关知识，再合并构成联通本体。2.一致性检查：包括实体的唯一性；关系领域与范围；类型的一致性。/,知识库构建方式,Dbpedia自动构建方式1.人工构建分类体系ontology：259 classes,6 levels,1200 properties。2.映射规则：将Wikipedia infoboxes and tables映射到其自有的ontology，人工映射规则。http:/dbpedia.org,知识库构建方式,Freebase自动构建方式1.从Wikipedia，C

11、hefMoz，NNDB和MusicBrainz等多个数据源导入数据。2.用户可贡献数据。Total triples:1.9 billion,知识库应用,自动问答系统语义相似性计算情感倾向Web数据标注地图标注侧面搜索,语义检索语义解析语义计算文本推理文本复述,语义检索语义解析（词法分析）,词法分析（英语：lexical analysis）是计算机科学中将字符序列转换为单词（Token）序列的过程。如下所示,句法分析语义解析（短语结构分析）,短语结构指的是词法分析之后词和词之间的结构关系，包括并列，动宾等等。如下所示,句法分析语义解析（依存关系分析）,依存语法通过分析语言单位内成分之间的依存关

12、系揭示其句法结构，主张句子中核心动词是支配其它成分的中心成分，而它本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。如下所示,句法分析语义解析（语义角色标注）,语义角色标注是指在语法分析的基础上，对句子中各种词语进行更深一层的角色分析。如下所示,语义计算,词汇语义计算是语义计算的基础，也是关键技术点,语义计算词汇语义计算,词语相似度的计算主要分两类：（1）基于语义词典的方法，如wordnet、知网等（2）基于语料统计的方法,语义计算基于语义词典的词汇,语义词典一般由多个同义词集合组成，每个集合里面是表示相同词义的词的集合。每个词条包括多个同义词集合，同义词集合通过不同的

13、词义关系相连。使用同义集合代表概念，词汇关系在词语之间体现，语义关系在概念之间体现。基于语义词典的词汇语义计算方法很多，如下介绍几种典型的：（1）WuAndPalmer算法通过与概念词最近的公共父结点概念词的位置关系来计算其相似度；（2）LeacockAnd-Chodorow算法则是将两概念间的路径长度转化为信息量来进行相似度计算；（3）在基于信息内容的算法上,Resnik提出了直接利用公共父结点概念词的信息内容来计算概念词之间的相似度的算法。,语义计算基于语义词典,语义词典方法的缺点：（1）对于很多语言并没有好用的语义词典（2）有些词不被语义词典包含，例如实体、新词等（3）大部分方法依赖于上

14、下位层次关系：这限于名词，对于形容词和动词并不完善,语义计算基于语料统计,上下文共现向量方法潜在语义分析LSA（Latent Semantic Analysis）词向量,语义计算上下文共现向量方法,构建上下文向量，每个词为一个1xV(V为所有词总数)的向量，记录其他词是否与该词一起出现基于向量距离/相似度公式（典型的胃余弦距离）进行计算两个词的相似度,语义计算潜在语义分析LSA,构建词和文档的矩阵A给词赋予权重，例如TF-IDF权重对矩阵进行SVD（Singular Value Decomposition）分解留下奇异值不为0对应的k行和k列矩阵U中的每一行表示相应词语与隐含语义空间中语义维度

15、之间的关联,语义计算词向量,词向量是用来将语言中的词用数学方式表示成一个向量的形式，一种最简单的词向量方式是one-hot representation，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个 1，其他全为 0，1 的位置对应该词在词典中的位置。但这种词表示有两个缺点：（1）容易受维数灾难的困扰，尤其是将其用于 Deep Learning 的一些算法时；（2）不能很好地刻画词与词之间的相似性（术语好像叫做“词汇鸿沟”）。针对这种情况，Hinton于1986年提出Distributed Representation，之后对词向量的研究成为学术界的热点，尤其是

16、在2000年之后，提出了多种词向量训练模型。,语义计算词向量解释,模型中的隐层有多少个节点，词向量就是多少维，隐层中的每一个节点相当于一个语义，从输入层到隐层的映射，相当于将一个词映射到不同的语义维度上。语义越相近的词，向量相似度越高。语料库越大，训练出来的词向量越准确。,语义计算文本推理,从自然语言表示角度，在词法层，句法层，语义层，将文本依次看成字符串形式，成分结构或依存关系和语义表达/逻辑表达式。在基于各个表达层级选择推理逻辑方法。文本推理的难点：需要大量背景知识的支持句式结构、语义表达的多样化需要构建使用完整的推理规则,语义计算文本复述,根据在知识库索引中找到的信息，进行文本组织复述，

17、反馈给查询者复述生成方法：基于规则的方法基于词典的方法基于自然语言生成的方法基于机器翻译的方法,海量数据处理Nesper,NesperNEsper概念,背景：针对实时信息的高并发性和高吞吐量的需求而设计Esper是用于CEP（复杂事件处理）和ESP（事件流处理）应用程序的组件，是一个适合实时分析数据的内存计算引擎。（Java）高吞吐量低延迟复杂计算Nesper 引擎（类似数据库倒置）设定查询条件实时数据通过这些查询条件，引擎对其进行数据过滤核心包NEsper.dll：EPL语法解析引擎，事件监听机制，事件处理核心模块：与excel,database,msmq,http,socket,XML等数

18、据源读,Nesper事件处理流程,程序先获取数据把数据传入EPL语句进行执行（执行时可以进行筛选处理）监听获取处理后的数据，进行处理,NesperEPL,在复杂事件处理中，为了要达到高吞吐量(throughput)、高度利用性(availability)、以及低度延迟(latency)，让企业能够达到实时决策，因此使用事件串流处理(event stream processing)。使用EPL(Event Processing Language)为SQL-LIKE 的语言，可以方便的对事件串流提供复杂的逻辑处理，使事件串流在内存中做模式比对处理，及查询的动作。这些过程中，都在内存内进行，不须经由储存装置。Epl是Esper的核心,

展开阅读全文