人工智能ArtificialIntelligence精品PPT课件.ppt

资源描述

《人工智能ArtificialIntelligence精品PPT课件.ppt》由会员分享，可在线阅读，更多相关《人工智能ArtificialIntelligence精品PPT课件.ppt（80页珍藏版）》请在三一办公上搜索。

1、人工智能Artificial Intelligence,自然语言理解,本章主要内容,自然语言理解的一般问题词法分析句法分析语义分析大规模真实文本的处理 Web信息抽取,自然语言理解的一般问题(1),自然语言自然语言：人类交流的语言,口语、书面语、手语、旗语等人造语言：机器语言，包括C+,BASIC等世界语到目前为止的人类知识有80%以上使用自然语言文字记载下来的。但将来，可能用计算机语言形式记载的知识将会越来越多。因此说，语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。相比较人工智能其它领域，自然语言理解是难度大，进展小的。至今为止未能达到很高的水平

2、。,自然语言理解的一般问题(2),什么是“自然语言理解”？与“智能”一样，存在各种各样的理解和解释。利用计算机对自然语言进行理解自然语言“理解”的准则：给计算机输入一段自然语言文本，如果计算机能问答(question-answering)机器能正确地回答输入文本中的有关问题；文摘生成(summarizing)机器有能力产生输入文本的摘要；释义(paraphrase)机器用不同的词语和语句复述输入文本；翻译(translation)机器把一种语言(源语言)翻译为另一种语言(目标语言),自然语言理解的一般问题(3),自然语言理解自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能

3、领域关注的核心问题之一。自然语言理解的困难原因：目标表示的复杂性映射类型的多样性源表示中各元素间交互程度的差异性,自然语言理解的一般问题(4),语言学的研究自然语言理解是哲学(philosophy)，语言学(linguistics),语言心理学(psycholinguistics),认知科学(cognitive science),计算机科学(computer science)，数学(mathematics)，逻辑学(logic)及相关学科发展和结合而形成的一门交叉学科。,自然语言理解的一般问题(5),语言学的研究语言学家：只关心词组成短语，短语组成句子，句法如何。即语言理论哲学家：词怎么能表示

4、万物万事。如何用词来描述。心理学家：语言产生的机制，人怎么能理解句子的意思。神经网络。计算语言学家：用数据结构、数学模型把哲学、心理学、语言学等语言分科的知识进行表示，用恰当的算法识别句子的结构，完成自然语言相关的各项任务。,自然语言理解的一般问题(6),语言学的研究理解的层次语音分析：找出最小可独立的声音单元-音素词法分析：找出词汇的各个词素（词根），从中获得语言学信息例：我们研究所有东西;把手放在桌上我们-研究所-有-东西（交叉歧义）我们-研究-所有-东西把-手-放在-桌上（组合歧义）把手-放在-桌上,自然语言理解的一般问题(7),语言学的研究理解的层次句法分析：对句子和短语的结构进行分析

5、，找出词、短语等的相互关系以及各自在句子中的作用等。在语言自动处理的研究中，句法分析的研究是最为集中的，这与乔姆斯基（Chomsky）的贡献是分不开的。主要方法有：短语结构语法、格语法、扩充转移网络、功能语法等。语法分析：将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。确定语句是否合乎语法,自然语言理解的一般问题(8),语言学的研究理解的层次语义分析：通过分析找出词义，结构意义及其结合意义，从而确定语言所表达的真正（实际）含义或概念。在语言自动理解中，语义越来越成为一个重要的研究内容。（尤其是对话系统）你打我我打你语用分析：研究语言所在的外界环境对语言使用所产生的影响。描述语

6、言的环境知识、语言与语言使用者在某个给定语言环境中的关系。为确定真正含义，对表达的结构重新加以解释。（故宫、一块）,自然语言理解的一般问题(9),研究目标建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如：听、读、写、说，释义，翻译，回答问题等。通过语言索取信息，由此能力则说明该系统对语言已理解了。,自然语言理解的一般问题(10),自然语言的层次划分及对应技术,自然语言理解的一般问题(11),应用机器翻译或机器辅助翻译。文本理解：将输入文本转换成某种数据库格式。文本生成：根据用户需要以某种自然语言的方式输出储存在计算机内的各种信息。自然语言接口：人类直接用自然语言与数据

7、库、专家系统等进行人机交互。,自然语言理解的一般问题(12),应用网络方面：信息检索（information retrieval）,提出（extraction）,过滤（filtering）,分类（classification），汇总（summarization）等如：网上信息检索，电子图书馆（digital library）,电子商务（e-commerce）等例：和服|务|于三日后裁制完毕。(kimono must)这个酒店的设施|和|服务|是一流的。(and service)未登录词(unknown word processing):如：高海燕(storm petrel),自然语言理解的一般

8、问题(13),自然语言理解的研究大体上经历了三个时期萌芽时期发展时期早期:60年代以关键词匹配为主流中期:70年代以句法语义分析为主流近期:80年代以来开始走向实用化和工程化大规模真实文本处理时期比较成功的系统处理都是受限的自然语言子集句法受限：句子结构的复杂性方面受到限制语义受限/领域受限：所表达的事物的数量方面受到限制,自然语言理解的一般问题(14),60年代以关键词匹配为主流特点：没有真正意义上的语法分析，主要依靠关键词匹配技术来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式，每个模式与一个或多个解释(响应式)相对应。每当输入一个句子，系统便查找与之匹配的模式，一

9、旦匹配成功，系统就输出相应的解释，不考虑其他成分对句子意义的影响是一种近似匹配技术，输入句子可以不准循语法，但是也容易导致错误,自然语言理解的一般问题(15),70年代句法语义分析为主流采用句法-语义分析技术典型例子LUNAR允许用普通英语和数据库对话的人机接口,句法分析,语义解释,数据检索,ATN语法,词典,语义规则,数据库,自然语言理解的一般问题(16),80年代以来的实用化和工程化主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。另一方面，人们已经开始对大规模真实文本进行理解句法语义分析为主的思想来自于规则的方法，而规则不可能把

10、所有的知识表示出来自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。,自然语言理解的一般问题(17),语料库语言学(corpus linguistics)语言学知识的源泉是大规模活生生的语料，要想让计算机理解自然语言，首先要让计算机能从库存的大规模语料中自动或半自动地获取语言理解所需的各种知识，对语言现象作出客观的、细致的描述。目前采用的主要手段是建立各种统计模型，可用于词类的自动标注，以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。,自然语言理解的一般问题(18),在当今计算技术条件下，要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来，是不可能的。这既是由于这

11、种知识的“数量”巨大，有时由于它们在“质”的方面高度的不确定性和模糊性。最近十几年来新提出的语料库语言学，它顺应了大规模真实文本处理的需要，提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。,自然语言理解的一般问题(19),基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题，对传统的处理方法的一个强有了的补充。新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面，使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流，就需要计算机具有自然语言能力，尤其是口语理解和生成能力。,自然语言理解的一般

12、问题(20),发展快的原因：计算机的发展:高速、统计处理。需求:机器人能听懂人的话，与人交谈，自动学习。但是，因为自然语言是开放集，每天都有新词产生，用规则描述马上可以找出反例。所以，很难。,本章主要内容,自然语言理解的一般问题词法分析句法分析语义分析大规模真实文本的处理Web信息抽取,词法分析(1),词法分析是理解单词的基础，其主要目的是从句子中切分出单词，找出词汇的各个词素，从中获得单词的语言学信息并确定单词的词义例如unchangeable是由un-change-able构成的，其词义由这三个部分构成。,词法分析(2),语言构成,词法分析(3),在英语等语言中，因为单词之间是以

13、空格自然分开的，切分一个单词很容易，所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化，要找出各个词素就复杂的多，需要对词尾或词头进行分析。如importable，它可以是im-port-able或import-able，这是因为im、port、able这三个都是词素。汉语中的每个字就是一个词素，所以要找出各个词素是相当容易的，但要切分出各个词就非常困难，不仅需要构词的知识，还需要解决可能遇到的切分歧义。如“我们研究所有东西”。可以是“我们研究所有东西”，也可以是“我们研究所有东西”。,本章主要内容,自然语言理解的一般问题词法分析句法分析语义分析大规模

14、真实文本的处理Web信息抽取,句法分析（1）,句法分析的主要任务：确定输入句子的结构：识别句子的各个成分及其之间的关系句子结构的规范化：目的是简化后续处理分析自然语言的方法主要分为两类：基于规则的方法：如短语结构语法和Chomsky语法体系基于统计的方法,短语结构语言（1）,定义句子：一个符号串语言：句子的集合语法：对一个句集一种有限的形式化描述描述一般语言的方法：识别器：由程序判断读入的符号串是不是一个句子短语结构语法：一种基于产生式的形式化工具，也称为产生式语法,短语结构语言（2）,定义：短语结构语法定义为：G(T，N，S，P）T是终结符集合，即被定义的语言的所有词汇（或符号）N是非终

15、结符集合，这些符号用于描述语法成分，并不出现于句子中。则有：VTN，TN（空集），V是属于该语法的全部符号。S是起始符号，它是N中的一个成员。P是一个产生式规则集。ab(ab,aV+,bV*),短语结构语言（3）,在短语结构语法中，基本运算是把一个符号串重写为另一个符号串，每条语法规则也叫重写规则一个句子的产生就是从S符号到词汇串的推导过程如果一个程序能够根据一个短语结构语法来确定一个句子的推导，则它可称为一个句法分析器(parser)。语法G所定义的语言记为L(G):L(G)=W|WT*,S*GW,短语结构语言（4）,刻画语言的形式体系的强和弱递归可枚举语言：如果有一个程序，它能以某种顺序

16、逐个地输出（即枚举）一种语言的句子，这种语言是递归可枚举的递归语言：如果有一个程序，它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子，这称该语言是递归,短语结构语言（5）,正则语法：正则语法有两种形式：左线性语法：如 A a|Ba 右线性语法：如 A a|aB可以表示如下的句子：a*b*语法例子：S a|S1|a SS1 b|b S1与有限状态机等价,短语结构语言（6）,上下文无关语法：语法规则形式为：A x 即左边为一非终结符，右边没有限制可以表示的句子如：anbn语法例子：S a|S b S该文法应用于程序设计语言中,短语结构语言（7）,上下文有关语法：语法规则：规则右边的符

17、号数不能少于左边符号数右边的符号可以是终止符也可以是非终止符上下文有关语言是递归的可以表示的语言：anbncn语法例子：AB BA,短语结构语言（8）,无约束短语结构语法：语法规则是没有限制的：左边可以是任意多个终止符或非终止符右边可以是任意多个终止符或非终止符该语言是递归可枚举的该语言与图灵机等价语法例子：A B C,短语结构语言（9）,Chomsky体系,无约束语法,上下文有关语法,上下文无关语法,正则语法,CFG的分析算法（1）,用一个短语结构语法对一个句子进行语法分析，意味着寻找一个从起始符到该句子的推导，这个推导一般可以表示为一棵句法树一般一棵句法树对应的推导不是唯一的，但是如果在推

18、导过程中每次总是重写最左边的非终止符，则称该推导为最左推导。Mary Mary Mary eats Mary eats cheese,CFG的分析算法（2）,:=:=John|Marry:=:=eats|drinks:=wine|cheese,SENTENCE,SUBJECT,VERBPHRASE,VERB,OBJECT,eats,cheese,Mary,CFG的分析算法（3）,句法分析器分为：从推导方向来分：自顶向下：从树顶的根结点开始推导建立句法树，方向是从起始符S到句子自底向上：从树底部的叶结点(词或词类)规约，建立句法树，方向是从句子到S从算法上分：回溯算法：每次只尝试一种推导，当这种

19、推导失败时便返回以尝试另一种推导并行算法：同时进行所有的推导,CFG的分析算法（4）,自顶向下的回溯算法该方法逐个地枚举推导直到找到一个能生成句子的推导一般，对具有左递归的语法，该方法需要增加某些测试以避免陷入死循环对于”Mary eats cheese”的句法和推导为：SNP+VP(1)SNP+VP(1)NP N(2)N+VP(2)VP V(3)N+V+NP(4)VP V+NP(4)N+V+N(2),转移网络（1）,转移网络在自动机理论中用来表示语法。句法分析中的转移网络由结点和带有标记的弧组成，结点表示状态，弧对应于符号，基于该符号，可以实现从一个给定的状态转移到另一个状态。,Dog bi

20、tes,转移网络（2）,扩充转移网络ATNATN是20世纪70年代由W.Woods提出来的ATN语法属于一种增强型的上下文无关语法，即用上下文无关文法描述句子文法结构，并同时提供有效的方式将各种理解语句所需要的知识加到分析系统中，以增强分析功能，从而使得应用ATN的句法分析程序具有分析上下文有关语言的能力。ATN主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候，附加在该弧上的过程就会被执行。这些过程的主要功能是（I）对文法特征进行赋值；(II)检查数（number）或人称（第一、二或三人称）条件是否满足，并据此允许或不允许转移。,转移网络（3）,表示句子的框架,转移网络（4）,表示

21、句子的框架,转移网络（4）,表示句子的框架,非确定性算法与确定性算法（1）,上面介绍的算法是非确定性的，分析过程中常常要进行回溯。这就降低了算法的效率。实际上，在特定的上下文中，除了某些固有的歧义外，自然语言的句法分析绝大多数都是确定的。1977年MIT的Marcus提出了句法分析的确定性算法。该算法的最大特点是确保在任何情况下，一旦一个输入句子的部分结构被分析出来，便不再更改，一直保持到最后成为句子最终分析的一部分。,非确定性算法与确定性算法（2）,Marcus的确定性算法该句法分析系统具有如下三个特点：(1)由数据驱动(2)已分析出来的部分结构可以成为对后继分析过程的预期(3)通过“向

22、前看”(look-ahead)来代替回溯特点(1)和(2)反映了自底向上和自顶向下分析相结合的策略。特点(3)则是要通过引入句子中的上下文约束来决定分析规则，保证句法分析器“看准了”以后再操作，从而避免了回溯,非确定性算法与确定性算法（3）,汉语的特点汉语的词类缺乏形式标注汉语词类跟句法成分之间不存在简单的一一对应关系.汉语的句子的构造原则跟短语的构造原则基本一致汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和句法结构的递归嵌套性。这些必然要导致大量的回溯，增加计算的开销采用确定性分析策略则可以解决这种问题。,本章主要内容,自然语言理解的一般问题词法分析句法分析语义分析大规模真实

23、文本的处理Web信息抽取,语义分析（1）,语义分析的任务：输入句子的句法结构和句子中每个实词的词义推导出能反映该句子意义的某种形式化表示对语义现象作形式化处理要比句法现象困难得多，主要原因有语义和句法系统的界限很难划清楚语义及其他认知系统的界限也难以划清楚。用于计算机语义处理的计算语义学还远未成熟,语义分析（2）,格文法格语法是Filmore于1968年提出来的，曾经对自然语言理解技术的发展产生过较大的影响，直到现在不少研究仍在使用格语法。因为人们认识到格关系确实是描述语言语义(包括和语法的关系)的一种很好的形式，当然在实际应用过程中不可避免地要有些修改。,语义分析（3）,格文法

24、格文法的特点是允许以动词为中心构造分析结果，尽管文法规则只描述句法，但分析结果产生的结构却相应于语义关系，而非严格的句法关系如句子：Mary hit Bill 的格文法分析结果可以表示为(hit(Agent Mary)(Dative Bill)在格文法中，格表示的语义方面的关系，反映的是句子中包含的思想、观念等，称为深层格。和短语结构语法相比，格文法对于句子的深层语义有着更好的描述。,语义分析（3）,如果两个句子的底层的语义关系一致，各名词成分所代表的格关系不会发生相应的变化。例如，被动句“Bill was hit by Mary”与上述主动句具有不同的句法分析树，但格表示完全相同。,本章主要

25、内容,自然语言理解的一般问题词法分析句法分析语义分析大规模真实文本的处理Web信息抽取,大规模真实文本的处理（1）,语料库语言学及其特点传统的句法-语义分析技术，所采取的主要研究方法是基于规则的方法由于自然语言理解的复杂性，各种知识的“数量”浩瀚无际，而且具有高度的不确定性和模糊性，利用规则不可能完全准确地表达理解自然语言所需的各种知识，而且，规则实际上面向语言的使用者人的，将它面向机器则分析结果始终不尽如人意。研究语言知识所用的真实文本称为语料，大量的真实文本即构成语料库,大规模真实文本的处理（2）,传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释，包括拼音、读音、词形

26、变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释，偶尔还有图示或插图，包含着相当可观的信息存储。但是，它还有一些不足，特别是用在自然语言理解时更显得不够例如，对于名词“树”，传统的词典一般解释为：一种大型的、木制的、多年生长的、具有明显树干的植物。基本上是上位词加上辨别特征。但是，这还不够，还缺少一些信息第一，它没有谈到树有根，有植物纤维壁组成的细胞，甚至也没有提及它们是生命的组织形式。但是在WordNet中，只要查一下它的上位词“植物”，就可以找到这些信息。第二，树的定义没有包括对等词的信息，不能推测其他种类的植物存在的可能性。第三，对于各种树都感兴趣的读者，

27、除了查遍词典，没有别的办法。第四，每个人对树都有自己的认识，而词典的编撰者又没有将其写在树的定义中。如树包括树皮、树枝；树由种子生长而成，等等。可以看出，普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息,大规模真实文本的处理（3）,WordNet是按一定结构组织起来的义类词典，主要特征表现在第一，整个名词组成一个继承关系。WordNet有着严格的层次关系，这样一个单词可以把它所有的前辈的一般性的上位词的信息都继承下来，可以提供全局性的语义关系，具有IS-A关系第二、动词是一个语义网动词大概是最难以研究的词汇，在动词词典中，很少有真正的同义动词。表达动词的意义对任何词汇语言学

28、来说都是困难的。WordNet不做成分分析，而是进行关系分析。这一点是计算语言学界所热衷的课题，与以往的语义分析方法不同。这种关系讨论的是动词间的纵向关系，即词汇蕴涵关系 WordNet基于名词和动词以及其他词性的关系进行词类间的纵向分析，在国际计算语言学界有很大的影响。但是，它也有不足之处，如对横向关系还没有考虑。,大规模真实文本的处理（4）,大规模真实文本处理的数学方法主要是统计方法基于语料库的统计模型（如Markov模型、向量空间模型）不仅能胜任词类的自动标注任务，而且也能够应用到句法和语义等更高层次的分析上来。,大规模真实文本的处理（5）,汉语自动分词由于汉语句子的最小构成单位是字，

29、有意义的最小单位却是词，而汉语词与词之间又没有分割符号（英语词和词之间是空格）。因此，汉语理解首先要进行汉语自动分词。可以概括为两大类方法，无词典分词，它完全依靠整段文章中汉字之间的搭配的频率算出成词可能有词典分词，是一种更有普遍意义的分词方法。有词典分词主要有最大匹配法，逆向最大匹配法，逐词遍历匹配法，设立切分标志法，以及正向最佳匹配和逆向最佳匹配法，而这些方法的一个基本思想都是要依次分出待切分串的可能最长成词,大规模真实文本的处理（6）,基于统计结果的分词算法首先，根据汉语词典(有56800条词汇)进行统计，发现：虽然词典中的最长词可以达到为20多个字节（十几个汉字），但是大多

30、数汉语词都可以由前两字唯一确定，这样的词占绝大多数(如在上述词典中占总词汇量的85以上)。,大规模真实文本的处理（7）,两个首字相同的词的个数的统计根据前两字可确定的词个数词总数所占百分比()148431 85.22 228012 9.86 35143 2.71 41184 0.83 5 465 0.40 6 306 0.32 7167 0.20 868 0.08 9 89 0.13 10510 0.09 14214 0.05 15 315 0.08 18118 0.03,大规模真实文本的处理（8）,机械分词主要是在字典索引的支持下进行的，索引结构可以分为两级。一级索引就用汉字内码，查找算

31、法用散列方法。而二级索引采用整个词长。,大规模真实文本的处理（8）,最大匹配法。最大匹配法简称MM方法。其思想是：在计算机磁盘中存放一个分词用词典，从待切分的文本中按自左到右的顺序截取一个定长的汉字串，通常为为词典中的最大词长，这个字符串的长度称作最大词长。将这个具有最大词长的字符串与词典中的词进行匹配，若匹配成功，则可确定这个字符串为词，计算机程序的指针向后移动与给定最大词长相应个数的汉字，继续进行匹配；否则，把该字符串从右边逐次减去一个汉字，再与词典中的词进行匹配，直到成功为止。逆向最大匹配法。逆向最大匹配法简称RMM法。这种方法的基本原理与MM法相同，所不同的是分词时对待切分文本的扫描

32、方向。MM方法从待切分文本中截取字符串的方向是从左到右，而RMM方法则是从右向左。在与词典匹配不成功时，将所截取的汉字串从左至右逐次减去一个汉字，再与词典中的词进行匹配，直到匹配成功为上。实验表明，RMM法的切词正确率要比MM法高,大规模真实文本的处理（9）,汉语分词的其他难点主要有分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的，歧义切分是自动分词中不可避免的现象，是自动分词中的一个比较棘手的问题。对歧义字段的处理水平，直接影响着自动分词系统的分词准确率。未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组

33、织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大，对它们识别正确与否直接影响着分词系统的正确率。然而，目前对于这些词语的自动辨识尽管作了不少的研究，但要想达到实际应用的要求，仍还有不少的困难。,大规模真实文本的处理（10）,除了由于未登录词而引起的歧义，切分歧义主要有三种类型：交集型歧义，即汉字串既可切成，又可切成。组合型歧义，即汉字串既可切分成，又可切分成。混合型歧义，是前两种的自我嵌套或三者的交叉组合产生的。为了既能得到较高的准确率，又有较小的开销，可以着重解决相对数量较大又较容易解决的交集型歧义。,大规模真实文本的处理（11）,

34、词类分析汉语的发展是先有字后有词，所以关于词的研究还存在一些问题，比较突出的是汉语词类的兼类问题。例如，大量的双字动词兼作名词。要进行汉语理解，如果不把词类先确定下来的话，那么下一步的分析也难以进行。汉语词类的兼类处理方法两种方法根据规则消除兼类，根据预料库统计消除兼类,本章主要内容,自然语言理解的一般问题词法分析句法分析语义分析大规模真实文本的处理Web信息抽取,Web信息抽取（1）,万维网既为人工智能和自然语言理解软件带来了机遇，也带来了许多挑战。最大的挑战是基于Web,抽取“有兴趣的”信息，提供用户个性化服务。最广泛使用的Web信息抽取是搜索引擎。大型互联网搜索引擎的数据

35、中心一般运行数千台甚至数十万台计算机。搜集机器自动搜集网页信息，平均速度每秒数十个网页，检索机器则提供容错的可缩放的体系架构以应对每天数千万甚至数亿的用户查询请求企业搜索引擎可根据不同的应用规模，从单台计算机到计算机集群都可以进行部署。搜索引擎一般的工作过程是:首先对互联网上的网页进行搜集，然后对搜集来的网页进行预处理，建立网页索引库，实时响应用户的查询请求，并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。,Web信息抽取（2）,Web信息抽取（3）,搜索引擎的一般系统架构包括页面搜集器、索引器、检索器、索引文件等部分。各部分之间的关系

36、：,Web信息抽取（4）,1.搜集器搜集器的功能是在互联网中漫游，发现并搜集信息，它搜集的信息类型多种多样，包括HTML页面、XML文档、Newsgroup文章、FTP文件、字处理文档、多媒体信息等。搜索器是一个计算机程序，其实现常常采用分布式和并行处理技术，以提高信息发现和更新的效率搜索器一般要不停地运行，要尽可能多、尽可能快地搜集互联网上的各种类型的新信息。因为互联网上的信息更新很快，所以还要定期更新已经搜集过的旧信息，以避免死链接和无效链接。,Web信息抽取（5）,2.分析器对搜集器搜集来的网页信息或者下载的文档一般要首先进行分析，以用于建立索引文档分析技术一般包括:分词（有些仅从

37、文档某些部分抽词，如Altavista）、过滤（使用停用词表stoplist）、转换（有些对词条进行单复数转换、词缀去除、同义词转换等工作），这些技术往往与具体的语言以及系统的索引模型密切相关,Web信息抽取（6）,3.索引器索引器的功能是对搜索器所搜索的信息进行分析处理，从中抽取出索引项，用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两种:元数据索引项与文档的语意内容无关，如作者名、URL、更新时间、编码、长度、链接流行度等等;内容索引项是用来反映文档内容的，如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项（或称短语索引项）两种。单索引项对于英文

38、来讲是英语单词，比较容易提取，在搜索引擎中，一般要给单索引项赋予一个权值，以表示该索引项对文档的区分度，同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。,Web信息抽取（7）,3.索引器为了快速查找到特定的信息，建立索引数据库是一个常用的方法，即将文档表示为一种便于检索的方式并存储在索引数据库中。搜索引擎普遍借鉴了传统信息检索中的索引模型，包括倒排文档、矢量空间模型、概率模型等。例索引器的输出是索引表，它一般使用倒排形式（Inversion List），即由索引项查找相应的文档。索引表也可能记录索引项在文档中出现的位置，

39、以便检索器计算索引项之间的相邻或接近关系（proximity）。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时，必须实现实时索引（Instant Indexing），否则就无法跟上信息量急剧增加的速度。索引算法对索引器的性能（如大规模峰值查询时的响应速度）有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。,Web信息抽取（8）,4.检索器检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种，可以查询到文本信息中的任意字词，无论出现在标题还是正文中。检索器从索引中找出与用户查询请求相关的文档，采用与分析索引文档相识的方法来处理用户查询请求。,Web信息抽取（9）,5.用户接口用户接口的作用是为用户提供可视化的查询输入和结果输出界面，方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等，其主要目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效的信息。用户接口的设计和实现必须基于人机交互的理论和方法，以适应人类的思维和使用习惯。,

展开阅读全文