基于模式的语义信息抽取与应用研究毕业论文.doc

上传人:牧羊曲112 文档编号:4958082 上传时间:2023-05-26 格式:DOC 页数:96 大小:1.88MB
返回 下载 相关 举报
基于模式的语义信息抽取与应用研究毕业论文.doc_第1页
第1页 / 共96页
基于模式的语义信息抽取与应用研究毕业论文.doc_第2页
第2页 / 共96页
基于模式的语义信息抽取与应用研究毕业论文.doc_第3页
第3页 / 共96页
基于模式的语义信息抽取与应用研究毕业论文.doc_第4页
第4页 / 共96页
基于模式的语义信息抽取与应用研究毕业论文.doc_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《基于模式的语义信息抽取与应用研究毕业论文.doc》由会员分享,可在线阅读,更多相关《基于模式的语义信息抽取与应用研究毕业论文.doc(96页珍藏版)》请在三一办公上搜索。

1、论文题目:基于模式的语义信息抽取与应用研究基于模式的语义信息抽取与应用研究Semantic information extraction technology and application based on patternsMaster Degree Candidate:Wang ShuangSupervisor:Sun YiSchool of Computer &Comunication EngineeringUniversity of Science and Technology Beijing30 Xueyuan Road,Haidian DistrictBeijing 100083,

2、P.R.CHINA致 本课题能够顺利完成,与我所得到的多方面的无私而热情的帮助是分不开的。我首先要感我的导师义教授。在本人读研期间,老师无论在学习还是在生活上,都给予了无微不至的关心。在整个毕业论文完成过程中,老师定期了解课题进展,积极提出宝贵意见,在老师严谨治学、精益求精的工作作风中体会到了老师崇高的人格魅力。另外我还要感实验室的另外两位老师德政老师和宏岚老师,感老师和老师对我的鼓励和肯定。老师积极的人生态度和拼搏精神,对我们产生深远影响,同时感老师为我们提供的良好的工作和学习环境。我还要感帮助和鼓励过我的每一位同学,他们是韦仕伟、于留宝、付彬、华镇。感在这近三年时间里给予我知识的老师们,正

3、是由于他们的辛勤施教,使我学到了许多宝贵的知识,能够顺利完成学业。真诚感我的父母、姐姐和朋友们。在他们的鼓励下,我勇敢前进,克服很多困难。他们的关心与帮助是我学习和生活最大力量来源。最后,感所有在百忙之中参加我论文答辩的老师们,在此致以我崇高的敬意和衷心的感。摘 要中医学作为中国特色的传统医学具有重要的社会价值,但是由于中医学理论体系的复杂性和特殊性,对中医理论和技术的全面把握需要较长的时间。特别是经过多年临床实践,而且拥有多年中医实践经验的专家,很好的反映出了中医学的特色。从而可以通过研究这些医案,进而了解中医学的方法和理论,从而快速、全面地了解中医理论和技术。面对海量文本形式的医案,目前普

4、遍采用手工填写结构化采集模板的方法结构化病案信息,不仅耗费大量人力物力,而且不能反应各个专家的特点。因此,本文主要研究如何通过计算机技术自动结构化文本形式的病案信息,从而为挖掘名老中医的临床经验和诊疗思路打下基础。本文针对中医病案文本信息的特点,从多个方面、不同角度对基于中医病案信息的自动抽取进行了深入研究,实现了一个基于模式匹配的医案信息自动抽取系统。本文的主要工作包括以下几个方面:1、综述信息抽取与相关技术方法,主要容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。2、重点研究了基于聚类的模式获取问题,以与基于模式的中医医案的信息抽取问题。实现了利用机器学习方法自动获取

5、模式,利用模式识别文本中的人名、地名、时间以与实体间关系信息。3、设计并实现了一个基于中医医案的信息抽取原型系统。该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。关键词:自然语言处理,信息抽取,模式生成,模式匹配Semantic information extraction technology and application based on patternsAbstractTraditional Chinese medicine as a Chinese traditional medicine has important social value .Medical

6、records as the doctor clinical thinking and treatment based on syndrome differentiation process records, is a concrete reflection of comprehensive application forms of traditional Chinese medicine. Pattern matching is a commonly used method in information extraction system, how to generate the model

7、 is the key problem in the field of information extraction. This paper presents a method of clustering based machine learning, the system can automatic pattern acquisition from text. The application of this method in traditional Chinese medical experiments in the literature, has achieved a good resu

8、lt. According to the characteristicsof text informationofmedical records,Study is conducted for theautomatic extraction ofChinese medical recordinformation based onmany aspects,from different angles,amedical informationautomatic extraction system ofpattern matching.The main work of this paperinclude

9、 the following aspects:1.Summary of informationextractionand relatedtechniques,The main contentsinclude therelated concepts introduced,Technicalterminologyexplanation,also includes theanalysis of all kinds oftechnology.2. Focus on the information extractionproblembased on the pattern oftraditional C

10、hinese Medicine, Construction of patternlibrary.3.The design and implementation of aprototype systembased oninformation extractionoftraditional Chinese medicine.The system provides amethodfor the user touse,can be achieved on thetraditional Chinese medicineinformation extractionis verygood.Key Words

11、:Natural Language Processing , Information Extraction,Pattern Acquisition,Pattern Matching(用英文逗号“,”分隔)目 录致I摘要IIIAbstractV插图和附表清单XI1 绪论11.1 课题背景11.1.1 课题的来源,目的和意义11.1.2 课题的研究容11.2 论文的主要工作21.3 本文的组织结构22 信息抽取模式学习系统综述32.1 信息抽取模式学习系统分类32.2 基于人工语料标注的IE模式学习系统32.2.1 基于人工语料标注的IE模式学习系统的原理32.3 基于人工语料分类的IE模式学习系

12、统62.4 基于自举的IE模式学习系统72.5 基于WordNet和语料标注的IE模式学习系统92.6 本章小结113 中医医案特征分析133.1 中医医案特征分析133.1.1 中医医案结构特征分析133.1.2 中医医案容特征分析153.1.3 中医领域本身的特点153.2 中医医案语义信息抽取的研究基础与存在的问题163.3 本章小结174 一种基于聚类的信息抽取模式自动生成方法184.1 基于聚类的模式生成方法的比较与选择184.2 单链法聚类的基本思想184.3 相关概念184.4 模式生成流程204.4.1 文本处理与聚类214.4.2 同类之间的模式合并244.5 实验结果和分析

13、264.6 本章小结295 基于模式匹配的信息抽取方法305.1 国外研究进展305.1.1 本课题国外研究进展305.1.2 本课题国研究进展305.2 中医医案信息抽取过程中模式的表示方式315.3 信息抽取程序的实现过程335.3.1 自动分词的实现345.3.2 加载模式库385.3.3 读取医案文件395.3.4 确定医案文件的段落主题415.2.5逐句遍历415.2.6正则匹配算法425.2.7存储提取结果435.4 本章小节446 基于模式匹配的中医医案信息抽取系统的设计与实现456.1 信息抽取系统的通用体系结构456.2 需求分析456.2.1 用户登录456.2.2 中医医

14、案管理456.2.3 用户词典管理466.2.4 模板匹配466.3 系统设计466.3.1 系统功能结构466.3.2 定义抽取任务476.3.3 构建开发程序486.3.4 数据库设计496.4 详细设计506.4.1 用户登录模块506.4.2 系统主界面516.4.3 用户词典模块526.4.4 中医医案管理模块536.4.5 基于模板匹配的抽取模块536.5 软件测试546.5.1 软件测试的步骤546.5.2 本系统的测试方案556.6 本章小结567 结论577.1 总结577.2 进一步的工作57参考文献59附录人工提取的语言模式63作者简历与在学研究成果69独创性说明71关于

15、论文使用授权的说明72学位论文数据集73插图清单图2. 1 AutoSlog采用的语言表达模式与IE模式4图2. 2一个标注后的语句与AutoSolg从中学出的一个概念节点5图2. 3 PALKA的一个FP-structure的例子6图2. 4 AutoSlog-TS学习IE模式的流程7图2. 5 ExDisco中用到的”管理职位继任”IE领域的两个种子IE模式8图2. 6 Exdisco的IE模式学习流程9图2. 7TIMES中的模式例子10图2. 8 TIMES的IE模式学习流程10图2. 9一个语句经过相应的NLP步骤处理后所得到的部结构11图2. 10 TIMES形成的特例模式11图3

16、. 1 一份典型的中医肝病病案14图4. 1信息抽取模式生成流程21图4. 2相关文档集21图4. 3相关文档集经过预处理后的结果22图4. 4分词后的文本划分为不同的类别23图4. 5相关文档集的聚类结果24图4. 6模式合并结果26图4. 7泛化后的模式结果26图4. 8中医医案文本27图4. 9测试语料划分为不同的类别27图4. 10实验得到的信息抽取模式28图4. 11信息抽取模式28图4. 12不适宜全部合并的实例29图5. 1中医信息抽取流程图33图5. 2典型中医肝病医案35图5. 3典型中医肝病医案分词标注结果36图5. 4MapRules的数据结构39图5. 5典型中医肝病医

17、案信息抽取结果44图6. 1基于模式匹配的中医医案信息抽取系统结构图47图6. 2信息抽取模块流程图49图6. 3用户登录界面设计50图6. 4用户管理界面设计51图6. 5系统主界面设计51图6. 6用户词典管理界面52图6. 7基于模版匹配的抽取界面53附表清单表5. 1模式库-系统用到的16个模式31表5. 2模式中数字的含义32表5. 3模式中字母的含义32表5. 4中医医案的用户词典34表5. 5 VecWordCate数据结构图39表5. 6基本信息部分实例40表5. 7主诉部分存储实例40表5. 8治则部分存储实例41表5. 9 VecWordCate数据结构图41表6. 1用户

18、信息表49表6. 2案例信息表501 绪论1.1 课题背景1.1.1 课题的来源,目的和意义该研究课题来源于“十二五”国家科技支撑计划“名老中医临床经验、学术思想传承研究(一)”项目。本课题研究目标是从中医传承的临床需求出发,汇聚中医学、认知科学、信息技术,研发中医医案信息抽取系统,即临床医案收集、储存、分析、管理为一体的系统,实现临床患者病案采集、数据存储、结构化处理等功能。研发模式库生成系统,实现自动化地从文本中获取模式,生成模式库,用于支持信息抽取的过程。研发信息抽取系统,实现系统自动识别出医案文本中特定语义信息。随着近几年来中医学研究的深入进行,对中医医案的信息分析需求越来越迫切,经历

19、了中国五千年的文化变迁,中医历史积累了海量的中医医案,收录散杂,在容和文字上不免也存在着讹、漏、误、衍等错误现象15,采用人工手段进行查找与分析已经不能满足快节奏需求。利用信息抽取的办法,将形式多样、容丰富繁杂的中医医案以统一、完整结构化的形式提取出来,有效而抢救性地整理和保留了临床经验,将无形的经验变成有形的可供大家共享的知识,这对我国中医药领域的传承意义重大。1.1.2 课题的研究容本文研究基于模式的信息抽取技术与应用,课题解决的主要技术难点与技术方案:(1)模式匹配是信息抽取普遍采用的方法,如何生成模式是课题研究的难点和重点。本文根据中文自身的特点,考虑到模式即为在文本中经常出现的句法结

20、构, 同时借鉴英文文本的模式获取方法, 提出一种基于聚类的模式获取方法,实现了从中医医案中自动获取模式。首先对文本进行预处理,然后对分词后的文本聚类,将分词后的短语划分为不同的类别, 则每个类别为一个模式集。将同一模式集中的模式实例进行合并, 就可以得到最终的信息抽取模式。(2)研究信息抽取技术在中医医案领域的应用,实现机器自动识别中医医案里包含的“病”、“证”、“症候”等相关属性与病人基本信息形成最小数据冗余的数据。本文尝试采用基于模式匹配的正则匹配算法。第一步对文本进行分词、词性标注处理,第二步在模式库的支持下,采用模式匹配算法,最终实现了机器对医案的“人名”、“出诊时间”、“症候”信息的

21、识别,以与实体间关系识别。1.2 论文的主要工作本文的主要工作包括以下几个方面:1)综述信息抽取与相关技术方法,主要容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。2)重点研究了基于模式的中医医案的信息抽取问题。构建动词库、模式库。3)设计并实现了一个基于中医医案的信息抽取原型系统。该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。1.3 本文的组织结构本文共分7章,每部分的组织如下:第一章首先介绍了本课题的课题背景,阐述了课题的来源,目的与意义,说明了课题的研究容。第二章给出了模式自动生成的学习方法以与它们的优缺点。第三章介绍了中医领域中文文本的特点

22、,提出了信息抽取的任务。第四章介绍了模式自动生成方法的思想和具体步骤,并给出了实验结果。第五章介绍了基于模式匹配的信息抽取方法第六章完成基于模式匹配的中医医案信息抽取系统,实现了其中的命名实体识别(人名、地名、时间等名词性短语)的工作第七章总结与展望最后是本文的参考文献,与本文作者对导师和实验室同学的衷心感!2 信息抽取模式学习系统综述2.1 信息抽取模式学习系统分类为了进行IE(Information Extraction)模式的学习,人们先后设计过各种IE模式获取系统,例如AutoSlog、PALKA、CRYSTAL、LIEP、AutoSlog-TS、ExDisco、TIMES等。根据IE

23、模式获取系统需要用户辅助工作方式的不同,可以把这些系统分为四个类别:它们为基于人工语料标注的IE模式学习系统,如AutoSlog、PALKA、CRYSTAL、LIEP等;基于人工语料分类的IE模式学习系统,如AutoSlog-TS等;基于种子模式的自举IE模式学习系统,如ExDisco等;基于WordNet和语料标注的IE模式学习系统,如TIMES等。下面分别介绍这四类系统的工作原理。2.2 基于人工语料标注的IE模式学习系统2.2.1 基于人工语料标注的IE模式学习系统的原理基于人工语料标注的IE模式获取系统的基本原理是:使用一种IE模式表示方式,人工预先标注训练语料,接着利用机器学习的方法

24、从训练语料中学出IE模式。例如AutoSlog、PALAK、CRYSTAL、LIEP。本节详细介绍AutoSlog和PALKA的工作原理。AutoSlog是世界上第一个成功实现利用机器学习的方法获取信息抽取模式的系统,由Univ.of Massachusetts开发。AutoSlog的核心就是一个模式学习算法。对于一个特定的IE任务,系统的输入是人工标注的训练语料,一套语言模式集(领域无关)和一个相关领域的语义词典。系统的输出是对应案例语句的IE模式。另外,整个统的实现需要CIRCUS句法分析器的辅助支持,CIRCUS句法分析器的功能是自动识别句子中的主语、谓语和宾语等。最后需要人工对学出的模

25、式进行审定和筛选。语言模式集(领域无关)由人工设计而成。对于不同领域的信息抽取任务,语言模式集并不需要做较大改动。图2.1列出了针对恐怖活动事件用到的语言模式,以与与它们对应的一条IE模式。 Linguistic Pattern Example passive-verb was murdered active-verb bombed verb infinitive attempted to kill auxiliary noun attempted to killactive-verb bombed infinitive to kill verb infinitive threatened t

26、o attack gerund killing noun auxiliary fatality was noun prep bomb against active-verb prep ki11ed with passive-verb prep was aimed at 图2. 1 AutoSlog采用的语言表达模式与IE模式这里的语言模式集和IE模式的不同之处在于:语言模式是领域无关的,是由人工预先给定的。而IE模式是由该系统自动生成的,是给出的语言模式实例化的结果。IE模式用于对一个事件进行信息抽取。语言模式“ active-verb”的含义是:一个充当主语的语法成分后面紧跟着一个主动形式的

27、动词短语。该种形式的句法结构在英语文本中经常出现,因而将此句型抽象出来作为一条语言模式。对应于该语言模式的一个IE模式“was murdered”的含义是:句子经过CIRCUS句法分析器处理后,“was murdered”充当动词短语,动词短语的左侧是主语语法成份,则此主语作为bombing事件的victim角色。若一个含有动词短语“was murdered”的语句经过句法分析后,在该动词短语的左侧有一个充当主语的语法成分,则该语法成分充当bombing事件的victim角色。上图中列出的其它语言模式和与每条语言模式相对应的IE模式案例可按类似的方法解释。可以使用此方法一次对上述语言模式和IE

28、模式解释。AutoSlog13和PALKA13等是最早向知识获取自动化迈进的系统之一。随后实现的CRYSTAL和LIEP,也旨在实现知识获取的自动化。但这些系统仍较多的依赖于手工的参与,可认为这些系统仅是一种半自动化的知识获取系统。如AutoSlog需要用手工标注训练数据,并设置启发式搜索规则以获取锚点(可认为是触发词);CRYSTAL除了要有手工标注数据,还要有语义层次和相关的词典;PALKA需要手工定义的框架(含触发词)、语义层次和相关的词典;LIEP则使用预先定义的关键词和对象识别器,依赖与用户的交互,给相关的语句分配事件类型。这些系统的特点是依赖手工标记过的数据或通过与用户的交互过程,

29、利用加工过的语料,学习语言的模式规则,是一种典型的机器辅助式知识获取。尽管如此,通过知识的半自动获取,系统仍然可以很大程度上减少手工的参与。如AutoSlog,其输入可描述为“标注实例+启发规则”,虽然该系统仍在一定程度上依赖于领域专业和语言学知识,但已大大减少了手工的参与,原先需1500人小时构建的概念节点,AutoSlog只要5人小时进行监督即可完成。CRYSTAL则向自动化更靠近了一步,它的输入可描述为“标注实例+语义层次词典”,无须人工监督过程即可完成学习过程。Sentence: In La Oroya,Junin department,in the central Peruvian

30、mountain range , public buildings (bombing,TARGET) were bombed and a car was detonated.CONCEPT NODEName: target-subject-passive-verb-bombedTrigger: bombedVariable Slots: (target(SUBJECT*l)Constraints: (class PHYS一TARGET *SUBJECT*)Constant Slots: (type bombing)Enabling Conditions: ( passive)图2. 2一个标注

31、后的语句与AutoSolg从中学出的一个概念节点FP-structure = Meaning Frame+Phrasal PatternMeaning Frame:(BOMBINGis-a:(TERRORIST-ACTION)keywords:(explode,hurl, throw, explosion, bomb,explosive, dynamite, grenade.)agent:(ANIMATE) ;optionalpatient:(PHYSICAL-OBJECT) ;optionaltarget:(PHYSICAL-OBJECT) ;optionalinstrument:(PHYS

32、ICAL-OBJECT) ;optionaleffect:(STATE) ;optionalPhrasal Pattern:(BOMB) BE HUTL AT (PHYSICAL-OBJ)FP-structure:(BOMBINGtarget:PHYSICAL OBi nstrument:BOMBpattern:(i nstrument)BE HURL AT(target)图2. 3 PALKA的一个FP-structure的例子2.3 基于人工语料分类的IE模式学习系统该类系统的典型代表是AutoSlog-TS,它是有Riloff于 1996年发明的。AutoSlog-TS是AutoSlog

33、的 后继产品,相比AutoSlog,AutoSlog-TS对用户的工作量与技能要求大大降低。该类系统的工作原理是:由人工将语料分为领域相关和领域不相关两类,系统根据这种分类方式学习出IE模式。图2.4显示了AutoSlog-TS学习出IE模式的过程。AutoSlog-TS系统的输入是用户给出的领域相关和不相关文档集与AutoSlog中用到的语言模式。AutoSlog-TS系统的输出是学习出的语言模式。整个过程可以分为两个阶段。第一阶段,用户提供出领域相关的和领域非相关的语料,使用CIRCUS句法分析器对语料进行句法分析,然后根据AutoSlog中用到的语言模式学习出相应的Concept Nod

34、e。例如句子“World trade center was bombed by terrorists”,经过CIRCUS句法分析器处理的结果为:“World trade center”充当句子的主语,“was bombed”充是句子的动词短语,“by terrorists”是介词短语。根据AutoSlog中用到的语言模式“passive-verb”和“passive-verb prep (np)”,生成两个Concept Node“ was bombed”和“bombed by ”。第二阶段,对于第一阶段学习出来的多个Concept Node,利用CIRCUS句法分析器对这些Concept N

35、ode进行领域相关性打分。如果Concept Node的领域相关性较低,则去除这个Concept Node。例如图2.4列出了计算出的领域相关性值,由于Concept Nodesaw 的领域相关性为49%,小于50%,表示相关性较差,因此去除这个Concept Node。RRSentenceAnalyzerS:world trade centerV:was bombedPP:by terroristssAutoSlogHeuristicsConcept Nodeswas bombedbombed by RRConcept Node Dictionary:was killedwas bombed

36、bombed by sawSentenceAnalyzerConcept Nodes REL%was bombed 87%bombed by 84%was killed 63%saw 49%图2. 4 AutoSlog-TS学习IE模式的流程2.4 基于自举的IE模式学习系统对于一个信息抽取任务,该类系统需要人工提供几个有代表性的种子模式,系统的输出是从相关领域文本中学习出的IE模式,同时系统将相关领域文本做相关性分类。该类系统的代表系统是ExDisco,由Roman Yangarber等人在2000年于纽约大学开发。下面以ExDisco为例,介绍基于种子自举的IE模式学习系统的工作原理。Ex

37、Disco系统的IE模式用二元组或者三元组表示。图2. 5列出了人工给出的两个种子模式,该IE模式用于管理职位继任事件。Subject Verb Direct ObjectC-Company C-Appoint C-PersonC-Person C-Resign -图2. 5 ExDisco中用到的”管理职位继任”IE领域的两个种子IE模式其中,C-Company表示公司类命名实体,C-Person表示人物类命名实体;C-Appoint表示任命类动词;它的集合为name ,promote,elect ,appoint;C-Resign为离任类动词,它的集合为step-down ,quit ,d

38、epart ,resign 。图中的第一个模式表示“任命”事件。该模式的意义是:如果句子的主语为C-Company语义类,句子的动词为C-Appoint语义类,句子的直接宾语为C-Person类,则这个句子表示一个“任命”事件。图中的第一个模式表示“离任”事件。该模式的意义是:如果句子的主语为C-Person语义类,句子的动词为C-Resign语义类,则这个句子表示一个“任命”事件。表中的第二个模式是一个“辞职”事件模式。该事件模式有二个元组组成,它们是在从句中充当主语的元组C-Person和从句中的动词短语元组C-Resign。该模式的含义是:当符合各自语义约束和语法约束的二个元组都出现在同

39、一个从句中的时候,则说明该从句描述了一个“管理职位继任”事件类别中的“辞职”事件。Exdisco的IE模式学习流程,算法描述如下:0)对于一个特定的IE领域任务,给定:一个未经分类的文档集D;几个种子IE模式集P。例如,管理职位继任信息抽取任务,给出的两个种子IE模式如图2.5所示。1)根据给出的种子模式,系统划分文档集合为领域相关文档集和领域不相关文档集。如果文档含有任意一个种子模式,则为相关文档集;若文档部含有种子模式,则为不相关文档集。2)生成新的候选模式将D中出现的每个从句都转换成一个候选模式,计算出这些模式的领域相关度,并按照这些模式的领域相关度大小将它们排序。模式p的领域相关度在首

40、次循环时的计算公式为:,其中,H(p)是其中出现模式p的文档集合。后续循环中,模式的领域相关度的计算依赖于其所出现在的文档的相关度,即,其中,Rel(d)是第i次循环时文档d的相关度。3)将领域相关度最高的模式加到模式集合P中。4)根据新生成的模式集合P,对每个文档重新进行领域相关度计算。5)转1),直到不再生成新的模式或某种循环条件达到为止。图2. 6Exdisco的IE模式学习流程2.5 基于WordNet和语料标注的IE模式学习系统 基于WordNet和语料标注的IE模式获取系统的典型代表系统是TIMES。TIMES的工作原理是:一个概念知识库WordNet的支持,它是领域无关的。人工给

41、出描述事件信息的文本,系统对该文本进行句法分析。人工指导系统从语义和语法两个方面对语句做泛化处理,最终生成IE模式。TIMES中的IE模式叫做规则。规则主要包含两个部分。第一部分是规则的触发条件,它由一个或多个条件组成,详细描述了条件具备的要素。模式的第二部分为满足条件时规则采取的动作。规则在条件触发后,就完成了一次信息抽取,实现了抽取出正确的目标。R1:Match(X1,company_type,NG)Match(X2,need,NG)Match(X3,specialist,NG) FS(X1,COMPANY)R2:Match(X1,company_type,NG)Match(X2,need

42、,NG)Match(X3,specialist,NG) FS(X3,POSITION)图2. 7TIMES中的模式例子R1中含有三个括号表示为子条件句,R1的含义是:若语句满足条件(1)X1是company_type语义类,同时是NG语法类型(2)X2的中心词为need,同时是NG语法类型(3)X3的中心词为speeialist,同时是NG语法类型,则X1作为事件的COMPANY角色。R2中含有三个括号表示为子条件句,R2的含义是:若语句满足条件(1)X1是company_type语义类,同时是NG语法类型(2)X2的中心词为need,同时是NG语法类型(3)X3的中心词为speeialist

43、,同时是NG语法类型,则X3作为事件的POSITOIN角色。TIMES的IE模式学习流程,步骤如下图所示:1)用户通过GUI选择一个含有事件描述的语句。2)系统对该语句进行分词、词性标注、命名实体识别和部分句法分析,并以每个短语最后的一个词作为短语的中心词。3)用户指示系统将相关的名词短语与其所能充当的事件角色关联起来。4)用户对某些有歧义的中心词进行词义消岐。5)系统记下用户的相关操作并形成相应的特例模式。6)系统从语法和语义两个方面对形成的特例模式进行泛化,形成一个泛化模式。图2. 8 TIMES的IE模式学习流程举例说明TIMES进行IE模式学习的基本流程0)假设信息抽取任务为:从工作信

44、息文本中抽取出公司、职位和职位的地理位置这三个目标信息。l)设人工给出的事件语句为“The National Technology Group has a need for qualified Inventory Specialists to work at an RTP client site for one month.”2) 对该语句进行分词、标注、命名实体识别和句法分析后,得到的部结构如下图所示:Important phrasesTargetSemantic typeheadworSyntactic categorysenseThe Natianal Technology GroupC

45、OMPANYCompanr_typecompantNG1HasNoneNonehasVG1A needNoneNoneneedNG1ForNoneNoneforPG1Qualified inventory SpecialistsPOSTITIONNonespecialistNG1atNoneNoneatPG1An RTP client siteLOCATIONNonesiteNG1图2. 9一个语句经过相应的NLP步骤处理后所得到的部结构对图2.9的解释:该表共有七列,第一列“Important phrases”列出了句子分词后的结果。第二列“Target”表示出事件的重要角色,是第一列词组充当的目标类型,若不能充当IE目标值为None。第三列“Semantic type”列出了左边短语的语义类型。第四列“headword”列出了左边的短语的中心词,规定短语的最后一个词为中心词。第五列“Syntactic category”显示左边短

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号