自然语言处理与Web知识工程.ppt

资源描述

《自然语言处理与Web知识工程.ppt》由会员分享，可在线阅读，更多相关《自然语言处理与Web知识工程.ppt（59页珍藏版）》请在三一办公上搜索。

1、自然语言处理与Web知识工程,穗志方北京大学信息科学技术学院计算语言所,内容,知识工程与Web知识工程Web知识工程中的NLP技术研究基于NLP的知识工程实践,知识服务的现状,知识爆炸的时代对某个领域、某个主题存在多来源、多层次的知识资源来源1：专业百科全书、教科书（系统、全面、但太陈旧）来源2：期刊、文献（专业、深入、但不系统）来源3：网络（新、全、但太杂乱、不可信）无结构、无系统、无关联性、无对错不是知识不够用，而是计算机无法有效利用现有的知识,迫切需要高效的知识组织和管理模式,知识工程,什么是知识工程？1977年，美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识

2、工程”的概念；知识工程是用人工智能的原理和方法，为那些需要专家知识才能解决的应用难题提供求解的手段；以知识为处理对象，借用工程化的思想，研究如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务，是人工智能的一个应用分支；知识工程的目的是在研究知识的基础上开发智能系统；知识的表示、知识的获取和知识的运用构成知识工程的三大要素。,知识工程的bottleneck知识获取,传统知识工程往往依赖于人工构建需要耗费大量的人力和时间构建的知识库通常规模不大，难以支撑实际应用系统难以实时更新，通常大大落后于实际发展CYC从1984年开始，25年时间10万概念，百万关系中国大百科全书从1978年开始

3、，30年时间66个学科，8万个条目，1.264亿汉字,需要研发自动获取知识的技术,Web时代的知识工程,海量的数据Google 索引网页数突破1万亿（2008年）用户协作式构建的大规模百科知识维基百科：2001年开始，目前近300万条目（英文），26万（中文）百度百科：2006年开始，170万条目由全球100多万网民共同编写而成这些知识源，为大规模建立知识库提供了重要的知识来源。但是，它们都还是面向人的知识库，计算机难以利用。如何把它们转化为计算机能理解和使用的知识库，是一个重要的问题。,Web知识工程机遇与挑战,海量性与开放性知识需求精细化不确定性多源异构性,Web知识工程机遇与挑战,

4、冗余性半结构化网络百科用户日志搜索引擎API,Web知识工程机遇与挑战,在Web知识提取中，如何充分利用Web资源特有的各种优势，从多源异构、海量、开放的网络文本中准确地提取各种知识组成要素，是实现Web知识获取的一个关键问题。,从NLP的角度看知识工程,知识获取技术研究：利用NLP技术进行文本挖掘分析自然语言文本，发现知识点以及知识点之间的概念关系，辅助进行知识获取；知识型系统工具的建立：在知识系统的开发环境中，集成基于NLP的知识获取技术，利用自然语言处理技术将领域专家的劳动降到最低，解决知识获取的瓶颈问题。,自然语言处理与知识工程,基础与应用以知识工程为应用背景和实验平台，驱动、促进和

5、检验相关NLP的理论、方法与技术；以NLP技术为工具，辅助进行知识工程的实践。,内容,知识工程与Web知识工程Web知识工程中的NLP技术研究基于NLP的知识工程实践,Web知识工程中的NLP技术,利用自然语言处理和文本挖掘技术实现本体知识库的自动进化与扩充，使得大规模知识库的快速构建成为可能。,一个知识本体的自动生成过程,心脏病,心律失常,心血管疾病,心房颤动,心房扑动,1.提取术语,一个知识本体的自动生成过程,心脏病,心律失常,心血管疾病,心房颤动,心房扑动,1.提取术语2.提取概念属性概念学习,治疗,病因,症状,头晕胸闷气促,一个知识本体的自动生成过程,心脏病,心律失常,心血管疾病,心房

6、颤动,心房扑动,1.提取术语2.提取概念属性概念学习3.建立概念层级关系,治疗,病因,症状,头晕胸闷气促,术语自动提取概念属性的自动学习概念层级结构的自动生成,Web知识工程中的NLP技术研究,术语自动提取,输入：某领域的语料输出：该领域中出现的所有概念知识元基本原理概念在专业语料中的表现形式术语什么是术语？在特定专业领域中的一般概念的指称（GB/T 15237.1-2000 术语工作词汇）术语的特点一个词语，完整的语言单位出现频繁、结合紧密、使用自由单元度特定领域中的词语特定领域的一般概念领域度术语=单元度+领域度,单元度=内部结合紧密度+边界自由度领域度=基于领域部件+分类语料库,总体结

7、构,主要分为语料预处理模块、单元度计算模块、术语部件特征计算模块、领域度计算模块四个部分,术语部件特征计算,领域词典,通用领域语料,语料预处理模块对输入语料进行分词和串频统计单元度计算模块单元度计算综合考虑词串内部的结合紧密度以及词串之间的边界自由程度。根据串频统计的结果计算所有词串的单元度，并把单元度高于阈值的词串作为候选术语。术语部件特征计算模块从领域术语词典中提取术语部件，并利用术语词典统计术语部件的位置模板特征权值，以及利用两个规模相近的领域语料库和通用语料库统计术语部件的领域特征权值。领域度计算模块利用术语部件特征计算模块得到的术语部件特征，对单元度计算得到的候选术语计算领域度，并综

8、合单元度和领域度计算候选术语的综合权值并按该权值对候选术语降序排列输出。,知识元自动挖掘模块准确率：,基于互联网的属性值提取方法,自动提取概念之后，要进一步学习概念的属性知识概念提取：非典型性肺炎属性值提取：“非典型性肺炎”的症状、用药、并发症.基于WWW的Ontology属性值自动提取方法,基本假设,WWW海量网页信息的冗余性有利于属性值自动提取频繁出现的短语很可能是目标短语，利用网页信息的冗余性辅助计算机判断获取的信息的可靠性和权威性互联网数据足够大，只选取简单的语法结构即可保证信息的完备性,基于互联网的属性值提取方法,输入输出输入：互联网上的网页、概念列表、属性名列表输出：属性值填充

9、完毕的概念列表整体框架,基于互联网的属性值提取方法,定义相关句子条件1：句子中包含简单并列结构条件2：并列结构中出现种子属性值感冒主要表现为打喷嚏、鼻塞、流鼻涕、咽干、咽痛、咳嗽、声音嘶哑等症状流感具有和普通感冒相同的症状。如发热、恶寒、咳嗽、流涕、乏力、咽痛等感冒的症状有很多，如咳嗽、发烧、头痛、打喷嚏、流鼻水、鼻塞和喉咙痛等。普通小儿感冒初起的症状有：连续打喷嚏、流清鼻涕、咳痰清稀、鼻子堵塞、发热头痛和嗓子肿痛。是由流行性感冒病毒引起的急性呼吸道传染病，临床表现为发热、头痛、肌痛、乏力、鼻炎、咽痛和咳嗽。,基于互联网的属性值提取方法,属性值提取,效果评估,概念学习与层级关系自动提取的互动方

10、法,概念提取；非典型性肺炎属性值提取：“非典型性肺炎”的症状、用药、并发症.概念层次关系提取：非典型性肺炎-肺炎-呼吸系统疾病,概念学习与层级结构自动提取的互动方法概念内涵与外延之间具有反变关系，即：概念的内涵增加，则外延缩小；概念的内涵减少，则外延扩大。假设1基于层级关系推断属性值：如果概念A是概念B的下位概念，那么概念A很可能继承概念B的属性值；（下位概念继承上位概念的所有属性）假设2基于属性值推断概念层级关系：如果A的属性值集合是B的属性值的子集，那么A很有可能是B的上位概念。（内涵越丰富，外延越小）,概念学习与层级关系自动提取的互动方法,In the interaction of t

11、he two processes,the weight of premise will be introduced into inference.Only the candidates with high weight will be kept.,知识元数据库自动构建流水线工作平台,本体的自动构建：输入专业领域的语料，输出新构建的领域本体。（人机结合）本体的自动进化：输入专业领域的新语料，扩充原有的领域本体。（人机结合）,内容,知识工程与Web知识工程Web知识工程中的NLP技术研究基于NLP的知识工程实践,基于NLP的领域知识工程实践,项目名称：知识元数据库及基础平台建设中国出版集团科技项目

12、合作双方：北京大学计算语言所中国大百科全书出版社合作时间：2005年8月-2009年7月,研究目标,建立知识元数据库及其基础平台。面向社会、面向不同知识层次的人群，提供知识服务。,目前的信息服务只能提供表层信息，不能准确地提供知识，更不能实现不同领域知识之间的相互贯通。,由信息服务转化为知识服务！,核心理念：从语言到知识,在统一的知识表达架构之下整合不同领域、不同类型的知识资源，形成网状、互联、包含各领域核心知识的知识元数据库，并配套提供知识库建设及应用的系列支撑软件在此基础上研发多种知识服务类型与方式提供精、准、快的知识服务。,从自然语言和知识概念两个层面建设人机沟通的桥梁,知识元数据库？,

13、现有的中文网络数据库：通常是基于文献的资料库，注重对不同来源文献、网页的收集与索引。面向学生、学者，提供对整篇文献的查询结果。知识元数据库：以知识元为知识表示的基本单位,通过建立知识元之间的概念关联,构建网状、互联的知识元数据库。,高血压,并发症,高血压脑病,脑出血,脑梗塞,心力衰竭,肾功能衰竭,症状,实验室检查,并发症,知识系统、全面、准确,精品知识,广泛、全面的互联,消除信息孤岛,以知识元的形式表示知识,计算机充分理解和使用,特点：,有什么用？,下一代互联网语义网的基础构件在商业系统中的广泛应用：决策支持系统、软件工程、电子商务、半导体制造、飞机设计、企业过程管理全方位、多样化、个性化的知

14、识服务：智能检索、远程教学、知识咨询全球化知识交流与共享,知识元数据库与现有网络数据库的对比,自然语言处理、文本挖掘、知识组织,怎么做？,将线性的百科全书、文献资料转变为计算机可以理解和操作的结构化知识库。,知识元数据库建设步骤,收集整理不同领域、不同类型的知识资源；利用中文自然语言分析技术分析文献；发现知识点以及知识点之间的内在关联将大量的知识点结构化地组织和关联起来，产生信息智能连结；在统一的知识表达架构之下分类、重组、合并、整合，形成网状、互联的知识元数据库。,中文自然语言分析技术,文本挖掘技术,知识表示与知识组织,从自然语言和知识概念两个层面建立人机沟通的桥梁,主要研究内容,知识描述体

15、系的建立：建立网状、互联的结构化知识表达架构（把文献信息拆分为更基本的知识表示单元知识元，并建立知识元之间的智能关联）内容加工平台的设计与开发：在统一的知识表达架构之下汇总、分析、挖掘、整合不同领域、不同来源、不同类型的知识资源文本挖掘技术的应用：利用人工智能、自然语言分析以及文本挖掘技术对现有的多种信息资源进行自动化的结构重组，建立广泛、互联的知识元数据库知识服务的实现：在此基础上实现智能化和人性化的知识服务,医学领域的实验结果,知识重构工程流水线工作平台知识元描述体系介绍内容加工平台多来源资料的知识自动重构与自动导入知识关联网络基于知识关联网络的人性化知识服务,知识重构工程流水线工作平台,

16、多维网状智能关联的结构化知识库,知识关联网络,内容加工平台的设计与开发,总体策略：充分利用自然语言处理技术，将人工的劳动降到最低。,内容加工平台的设计与开发,内容加工平台的功能：数据库的基本编辑功能：结构的调整内容的编辑内容的检索基于NLP的智能编辑功能：从半结构化文本中自动提取知识元针对每个知识元，针对它对应的属性集合，通过自然语言分析、模式匹配等技术自动提取属性值；属性知识的自动标引知识元数据库的可视化导航,内容加工平台功能的设计与开发,网络功能（离线）批量网络内容提取知识元相关的批量网络内容提取基于Google检索的内容扩充在线网页内容提取,针对每个知识点，提供系统、全面、准确的知识（

17、以知识元的形式提供）提供一个知识点到其他知识点之间的相关联接通过对知识的深层分析，实现知识的结构化表示和多维重构，便于计算机对知识的充分掌握和自动推理，进而实现对知识的充分利用知识描述体系的科学性知识重构流水线工作平台尝试实现整个建库流程的自动化，区别于目前知识库建设中的Demo/Toy系统。使得知识库的规模化建设和批量生产成为可能内容加工平台的自动化,头晕、心口难受、浑身没有力气,刚测过血压，100/160。心电图正常。,什么是动脉硬化?,基于知识关联网络的人性化知识服务临床导医知识咨询系统,个性化、主动推送式远程教学服务,系统全面多知识点互联的知识关联网络,下一步研究展望网络信息融合与知识服务,网络信息融合关键技术研究面向网络信息融合的知识组织模型与方法服务于网络信息融合的文本分析与信息加工技术知识服务应用系统开发基于网络信息融合的知识服务应用示范系统构建,谢谢！,

展开阅读全文