《自然语言处理现状与未来课件.ppt》由会员分享,可在线阅读,更多相关《自然语言处理现状与未来课件.ppt(104页珍藏版)》请在三一办公上搜索。
1、自然语言处理的现状与未来,李 生哈尔滨工业大学2019.5.21,一.信息与自然语言处理二.自然语言处理的主要研究方向三.下一代信息检索研究四.自然语言处理的未来思考,一.信息与自然语言处理,(一)语言是信息的载体(二)自然语言处理的概念及其研究方法(三)中文信息处理的特殊问题及所做工作(四)当前研究的特点,一.信息与自然语言处理,(一)语言是信息的载体 信息同能源、材料一起构成经济发展与社会进步的三大战略资源。信息技术正在推动和改变人类的生产、生活甚至是思维方式。 信息是无形的,但它可以用语言来表达。语言是信息的载体,语言是文化的支柱,语言是人类思维、沟通与交流的工具。语言技能是一种人力资本
2、。语言与经济、文化、教育,与社会发展和人类进步有着紧密的关系。,一.信息与自然语言处理,中国中文信息学会是一个学术性的群众组织。学会的学术研究内容是利用计算机对中文的音、形、义等语言文字信息进行加工和操作,包括对字、词、短语、句子、篇章进行输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等。它是语言学、计算机科学、认知科学、数学等多学科交叉的边缘学科。 自然语言处理是计算机应用的一个分支,是人工智能的一部分,但计算机技术和人工智能技术又都从属于信息技术。,一.信息与自然语言处理,(二)自然语言处理的概念及其研究方法 1.概念 自然语言处理通常是指用计算机对人类自然语 言进行的有意义的
3、分析与操作。 字 编码(机内码、输入码) 词 分词、词性标注、词义消岐 自然语言 句法分析 处理 句子 语义分析 语用分析 段落与篇章 话语结构分析,一.信息与自然语言处理,2.研究方法 基于规则 人工获取语言规则 基于统计 通过对大规模语料库的统计分析,实现对自然语言的处理 3.处理过程 语言问题形式化表示(模型)算法转换程序编制机器运行结果输出系统评测,一.信息与自然语言处理,(三)中文信息处理的特殊问题及所做工作 1.特殊问题 句子中单词的切分; 时态、语态、语气等没有严格的形式标记; 句子成分的省缺及指示代词的频繁出现; 语言资源的缺乏及其规范化问题。,一.信息与自然语言处理,2.所做
4、工作理论、方法与技术研究 结合汉语特点,引进国外技术实验和应用系统的研制开发 包括汉字处理、中文文本处理、中文语音处理、少数民族语言处理等资源建设 词典和语料库等评测 国内:863 国际:SIGHAN(分词)、NIST(机器翻译)、TREC(信息检索)等,一.信息与自然语言处理,(四)当前研究的特点 使用语料库处理大规模真实文本; 使用机器学习的方法自动获取语言知识; 使用统计数学(概率统计)的方法来分析语言数据; 以语言知识为核心的多种方法融合。,二.自然语言处理的主要研究方向,(一)基础与共性技术(二)机器翻译(三)信息检索(四)社会计算,二.自然语言处理的主要研究方向,(一)基础与共性技
5、术 1.汉字处理技术 汉字编码 汉字输入 汉字输出 2.词法分析 词是组成句子的基本单元。词法分析是要先将构成句子的字符串变成词串;然后再给句子中的每个词加上句法范畴标记(有时还需加上语义范畴标记)。,二.自然语言处理的主要研究方向,汉语自动分词 最大匹配法 最大概率法英语的词形还原词性标注 词性(part-of-speech)是词汇基本的语法属性,也称之为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。标注的重点是解决兼类词和确定未登录词的词性问题。,二.自然语言处理的主要研究方向,词义标注(Word Sence Disambiguation,WSD) 重点是
6、解决如何确定多义词在具体语境中的义项问题。对于多义词来说,一个词可以表达一个以上的意义,但它在具体的语境当中,意思往往是确定的。 标注过程中,通常是先确定语境,再明确词义。,二.自然语言处理的主要研究方向,3.句法分析 句子的结构分析,即找出句子所包含的句法单位以及这些单位之间的句法关系。有浅层句法分析和完全句法分析之分。 词的构成和变化规律称为词法;句子和短语的构成规则成为句法;语法研究的是语言结构的规律。狭义的语法等同于句法,广义的语法应为词法、句法、语义与语用的总称。,二.自然语言处理的主要研究方向,句法结构的形式化描述方法通常有两种:句法结构树、依存关系图。前者描述了句子的组成成分及各
7、个成分之间的结构关系,后者则描述了句子中词与词的依存关系。 任何句子都由关键成分(主、谓、宾)和修饰成分(定、状、补)构成,关键成分为主,修饰成分为辅。通常主语和宾语为名词或代词,谓语则为动词。谓语动词在句子中处于中心地位。,二.自然语言处理的主要研究方向,完全句法分析是要通过一系列的句法分析过程,最终得到一个句子的完整的句法树或依存树。浅层句法分析也叫部分句法分析或语块分析,它只是要求识别出句子中某些结构相对简单的成分,如非递归的名词短语、动词短语等。这些被识别出来的结构称之为语块(chunk),语块是一种介于词汇和句子之间的具有非传递特征的句子的重要成分,有时也可能就是通常的短语。,二.自
8、然语言处理的主要研究方向,语义分析 根据句法结构和句子中每个实词的词义推导出能够反映这个句子意义的形式表示。语义分析也可以由浅入深地进行,浅层语义分析又称语义角色标注,他的任务是将句子中各单元成分(短语或词汇)所扮演的语义角色(基于目标谓语的关系)标注出来。,二.自然语言处理的主要研究方向,语用、语境与篇章分析 语用是指人对语言的具体运用,研究和分析语言使用者的真正用意,他与语境、语言使用者的知识状态、言语行为、想法和意图有关联,是对自然语言的深层理解。 语境分析主要涉及的是情景语境和文化语境。 篇章分析是将研究扩展到句子界限之外,对段落和整篇文章进行理解和分析。,二.自然语言处理的主要研究方
9、向,词义消岐 确定在给定上下文语境中多义词的义。指代消解 确定指代词的先行语(指代词所指的对象或内容)的过程叫做指代消解,指代消解是建立概念关联的过程。命名实体识别 命名实体基本类型包括:人名、地名、组织机构名、数量表达式、时间短语、货币短语和百分比等7种。,二.自然语言处理的主要研究方向,信息抽取 是指从文本中抽取核心内容(包括实体、关系、事件等)并将其转换成结构化形式的过程。文本挖掘 从大量文本集合中获取用户感兴趣或者有用的模式的过程。,二.自然语言处理的主要研究方向,文本分类与聚类 文本分类 文本分类是一个有指导的学习过程。它根据一个已经被标注的训练文本样本集合,找到文本属性和文本类别之
10、间的关系模型,然后利用这种学习得到的关系模型对新的文本进行类别判断。 文本聚类 文本聚类是一个无指导的学过程。它是根据文本数据的不同特征,将其划分为不同数据类的过程,其目的是使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大。,二.自然语言处理的主要研究方向,自动文摘 文摘是依据用户需求从源文本中提取最重要的信息内容,生成一个精简版本的过程。文摘应具有压缩性、内容完整性和可读性。文摘可分为单文档文摘和多文档文摘。自动文摘的生成有浅层方法和深层方法。,二.自然语言处理的主要研究方向,复述与文本生成 复述 复述研究的是短语或句子的同义现象,任务有两条:一是识别两个短语或句子是否互
11、为复述-抽取,二是将给定的短语或句子复述成另外一个短语或句子-生成。复述保留了“概念上的近似等价”,而结构却不一定相似。 文本生成 文本生成是研究计算机如何根据信息在机器内部的表达形式生成一段高质量的自然语言文本。,二.自然语言处理的主要研究方向,话题检测与跟踪 在海量数据流中自动发现话题,并将与话题相关的内容联系在一起。时间是话题的一个重要特征,从时间概念出发,话题又可以分成“突发性话题”和“持久性话题”。话题具有“语义”和“时间”两个主要特征。除了事件内容之外,话题还通常包涵人物、时间、地点等命名实体。,二.自然语言处理的主要研究方向,情感分析 识别出文本中所包含的主观性句子,并对其情感趋
12、势进行分析与判断。 例:我前几天买了一台汽车,它不仅外观漂亮,而且性能很好。 这里的第一个句子为客观句,二、三两句诗主观句,主体是“我”,主题(评价对象)分别是“外观”和“性能”,他们都是汽车的属性,而情感词(评价词)分别为“漂亮”和“很好”。,二.自然语言处理的主要研究方向,处理过程大致如下: 1.识别出主观句; 2.找出主题词; 3.识别出情感词; 4.判断出情感词的极性; 5.句子倾向性分析; 6.确定主体。,二.自然语言处理的主要研究方向,(二)机器翻译 机器翻译的概念 机器翻译(Machine Translation,MT)是运用计算机来实现不同语言之间的自动翻译。通常,被翻译的语言
13、称之为源语言(source language),翻译结果的语言称之为目标语言(targer language)。机器翻译就是从源语言到目标语言的转换过程。从形式上看,机器翻译是一个符号序列的变换过程。,二.自然语言处理的主要研究方向,机器翻译的方法 机器翻译方法总体上可以分成基于规则的和基于语料库的两大类。 .基于规则的机器翻译方法 (RBMT,Rule-Based MT) 主要资源是词典与知识库(存放规则与常识性知识)。 基于转换的方法 通常由分析、转换、生成三个步骤构成。,二.自然语言处理的主要研究方向,这里的分析是指对源语言句子的分析,包括词法分析、句法分析、语义分析、语境分析等等,重点
14、在句子的结构分析,经过分析之后生成源语言的句法结构树(往往附有一定的语义信息);转换阶段要依据翻译规则实现将源语言的句法结构树转换成等价的目标语言的句法结构树;再运用词典和常识性知识等完成目标语言的生成。在实际翻译中往往是一个由词到短语再到句子的分层次转换的过程,二.自然语言处理的主要研究方向,基于中间语言的方法 这种方法首先将源语言句子转换成一种与具体语种无关的通用语言或中间语言,然后再将这种语言的句子转换成目标语言的句子。整个翻译过程包含了两个独立转换的过程。 这种方法适用于一对多的翻译。 基于枢轴语翻译。 基于语料库的机器翻译方法 主要资源是经过标注的语料库,语料库是按照一定原则组织在一
15、起的大规模真实自然语言数据的集合。,二.自然语言处理的主要研究方向,基于实例的方法 ( EBMT,Example-Based MT) 该方法需要对已有的语料进行词法、句法甚至语义等分析,建立存放翻译实例的实例库。系统在执行翻译的过程中,将翻译句子与实例库中的翻译实例进行相似性分析,其中最相似的句子的译文便为翻译句子的译文。,二.自然语言处理的主要研究方向,基于统计的方法 (SMT,Statistical MT) 运用概率统计等机器学习方法来获取知识,解决机器翻译中的问题。以双语对齐语料库为基础,对源语言和目标语言的词汇(或短语)的对应关系进行统计,通过同现的可能性计算两种语言映射的概率。 统计
16、机器翻译又称之为数据驱动(data-driver)方法,它是通过数学模型来描述翻译过程,利用双语语料库来估计模型参数,再用已获得的模型和参数进行解码(搜索),得到目标语言的译文。,二.自然语言处理的主要研究方向,通常使用的方法有基于规则的(实际上是指基于转换的),基于实例的和基于统计的三种。 基于规则的方法通过计算机程序最好地反映了人们对于语言翻译的认知和理解,基于实例的方法有效地发挥了计算机的存储能力,而基于统计的方法充分发挥了计算机的数学建模能力。,二.自然语言处理的主要研究方向,目前市场上应用的机器翻译系统多半是基于规则的和基于实例的,但由于基于规则的机器翻译系统人工编写规则的工作量太大
17、,知识库的规模和一致性都难以把握。基于实例的机器翻译系统的不足在于翻译实例的泛化、覆盖率以及实例的匹配等问题。基于统计的机器翻译大规模细粒度知识的自动获取能力较强,可以弥补前面两者的一些不足。基于统计的机器翻译方法已成为当前的主流研究方向。 影响机器翻译系统质量的主要障碍:歧义问题的处理,常识性知识的使用。,二.自然语言处理的主要研究方向,(三)信息检索 1.概念 信息检索就是指从有关文档集合中查找用户所需信息的过程。广义的信息检索是指先将信息按一定的方式组织和存储起来,然后再根据用户的需求从已经存储的文档集合当中找出相关的信息。其中包括“存”与“取”两个方面,“存”即信息存储,是对信息进行收
18、集、标引、描述、组织,进行有序的存放。“取”即信息查找,是按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需信息或获取其线索的过程。,二.自然语言处理的主要研究方向,基本原理 是将用户的检索提问词(关键词)与数据库文献纪录中的标引词进行对比,二者匹配一致时,即为命中,检索成功。这里“存”和“取”的联系一致是通过检索标识来实现的,检索标识是为沟通文献标引和检索提问而编制的人工语言。 检索结果按与提问词的关联度输出,供用户选择。用户通常是采用“关键词查询+选择性浏览”的与机器交互方式获取信息。,二.自然语言处理的主要研究方向,搜索引擎 信息检索最早是在上个世纪50年代提出的。90年代互联
19、网出现以后,其导航工具-搜索引擎可以看成是一种特殊的信息检索系统,如果说二者有区别的话,那就是语料库集合和用户群体有所不同,搜索引擎面临的语料库是规模浩大、内容繁杂、动态变化的互联网,用户群体不再是具有一定知识水平的科技工作者,而是兴趣爱好、知识背景、年龄结构差异很大的网民群体。目前多数人习惯于二者通用。,二.自然语言处理的主要研究方向,以谷歌为代表的“关键词查询+选择性浏览”的交互方式的特点是:用户用简单的关键词作为查询提交给搜索引擎,搜索引擎并非直接把检索目标页面反馈给用户,而是提供给用户一个可能的检索目标页面列表,用户浏览该列表并从中选择出能够满足其信息需求的页面加以浏览。 这种交互方式
20、对于用户来说查询输入简单了,但机器却难以通过简单的关键词准确的理解用户的真正查询意图,因此只能将有可能满足用户需求的结果集合以列表的形式提供给用户。,二.自然语言处理的主要研究方向,问答系统 是要机器自动地从互联网上找出问题的答案。这里的用户查询(提问)是自然语言,而返回的结果是直接答案(不是网页)。 信息过滤 信息检索是针对动态变化的信息需求从固定的信息集合中获取相关知识,信息过滤则是针对固定的信息需求从动态变化的信息流中获取相关知识。二者都是依靠信息的相关性进行判断。 衡量信息过滤效果的依据在于系统要尽可能多地获取相关信息,而同时也要尽可能多地屏蔽掉不相关信息。这里的关键技术在于去噪声能力
21、要强。噪声即来源于不相关文本,也来源于相关文本中的不相关信息。,二.自然语言处理的主要研究方向,(四)社会计算 概念 也称计算社会学,是指在互联网的环境下,以现代信息技术为手段,以社会科学理论为指导,帮助人们分析社会关系,挖掘社会知识,协助社会沟通,研究社会规律,破解社会难题的学科。 社会行为与计算系统交互融合,计算机科学、社会科学、管理科学等多学科交叉所形成的研究领域。 用社会的方法计算社会。 基于社会的计算,面向社会的计算。,二.自然语言处理的主要研究方向,社会媒体 社会媒体(Social Media)是社会计算的主要工具和手段,它是一种在线交互媒体,有着广泛的用户参与性,允许用户在线交流
22、、协作、发布、分享、传递信息,组成虚拟的网络社区等等。近年来,社会媒体呈现多样化的发展趋势,从早期的论坛、博客、维基到风头正劲的社交网站、微博,正在成为网络技术发展的热点和趋势。,二.自然语言处理的主要研究方向,社会媒体的文本属性特点是其具有草根性,字数少、噪声大、书写随意;社会属性特点是其具有社交性,在线、交互。它赋予了每个用户创造并传播内容的能力,实施个性化发布,社会化传播,将用户群体组织成社会化网络,目前典型的社会媒体是Twitter和Facebook,在我国则是微博,用户已经超过了3亿。微博即微博客(Micro Blog)的简称,是一个基于用户关系的信息分享、传播以及获取的平台。,二.
23、自然语言处理的主要研究方向,社会网络分析 社会媒体是允许用户广泛参与的新型在线媒体,通过社会媒体用户之间可以彼此之间在线交流,形成虚拟的网络社区,构成了社会网络。社会网络是一种关系网络,通过个人与群体及其相互之间的关系和交互,发现它们的组织特点,行为方式等特征,进而研究人群的社会结构,以利于他们之间的进一步共享、交流与协作。,三.下一代信息检索研究,(一)互联网及其相关技术(二)当前搜索引擎存在的问题(三)垂直搜索(四)智能搜索(五)个性化搜索(六)跨语言信息检索(七)多媒体信息检索,三.下一代信息检索研究,(一)互联网及其相关技术 互联网 互联网是一个具有开放性、动态性、异构性的全球分布式网
24、络。通常,搜索引擎要从互联网上抓取几千万甚至是几十亿个网页并按关键词构建索引,当用户提出查询请求的时候,所有在页面内容中包含有查询关键词的网页都被作为搜索结果查找出来,然后再按与查询关键词的相关程度将结果排序输出。,三.下一代信息检索研究,网络资源的特点(1)海量数据;(2)分散无序,信息存在于各服务器上,而数以千万计的网络服务器则散布世界的各个角落;(3)动态更新(不稳定性);(4)种类/形式多种多样,文字、图形、图像、音频和视频等,多种语言;,三.下一代信息检索研究,(5)非结构化与半结构化;(6)语义冗余和质量难以控制;(7)需求与使用方式个性化。 海量、分布、无序、动态、 多样、异构、
25、冗余、质杂、 需求各异,三.下一代信息检索研究,相关技术(1)自动搜索技术 搜索引擎利用爬虫技术(Crawler),根据网 页链接抓取互联网上相关页面并建立起它们之间的超链接关系。(2)自动标引技术 对搜索到的信息进行标引,然后建立倒排索引(Inverted Index),并形成索引数据库。,三.下一代信息检索研究,(3)自动匹配技术 用户输入检索项后,系统将检索项与索引数 据库中的索引项匹配,再按相关度大小将结果 排序输出。 根据以下两项因素对结果进行排序:检 索项与文档的匹配程度,主要是通过TF-IDF反 映;网页的质量,通过是预先算好的基于链接分析(Pagerank)反映。,三.下一代信
26、息检索研究,检索效果评价 准:相关性好; 全:覆盖面宽; 快:查找速度快; 新:实时性强(内容更新迅速); 界面友好,使用方便。 这里重点是“准”和“全”。“准”通常用“准确率”来表述,“全”通常用“召回率”来表述。 准确率=检出的相关文档数/检出文档总数 召回率=检出的相关文档数/相关文档总数,三.下一代信息检索研究,对于信息检索的评价应该包括效果(Eff-ectiveness)和效率(Efficiency)两部分,效果主要是指查准率(准确率)与查全率(召回率),而效率应该是指响应时间的快慢和耗费软硬件资源的多少。目前多数的评价主要针对的是效果而不是效率。 目前国际上对信息检索评价最有权威的
27、应该是TREC(文本检索会议,Text REtrieval Conferen-ce)。,三.下一代信息检索研究,(二)当前搜索引擎存在的问题 查询手段单一,采用关键词; 查询结果粗糙,返回的是大量网页,粒度太粗,而且只有少数有用; 不能满足用户的个性化需求,同一用户的不同次查询相互独立,不同用户的相同查询返回的是同一结果,即查询结果只与查询词有关,而与用户无关。,三.下一代信息检索研究,下一代搜索将把个性化信息及人际推荐关系叠加到链接分析上,大大改善搜索结果排序效果;同时,跨媒体搜索将实现诸如用图片搜索图片等功能,打通文字,图片,视频,声音的界限,颠覆现在全部基于关键字的搜索方法,为用户带来更
28、加直观的搜索体验。,三.下一代信息检索研究,(三)垂直搜索 垂直搜索是针对某一行业的专业搜索引擎。它和普通搜索引擎的最大区别一是抓取专业网页,二是对网页信息进行了结构化信息抽取,也就是将专业网页的非结构化数据抽取成特定的结构化数据,将这些数据进行去重、分类,再分词、索引,然后存储起来,以备专业用户进行查询。,三.下一代信息检索研究,垂直搜索是根据专业用户定制的主题,在互联网和内部网上搜索专业用户感兴趣的信息,对于搜索到的网页还要依据与专业主题的相关度进行主题过滤。 垂直搜索的信息源除了互联网上的信息之外,还可能包括区域信息(局部网)和本单位所存有的电子信息。 垂直搜索引擎具有社区化特征,它定位
29、于一个行业,服务于一群特定需求的人群,本质上是对垂直门户信息提供方式的一次简化性整合。,三.下一代信息检索研究,(四)智能搜索 传统的搜索引擎存在着“信息丢失”和“文海捞针”等问题,原因在于一是对查询请求的深度理解不够,二是对输出结果的深度加工不够,三是检索过程缺乏适应与学习能力。解决的办法除了采用查询扩展等方法之外,还需把自然语言理解与处理的相关技术,如词法分析、句法分析、语义分析、词义消岐、信息抽取、分类、聚类、自动文摘以及机器学习等方法用在搜索引擎上,使得搜索引擎可能插上智能化的翅膀。,三.下一代信息检索研究,工作可以从两方面入手,一是用户检索接口的友好性,二是检索过程的可学习性。用户可
30、以使用自然语言或跨语言查询,系统了解用户的兴趣,有针对性的查询并输出满足用户需求的排序结果或直接提供给用户所需信息与知识,人机对话简捷方便。利用语法分析、语义分析等技术使系统尽量理解人类的自然语言,运用语义网络,采用机器学习方法,建立深层次、高品质的检索模型,满足人类更高的检索需求。,三.下一代信息检索研究,(五)个性化搜索 思路 通过跟踪分析用户的搜索行为(包括个人兴趣及群体行为),来提高有针对性的检索效率。个性化在于针对性,针对不同用户的不同需求采取不同的服务策略,提供不同的服务内容。采用兴趣制导或人机交互等灵活手段搜集互联网上的信息,以满足用户的个性化需求。,三.下一代信息检索研究,传统
31、的搜索引擎查询结果只取决于查询词,而与用户无关。个性化信息检索的查询结果要满足不同用户的个性化要求,既要做到与用户相关。即使是提交的查询词相同,但对于不同的用户或者同一用户的不同时期或不同背景,机器提供的查询结果也是不尽相同的。,三.下一代信息检索研究,问题的解决:一是获取以多种形式表达的用户兴趣信息,包括显式、隐式以及相关用户(用户群体)的需求,构建用户兴趣模型;二是结合用户查询,全面、准确地描述用户的检索意图,创建以用户为中心的信息检索模型,以满足不同用户的个性化需求。,三.下一代信息检索研究,用户兴趣模型 查询结果与用户相关准确理解用户的查询意图把握用户的兴趣偏好(同时要尽量减少用户直接
32、参与的程度)挖掘用户兴趣,构建用户兴趣模型。 兴趣采集,显式:用户的明确表达,包括注册信息(背景),评价与反馈信息(标定);隐式:对用户浏览行为的跟踪,通过分析用户日志总结出用户兴趣偏好的特征。,三.下一代信息检索研究,信息表达,建立用户描述文件,用以定义用户信息在机器中的表达和存储形式。 分析与建模,将用户兴趣转换成可计算资源,结合内容分析和行为分析构建用户兴趣模型。 学习与更新,用户兴趣模型应具备学习与更新功能,自适应,增量式,支持主动学习和在线学习。,三.下一代信息检索研究,模型的数学表达: U=M(c,d,v) c用户兴趣类别;d兴趣度;v加权关键词,采用层次类别表示法 信息检索模型
33、运用相关反馈技术提高检索性能,创建以用户为中心的信息检索模型。 传统模型:M=R(Q,D),三.下一代信息检索研究,当前个性化模型: M= R(R(Q,D),U) 基于用户参考文档模型: M=R(Q,D,U)=R(MQ,MD) 其中: MQ=F(Q,U) MD=F(D,U,V),三.下一代信息检索研究,式中 MQ: 针对特定用户重估后的查询模型 MD: 针对特定用户重估后的文档模型 Q: 查询, D:文档, U:用户 V: 网页(文档)价值 R: 相关度计算 R: 重排序 F: 反馈,三.下一代信息检索研究,三.下一代信息检索研究,用户参考文档:由用户(或具有相似性兴趣的用户群)在检索过程中浏
34、览的内容及点击等行为记录所组成,能够反映特定用户检索兴趣和偏好的文档信息集合,基于用户参考文档的个性化检索模型总体框架,基于用户参考文档的个性化检索模型,三.下一代信息检索研究,参考文档是指能够反映特定用户检索兴趣和偏好的文档集合,它在一定程度上反映用户的检索意图,与用户的检索内容和检索行为有关。 用户可以依据查询结果重构查询模型和文档模型。这里也是利用反馈技术来提高检索性能,创建以用户为中心的信息检索模型。,三.下一代信息检索研究,个性化检索就是要做到以用户为中心,让机器了解用户用户兴趣的挖掘分析与跟踪;让机器满足用户用户需求信息的过滤与推送;让机器帮助用户用户需求信息的分析与处理。,三.下
35、一代信息检索研究,(六)跨语言信息检索 跨语言信息检索是指查询语句与被检索文档使用不同语言的信息检索,通常用户查询语言使用母语,称之为源语言,被检索文档所使用的语言称之为目标语言。跨语言信息检索除了要运用好信息检索技术之外,还要有效地运用机器翻译技术,甚至还要解决好在翻译过程当中的歧义消解问题。,三.下一代信息检索研究,跨语言信息检索常采用的翻译方法有:翻译查询语句、翻译被检索文档、采用中间语言,还有运用潜在语义标引的不翻译方法。目前的主流做法是翻译查询语句的方法。 查询语句翻译存在的特殊问题是:查询语句短,没有上下文;通常是关键词罗列,不符合语法;翻译目的不是单纯得到译文,而是要全面、准确地
36、反映查询意图。,三.下一代信息检索研究,跨语言信息检索过程通常如下:查询语句的翻译,将查询语句翻译成目标文档所使用的语言;文档检索,利用与目标文档使用同一语言查询语句对文档库进行检索;结果呈现,将检索结果整理排序,并以摘要的形式呈现给用户。为了便于用户浏览,这里的目标文档的摘要最好预先翻译成查询语句所使用的语言;文档翻译,对于用户点击的目标文档应提供从文档语言到查询语言的翻译。,三.下一代信息检索研究,(七)多媒体信息检索 多媒体信息检索是指对音频、图像、视频等信息进行检索。传统的做法是仿照文本信息检索,先用人工著录的方式,给它们附加上描述其外部特征或有关内容特征的文字(或数字)标签,然后再根
37、据这些标签进行检索。20世纪90年代初,国际检索界开始使用“基于内容的信息检索”(Content Based Retrieval, CBR)。,三.下一代信息检索研究,基于内容的多媒体信息检索是根据媒体和媒体对象的内容语义及上下文联系进行检索。它直接对音频、图像和视频内容进行分析,抽取特征和语义,利用这些内容特征建立索引,并进行检索。它要充分利用媒体的听觉和视觉特征。,三.下一代信息检索研究,音频检索 声波振荡沿着载体传播就产生了声音,当声音以电信号传递,也就是借助电路传输的时候,我们就称之为音频。声波是一种模拟信号,计算机处理声音的时候,必须把模拟信号转换成数字信号。数字音频信息是一个数据序
38、列,它是由模拟声音经过采样、量化和编码后得到。,三.下一代信息检索研究,让计算机能够“听懂”人类的口述语言为语音识别,目前语音识别技术正在研究大词表、非特定人、连续语音的识别。 语音检索方法之一就是利用大词汇语音识别技术进行检索,首先利用语音识别技术把语言信息转换成书面文本,然后再利用传统的文本检索方法进行检索。 另一种方法就是对音频信息进行分析处理,提取其听觉及内容特征,建立索引结构。声音的感知特征通常是音调、音响和音色等。,三.下一代信息检索研究,还有一种方法是基于说话人辨认进行语音分割和检索,这种方法只是简单地辨别出说话人的语音差别,而不是识别其所得是什么内容。 音频检索是利用查询特征与
39、语音文件特征之间的距离函数来进行相似性匹配,以获得预期的检索效果。 音频检索除了语音之外,还有音乐检索和其它声响检索。,三.下一代信息检索研究,图像检索 图像检索的传统方法是利用图像的外部特征进行检索,如标题、时间、文件名称及扩展名等。图像的内容(语义)特征往往是事先由人工来标注的。 基于内容的图像检索主要利用图像对象的语义和图像的视觉特征来进行。利用视觉特征的图像检索要借助于模式识别技术,来分析出图像的视觉特征,主要包括颜色、纹理、形状和空间关系等。通常要进行预处理和图像分割,语义描述和特征提取是关键。,三.下一代信息检索研究,在具体的检索过程中,可以将这些特征两两结合,例如可以首先借助颜色
40、或纹理特征进行一次粗检索,把大量不感兴趣的图像过滤掉,然后再对剩下的结果用形状特征或空间关系特征进行细检索。也可以综合考虑各种特征的特点,进行深层次的特征融合,形成新的特征,利用新的特征进行标引和检索。,三.下一代信息检索研究,利用图像语义进行检索是根据人们对图像的理解和描述的习惯去检索图像。当前,几乎所有的商用图像信息检索系统(如Google、Yahoo等)都是首先提取网页中图像周边的文本信息(人工标注),然后运用文本搜索算法进行图像检索。 由于人工标注劳动量大以及存在不一致性等问题,人们探讨运用机器学习方法进行自动标注。,三.下一代信息检索研究,自动图像语义标注(Automatic Ima
41、ge An-notation)就是利用已标注的图像集自动建立语义概念空间与视觉特征空间的关系模型,并用此模型去标注未知语义的图像,即试图在图像的高层语义特征与低层视觉特征之间建立起一种映射关系。也就是说要利用图像的低层视觉特征(如颜色、纹理、形状等)通过上述的关系模型找出图像的高层语义特征。目前的自动图像语义标注方法还存在着不少问题,算法的复杂度过高,标注的准确率过低。,三.下一代信息检索研究,视频检索 视频可以看成是由多幅连续的静态图像构成的画面序列,沿着时间轴间隔更换。这单幅的静态图像叫做桢,若每桢图像是由人工和计算机产生的,称为动画,若为实时获取的自然景物图像,则为影像。在机器处理过程同
42、样需要将视频的模拟信息转换成数字信息。,三.下一代信息检索研究,视频可用桢、镜头、场景和幕来描述。桢是一幅静态图像,是组成视频的最小单位;镜头是由一系列桢组成的一段视频,是个连续动作,由一个或多个关键桢来表示。关键桢是一幅幅图像,视频检索往往是一个个关键桢的检索;场景包含有多个镜头,针对同一批对象但拍摄的角度不同表达的含义也不同;幕是由一系列相关的场景所组成,包含一个完整的事件或故事情节。,三.下一代信息检索研究,视频检索同样要提取其各种视觉特征,如颜色、纹理、形状、空间关系,还要有运动特征,用这些特征建立视频内容索引,以满足用户基于视觉、运动和语义属性等方面的查询要求。 视频检索首先要把视频
43、文件分割成一个个镜头(视频是镜头的衔接,镜头的衔接有突变和渐变),再找出镜头中的一组关键桢(代表镜头语义内容的桢),通过关键桢的匹配来达到检索的目的,这是通常所说的基于关键桢检索。,三.下一代信息检索研究,基于运动特征的视频检索就是利用视频单元的运动特性,检索出包含相似运动特性的视频场景或镜头。 还可以有基于视频语义特征的检索,目前由于完全自动地提取视频中语义特征在技术上实现起来难度还很大,所以研究还处于初步阶段。,四.自然语言处理的未来思考,(一)成就与问题(30年)(二)国家的重视(三)未来的思考,四.自然语言处理的未来思考,(一)成就与问题(30年) 1.成就 汉字激光照排, 联想汉卡,
44、 汉王手写输入, 亚伟速录, 科大讯飞语音合成, TRS中文检索, 北大语法信息词典, 知网, 自然语言处理的基础研究与共性技术, 机器翻译、信息检索等应用研究, ,四.自然语言处理的未来思考,2.问题汉字输入、激光照排等方面取得了突破性成就,但与印欧语言相比,汉语是意合语言,在结构分析和语义理解方面还有差距;在基础与共性研究方面,跟踪多,改良多,原始创新少;在方法与技术方面,孤立研究多,综合运用少;孤军作战多,联合攻关少,形不成拳头,形不成气候;在一定程度上还是重应用,轻基础,轻理论。在一定程度上还是重应用,轻基础,轻理论。,四.自然语言处理的未来思考,(二)国家的重视1.国家中长期科学和技
45、术发展纲要(2019-2020)中将“以图像和自然语言理解为基础的以人为中心的信息技术”列为前沿技术;2.十七大提出“以信息化带动产业化”,国家在十二五规划中提出要“全面提高信息化水平”,两化融合成为我国经济建设的一个指导方针,四.自然语言处理的未来思考,3.2019年底,科技部组织编写的中国技术前瞻报告指出,未来十年我国在信息、生物、新材料三大领域中最有可能的科学突破与技术突破集中在十个方面,其中之一就是中文信息处理;4.2019.12由中国工程院倡议主办,中国科协下属24个学会、协会,8个行业协会,国务院14个部委局,46个大型企事业单位,93位工程院院士,2位科学院院士参加的,推选“20
46、世纪我国重大工程技术成就”中,第一名是“两弹一星”,第二名便是“汉字信息处理与印刷革命”;,四.自然语言处理的未来思考,5.2019年,国家863计划信息领域设立了“以中文为核心的多语言处理技术”重点项目;6.2019年973重要支持方向中,信息科学领域“5.互联网环境中文信息处理与深度计算的基本理论与方法”和“8.社交网络分析与网络信息传播的基础研究”;7.国家自然科学基金每年的重点课题中都有自然语言处理相关内容,F0206位自然语言理解与机器翻译。,四.自然语言处理的未来思考,(三)未来的思考 物联网与人联网(社会网络) 物联网(The Internet of Things-IOT),是实
47、现物物相连的互联网络。是指将各种识别及传感设备,如RFID、GPS、传感器、红外感应器和激光扫描仪等嵌入到物体当中,按照约定的协议,再将这些物体用无线或有线通信网络连接起来,所形成的人与人、物与物、人与物之间可以广泛进行信息沟通的新型网络。,四.自然语言处理的未来思考,社会网络是通过社会媒体实现用户(人与人)之间的在线交流,形成虚拟的网络社区,构成了社会网络。社会网络是一种关系网络,通过个人与群体及其相互之间的关系和交互,发现它们的组织特点,行为方式等特征,进而研究人群的社会结构,以利于他们之间的进一步共享、交流与协作。,四.自然语言处理的未来思考,未来以物联网为核心的信息空间 将会把人类社会
48、和物理世界更加紧密地联系在一起,实现人类社会、信息空间、物理世界三者的全面连通与融合。信息空间与人类社会的关系将由以技术为中心转化为以服务为中心。为了实现服务的普适化(无所不在,随时随地),要将感知设备(如,传感器等)和计算设备嵌入到物理世界的实体(人和物)中去,再由泛在网将它们全面的连通。,四.自然语言处理的未来思考,在网络环境下,作为社会主体的人通过具有共同的兴趣、爱好、价值及行为等特征相互联系在一起构成网络的虚拟社区,形成虚拟社会。虚拟社会是现实社会的映射,它与现实社会相互关联、相互影响,现实社会的矛盾与问题能够很快地反映到虚拟社会中,并能迅速的传播与扩展,当然也可以利用虚拟社会去化解和
49、沟通。未来社会的进步和发展离不开物联网,也离不开人联网。,四.自然语言处理的未来思考,2.从需求出发 发展,应用 价值,意义,必要性 需求-应用问题-科学问题-实施方案- -预期效果 学术(研究)跟着工程走国内外交往的信息及语言支持;互联网上海量信息的处理;国家文化产业振兴的支柱;经济与社会发展的保障;理论技术、应用需求及国际前沿的差距。,四.自然语言处理的未来思考,2.抓住时机 敏感性(前沿,实用) 三个计算(泛在-无所不在,无所不能;服务-以服务为中心,创新要更多地体现在商业运作模式上;人本-基于人,为了人,用社会计算社会,基于与面向) 三个深度结合(感知、连通与计算;软件与硬件;理论、技
50、术与服务) 深度(如语义理解),广度(外延,如社会计算),四.自然语言处理的未来思考,实现六个转变:计算功能-由数值计算到信息处理的转变;计算方法-由单机到多机分布计算、网格计算及云计算的转变;开发应用-由以技术为中心到以服务为中心的转变(商业运作模式),普适化;,四.自然语言处理的未来思考,(四)知识获取-由依赖专家到依赖用户(草根)的转变,专家-专人-自然标注(无组织)-众包(有组织的群体智慧);(五)研究方法-由以模型为重点到以数据(大)为重点;(六)信息处理-由表层特征(文本-语法,图像-形状、颜色、纹理等)向深层语义分析转变。由用户采用关键词搜索到个性化推荐,直接回答用户问题的转变。