数字图书馆信息检索.ppt

上传人:牧羊曲112 文档编号:5984594 上传时间:2023-09-11 格式:PPT 页数:31 大小:376KB
返回 下载 相关 举报
数字图书馆信息检索.ppt_第1页
第1页 / 共31页
数字图书馆信息检索.ppt_第2页
第2页 / 共31页
数字图书馆信息检索.ppt_第3页
第3页 / 共31页
数字图书馆信息检索.ppt_第4页
第4页 / 共31页
数字图书馆信息检索.ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《数字图书馆信息检索.ppt》由会员分享,可在线阅读,更多相关《数字图书馆信息检索.ppt(31页珍藏版)》请在三一办公上搜索。

1、第五章 数字图书馆信息检索,本章内容,5.1信息检索概述5.2基于内容信息检索5.3跨语言信息检索5.4知识检索,5.1信息检索概述,信息检索概念信息检索模型信息检索的意义和作用信息检索发展趋势,5.1信息检索概述,信息检索概念就是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序、数据查找、字符匹配,实现信息查找以满足信息需求的过程,本质上是对信息集合与需求集合的匹配与选择。三种角度的认识:时间性通信角度的认识、信息处理角度的认识、文献查找角度的认识。,5.1信息检索概述,信息检索模型布尔模型布尔模型(Boolean Models)是基于特征项的严格匹配模型,文本查询的匹配规

2、则遵循布尔运算的法则。向量空间模型一般是从文本中抽取出关键词,根据该词在文本中的重要程度赋予其一定的权重,把用户模板和待检索文本均表示成向量空间中的向量,利用一些相似度计算方法(如夹角余弦、内积等)计算他们的相似度。概率模型概率模型基于概率排序原理,考虑了关键词、文档之间的内在联系,它以贝叶斯公式为理论基础,利用关键词之间和关键词与文档之间的概率相依性进行信息检索。,5.1信息检索概述,信息检索的意义和作用(1)信息检索是知识经济时代现代人才的基本生存技能(2)信息检索是信息社会人才个人素质的重要组成部分(3)信息检索是开发情报信息资源,提高经济效益的重要工具(4)信息检索是避免重复研究,节省

3、人力、物力和时间的必由之路(5)信息检索是实现信息资源共享的重要途径(6)信息检索是科学研究和技术创新的重要组成部分,5.1信息检索概述,信息检索发展趋势个性化的信息检索服务检索交互与结果可视化跨语种信息检索跨媒体信息检索智能化信息检索信息检索精准性,5.2基于内容信息检索,内容信息检索概念内容信息检索特点 图像内容信息检索视频内容信息检索音频内容信息检索,5.2基于内容信息检索,内容信息检索概念 通过对信息的模式识别和分析理解,从中抽取信息的有关内容特征并加以标示和组织,用户以此作为检索的依据,完成信息数据库中存储信息的匹配,从而实现信息的直接定位和查找。过程:用户提交查询;将查询特征与数据

4、库中的特征按照一定的匹配算法进行匹配;满足一定相似性的一组候选结果按相似度大小排列返回给用户;对系统返回的一组初始特征的查询结果。,5.2基于内容信息检索,内容信息检索特点从媒体内容中提取信息线索基于内容的检索是一种近似匹配例查询(Query by Example)人机交互总之,基于内容的信息检索,需要计算机技术、人工智能技术、数据库技术等,它根据图像、音频、视频等内在特征进行匹配,匹配结果是一种近似相同。,5.2基于内容信息检索,图像内容信息检索两个阶段:基于文本的图像检索技术和基于内容的图像检索技术。存在的问题:特征信息难以提取;增加冗余信息;检索难度加大;对于专用检索系统,不仅需要计算机

5、技术,而且还需要对相关专业十分了解。根据内在特征匹配,如图像的画面内容特征;图像的主题对象特征;图像的著录特征;图像的移动和组合特征。,5.2基于内容信息检索,视频内容信息检索视频数据结构分析镜头分割关键帧提取检索,5.2基于内容信息检索,音频内容信息检索语音检索利用大词汇语音识别技术进行检索基于子词单元进行检索基于关键词发现进行检索基于说话人辨认进行分割音乐检索基于内容的音乐检索是根据音乐的内容特征来进行检索,也就是根据音乐的旋律、节奏等音乐特征进行检索音频检索音频特征提取音频分割,5.3跨语言信息检索,跨语言信息检索概念 跨语言信息检索的模式翻译技术跨语言信息检索解决问题跨语言信息检索优化

6、技术跨语言信息检索系统,5.3跨语言信息检索,跨语言信息检索概念跨语言信息检索(Cross Language Information Retrieval,CLIR),就是用户用某种语言进行查询,检索其他语言表示的文档集的过程,也就是一种跨越语言界限进行检索的问题。在某种程度上来说,跨语言信息检索要解决的就是查询条件和查询文档集之间的语言障碍,5.3跨语言信息检索,跨语言信息检索的模式查询翻译查询翻译指将提问用语种转换成文献用语种(如将中文提问转换成英文提问),然后再进行单语言检索文献翻译文献翻译指将源文献语种转换成提问用的语种(如将英文源文献转换成中文文献),即不对提问式进行翻译,而是对集合中

7、的文献翻译成与提问用的语种一致的语言中间语种转换中间语种转换指将提问和文献转换成一种逻辑形式,或者第三方语言,5.3跨语言信息检索,翻译技术机器翻译技术一种方法是将用户的查询翻译为与文档相同的语种;另一种方法是将文档翻译为与查询相同的语种,然后再用单语种的信息检索系统进行检索基于词典的方法基于词典的方法主要是利用双语词典,将用户提交的提问式翻译成目标语种,然后进行检索基于语料库的方法基于语料库的方法从大规模的语料入手,从中抽取所需的信息,自动构建与应用有关的翻译技术,5.3跨语言信息检索,跨语言信息检索解决问题查询词与检索到的文献分属不同语言词的歧义和多义性查询词的切分文献的多语言性输出结果的

8、排序方式对多语言资源的依赖,5.3跨语言信息检索,跨语言信息检索解决问题由于汉语的特殊性,汉英跨语言文献检索还面临如下问题:(1)中文文本之间没有分隔符。(2)没有较好的方法识别汉语中的新词、外来词、专有名词、人名、地名和缩略语等语词。(3)汉语没有词缀变化。(4)汉语句法、语义分析复杂。,5.3跨语言信息检索,跨语言信息检索优化技术查询扩展查询扩展指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词语或者与原查询语义相关联的概念添加到原查询,得到比原查询更长的新查询,然后检索文档,以改善信息检索的性能检索反馈技术在跨语言信息检索中,通过一次检索往往得不到想要的结果目的文献,这时就需要

9、通过检索结果中反馈的信息对提问式检索方法或翻译方法进行改进消除检索词多义性对查询来说,确定查询中检索词的确切含义是查询扩展的基础对于被检索信息来说,明确信息中出现的检索词的含义是提高检索准确率、确定信息相关性的关键。可以利用一种词的共现技术来消除词的多义性,以明确其含义,5.3跨语言信息检索,跨语言信息检索系统Cindor系统特点:统一的字符编码标准、自然语言检索、查询自动扩展、申请专利的跨语言检索技术。核心技术:概念中间语言、语言分析、搜索管理。Keizai系统A、使用统一字符编码检索体系(USRA)和交互文档摘要方法(MINDS)。B、提供自动和用户帮助两种方法,以构建和提高跨语言查询的效

10、率。C、有英文查询输入框、新闻源选择框、翻译查询按钮、提交查询按钮、存储查询按钮等。它目前所提供的新闻源有英文、法文、德文、西班牙文、意大利文、中文、日文、韩文的新闻,支持以上几种语言的跨语言翻译和检索,不过查询只能是英文的。,5.3跨语言信息检索,跨语言信息检索系统Keizai系统查询举例:输入英文单词“rose”,选择“Xin Hua News 94-95(Chinese)”作为新闻源,点击查询翻译按钮,则一个翻译清单显示在屏幕上,排在最前有“花圣、紫月季、胜春、月季花”等。每种翻译形式前有复选框,用户可以选择最适合自己需要的查询。选择了“花圣、紫月季、红蔷、月季花、芙蓉”作为所需要的查询

11、翻译形式,提交查询后,检索到12份文档。,5.4知识检索,5.4.1 知识检索概念5.4.2 知识检索技术5.4.3 知识检索案例,5.4知识检索,5.4.1 知识检索概念特征:基于某种具有语义模型的知识组织体系。对资源对象进行基于元数据的语义标注。优势:(1)实现信息服务向知识服务的转化。(2)提供主动服务方式。(3)面向用户。(4)集成和综合应用各类知识和各种高效的智能与非智能技术,全面提高检索效率。,5.4知识检索,知识检索技术本体技术CBR知识库过程感知知识检索,5.4知识检索,知识检索技术本体技术五个模块:用户界面模块、查询式语义标注模块、领域本体构建模块、检索资源的语义标引模块、检

12、索处理模块。,5.4知识检索,知识检索技术CBR工作步骤:检索与待解决问题类似的案例;重用类似案例推荐的解决方案;修改或调整解决方案以更好地适应新问题;考查新的问题、解决方案案例是否有价值作为一个新的案例保留;保留步骤中有价值的解决方案;完善案例库索引和特征权重。,5.4知识检索,知识检索技术知识库知识库(Knowledge Base)是一种在线的、基于计算机的,有关某一专门领域的专家意见、知识、经验等的文件仓库,是对各种来源信息的收集、归纳和综合。过程感知知识检索通过明确描述过程和过程信息,过程感知知识检索使计算机可以作出关于知识和信息来源的高度针对性的建议,同时协助工序的完成。一个过程感知

13、知识检索框架由过程描述、知识源结合体和整合过程感知检索与现行工具的具体运作平台机制构成,具有过程库、知识来源库、监测框架、自动控制、过程识别功能。,5.4知识检索,知识检索案例CNKI具体目标:一是大规模集成整合知识信息资源,整体提高资源的综合和增值利用价值;二是建设知识资源互联网传播扩散与增值服务平台,为全社会提供资源共享、数字化学习、知识创新信息化条件;三是建设知识资源的深度开发利用平台,为社会各方面提供知识管理与知识服务的信息化手段;四是为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制,大力促进文化出版事业、产业的现代化建设与跨越式发展。,5.4知识检索,知识检索案例中国知网的服务内容:中国知识资源总库中国知识资源总库提供CNKI源数据库、外文类、工业类、农业类、医药卫生类、经济类和教育类等多种数据库。数字出版平台数字出版平台是国家“十一五”重点出版工程。数字出版平台提供学科专业数字图书馆和行业图书馆。个性化服务平台由个人数字图书馆馆、机构数字图书馆、数字化学习平台等组成。文献数据评价研制者首次提出了一套全新的期刊影响因子指标体系,并制定了我国第一个公开的期刊评价指标统计标准数据统计规范。知识检索文献搜索、学术定义、数字搜索、学术趋势、翻译助手、图形搜索、表格搜索、专业主题、学术资源、学术统计分析,THANK YOU!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号