《信息组织与检索.ppt》由会员分享,可在线阅读,更多相关《信息组织与检索.ppt(25页珍藏版)》请在三一办公上搜索。
1、3 信息组织与检索,概述信息组织信息检索,信息存储与检索将信息按照一定的方式组织和存储起来,并能根据信息用户的需求找出其中相关信息的过程。它是一种有目的和组织化的信息存取活动,其中包括了“存”和“取”两个基本环节。,3.1 概述,Web网站的设计,首先涉及到各类材料的组织问题,它们包括内容设计、导航设计和表现设计。内容设计要确定分类的准则,然后根据分类准则,划分信息内容。例如大学网站按学校概况、管理机构、院系设置、招生信息、信息资源、图书馆、科学研究、教师队伍、学生活动等主题分类。导航设计涉及到信息单元的浏览、用户与Web内容及结构的交互。Web的两个基本元素是网和链,链把页面关联起来,构成巨
2、大的“蜘蛛网”Web。表现设计,例如颜色、表现结构布局、表现顺序、表现方式等,目的是提供一个易于获取信息的Web环境。,例:Web网站的设计和使用,设计的Web网站仅仅提供分类目录和链的浏览是不够的,尤其是对大中型的Web网站来说,用户在浏览过程中容易迷航或在信息查找中花费太多的时间,而又难以得到相关的信息内容。搜索引擎提供对Web网站信息内容的组织和检索。检索系统能够为任何水平的用户,包括专业用户和一般用户提供有效的信息检索服务。对于网页文档中的图像、视频和音频,可以结合基于内容的多媒体信息检索技术。,3.2 信息组织,1信息组织的基本原理信息组织是将处于无序状态的特定信息,根据一定的原理和
3、方法,使其成为有序状态的过程。其目的是将无序信息变为有序信息,方便人们利用信息和有效地传递信息。信息组织的依据是事物的属性,这些属性可归纳为形式、内容和效用三种类型。以服装为例,款式、大小、生产厂家、生产时间和地点等属于形式特征,服装原料的物理和化学结构属于内容特征,御寒、防雨、防晒等属于效用特征。,信息组织的过程可分为序化和优化两个阶段。信息的序化是按照一定的方法将无序的信息组织成有序的信息的过程,它包含两层含义:一是为了利用和管理上的方便,对没有必然内在联系的信息加以组织;二是对本质上有必然内在联系的信息,按照其自身的客观逻辑结构加以组织。前者融入了更多的主观因素,后者则依据更多的客观因素
4、。信息的优化是在信息序化的基础上进行的,是针对某种目的对信息进行再序化的过程。在信息组织的实际操作过程中,信息的序化和优化之间并没有十分明确的界限。,信息组织的目的,1)减少社会信息流的混乱程度。2)提高信息产品的质量和价值。3)建立信息产品与用户的联系。4)节省社会信息活动的总成本。,信息组织的方法,(1)语法信息组织方法以信息的形式特征为依据序化信息的方法。它不涉及信息的含义和用途,需要遵循方便性、标准化等原则。1)字顺组织法从字、词的角度集约有关信息,又有音序法、形序法、音序和形序并用三种形式,如书名的排序、著者姓名的排序和主题词的排序等。2)代码组织法以代码表征信息和集约信息的方法,优
5、点是简便易用,尤其适合计算机管理,如专利代码组织法、商务条码组织法、身份证代码组织法、军队番号组织法和电话号码组织法等。,3)地序组织法以信息的空间特征为依据序化信息的方法,特点是能反应地域特色。如各种地图、地理文献和风景名胜介绍等的组织。4)时序组织法以信息的时间特征为依据组织信息的方法,优点是能反映事物的发展规律,多为线性结构,如史书、年表、日记、传记、档案和连续出版物等的组织。5)其他组织法包括颜色组织法(如绿色代表邮政)、形状组织法(如以书刊的开本大小为依据的组织法)、重量组织法(如拳击手的分类)等。,(2)语义信息组织方法以信息的内容或本质特征为依据序化信息的方法。需遵循客观性原则。
6、1)逻辑组织法根据信息之间的逻辑关联组织信息,如政策的制定、研究报告的撰写、文学作品中人物性格的发展等。2)分类组织法包括科学分类、文献分类、专利分类、商品分类、职能分类等,能反映事物之间内在的、本质的联系和区别,便于人们系统地认识和了解信息。3)主题组织法从事物内含的主题属性出发,以词语作为概念标识,并通过概念标识的字顺排列和参照方法等间接地揭示概念之间相互关系的一种信息组织法,包括标题法、单元词法、叙词法、关键词法等几种类型。,(3)语用信息组织方法以信息的效用特征为依据序化信息,能反映和满足用户的信息需求。需遵循目的性、适用性和个性化原则。1)权值组织法赋予不同信息以不同的权重值,以权值
7、大小组织信息。如决策方案的选择、教学质量的评估等。2)概率组织法根据事件发生的概率大小序化信息。如预测体育比赛的胜负、期货交易等都。3)特色组织法根据用户某一方面的特殊需求组织信息,如根据用户的兴趣组织球迷信息、摄影信息、旅游信息等。4)重要性递减组织法依据信息的重要程度序化信息,通常的做法是突出重要信息使其处于醒目位置,而将其他信息置于相应位置,如大众传播的栏目设置。,网络信息组织传统的信息组织多采用手工编制的目录、索引、文摘、综述等形式,局限于文献信息的组织。在网络环境下,数字化信息占主导地位,信息组织的对象逐渐多样化,范围也随之扩大,不再停留于对文献特征的描述,而深入到知识和信息单元,致
8、使传统的信息组织方式不能满足人们的各种信息需要。网络信息组织就是根据网络信息特点和属性,采用科学的方法,将大量的、分散的、杂乱的信息经过搜集、筛选、整序、优化,形成一个便于有效利用的整体的过程。,(1)一次网络信息组织方式1)文件方式文件是存储非结构化信息的天然单位。但在网络环境下,由于文件本身需要作为对象来管理,对结构化信息组织显得软弱无力,文件方式只能是一次网络信息组织的辅助形式。2)超媒体方式将文字、表格、声音、图形、图像、视频等多媒体信息以超文本方式组织起来,人们通过浏览的方式搜寻所需信息,避免了检索语言的复杂性。3)网站方式通过标记语言,将信息组织成一个个页面,页面对某机构、个人或专
9、题作全面介绍,用主页将这些信息集中组织到一起,通过浏览器浏览。,(2)二次网络信息组织1)主题树方法将所含某一学科的所有已获得的信息按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直至找到所需要的信息线索(即相关站点链接),并通过信息线索直接找到相应的网络信息资源。2)数据库方法将所有已获得的信息以固定的记录格式存储,用户通过关键词及其组配查询,找到所需要的信息线索(即相关站点链接),并通过信息线索直接找到相应的网络信息资源。,3.3 信息检索,信息检索的类型,(1)文献检索。通过二次文献找出所需的一次文献或三次文献。(2)数据检索。以数据为对
10、象的检索,如查找某一数据。(3)事实检索。以特定的事实为检索对象。事实内容包括大量的科学事件和社会事件。(4)概念检索。查找特定概念的含义、作用、原理或使用范围等解释性的内容或说明。,早期分类方法,新分类方法,(1)文本检索。以各种自然语言符号系统所表示的信息为主要检索对象。是传统的文献检索方式的延续。(2)数值检索。针对数值型数据的查询而发展起来的。它不仅能检索出符合特定需求的数据信息,而且还可以在此基础上提供一定的数据运算能力和推导能力。在财经、金融、统计等领域应用广泛。(3)音/视频检索。针对各种数字化音频和视频信息而进行查询。目前正在研究和探索之中,属于前沿领域。,信息检索的原理,信息
11、检索对信息集合与需求集合的匹配与选择,要对信息集合进行特征化表示,即通过人工或计算机的方法对信息集合进行加工处理,将原来隐含的、不易识别的特征显性化。这种加工处理工作被称为内容分析与标引。要对用户所提出的信息需求进行分析,提取概念或属性,并利用与标引过程相同的标识系统(检索语言)来表达需求中所包含的概念和属性。过匹配和选择机制,对需求集合与信息集合进行相似性比较。根据一定的标准选出符合需要的信息。,网络信息检索通过网络信息检索工具检索存在于因特网信息空间中各种类型的网络信息资源。,1搜索引擎根据一定的策略、运用特定的计算机程序搜集Web上的信息,并在对这些信息进行组织和处理后为用户提供检索服务
12、的系统。搜索引擎为用户提供了一个友好的检索入口,用户只需提供检索式(关键词列表)便能搜寻到包含这些关键词的相关网页。搜索引擎通常包括 Crawler(爬虫)模块、索引模块、数据集分析模块、检索引擎模块、排序模块和用户模块,以及索引数据集和/或网页数据集。,搜索引擎依赖于Crawlers进行网页爬行,一个Crawler就是一个能自动爬行Web网页以供生成本地索引和/或本地网页数据集的程序。索引模块对缓存中的每一个网页进行全文扫描,抽取所有的词条,并记录URL信息,形成一个巨大的能提供检索所有词条所在页面的索引库,并将数据存储在索引数据集中。除了传统的文本索引外,索引模块在数据集分析模块帮助下,还
13、能产生反映网页间链接的结构索引和其他的功能索引。检索引擎模块通过索引模块负责接收和满足来自用户的每一个请求。由于网页非常多,而用户往往只输入一个或两个关键词,导致检索结果总是很大,因此搜索引擎利用排序模块对检索到的结果进行排序。用户模块负责为用户检索提供友好的界面。,2.网络多媒体信息检索,多媒体信息体现了人类最朴实的信息交流需求,直观、形象、内容丰富。网络多媒体信息包括了文本、图形、图像、视频、音频等几乎所有非网络环境下的多媒体信息形式。,(1)基于文本方式的多媒体信息检索技术首先对多媒体进行人工分析和抽取反映该多媒体物理特征和内容特征的关键词,然后对这些关键词进行文字著录或标引,建立类似于
14、文本文献的标引著录数据库,从而将多媒体信息检索转变成对上述关键词的检索。检索关键字段主要有:文件扩展名(如gif、jpg、mpeg、avi、wav等);多媒体标题和文字解说;其他检索关键字段,如某些Web页的页标题、由人工选择或指定的某些标引多媒体信息内容的关键词等。,(2)基于内容特征的多媒体信息检索技术主要依据是图像画面、声音和影像的内容特征。如图像画面的颜色、纹理、形状、结构;声音的音频、响度、频宽、音色和节奏;影像的对象运动特征、颜色和光线的变化等。在组织多媒体信息时,组织者根据媒体的上述内容特征进行分析,建立基于内容特征的标引信息,将其存储在特征信息索引库中,并与实际多媒体数据联系起来。当用户检索时,系统一方面接受用户规定的图像画面、声音和影像的内容特征信息(即用户的检索提问),另一方面接受特征信息索引库中的特征信息,然后进行二者之间的匹配,以找出符合用户需求的多媒体信息。,信息检索效果评价,查全率:检出的相关文献量与系统文献库中相关文献总量的比率查准率:检出的相关文献占所有检出文献的比率收录范围输出形式响应速度,