数字图书馆信息组织.ppt

上传人:牧羊曲112 文档编号:5984596 上传时间:2023-09-11 格式:PPT 页数:45 大小:306.11KB
返回 下载 相关 举报
数字图书馆信息组织.ppt_第1页
第1页 / 共45页
数字图书馆信息组织.ppt_第2页
第2页 / 共45页
数字图书馆信息组织.ppt_第3页
第3页 / 共45页
数字图书馆信息组织.ppt_第4页
第4页 / 共45页
数字图书馆信息组织.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《数字图书馆信息组织.ppt》由会员分享,可在线阅读,更多相关《数字图书馆信息组织.ppt(45页珍藏版)》请在三一办公上搜索。

1、第6章 数字图书馆信息组织,一、数字图书馆概述1.数字图书馆概念 数字图书馆(Digital Library DL)是采用现代信息技术的、超大规模的、分布的、可以跨库检索的数字信息资源系统。数字图书馆不是数字化的图书馆,“Library”也不是传统的图书馆,而是借用它象征一种新的资源存储、传播中心。,2.数字图书馆及信息资源的特点1)数字图书馆的特征数字化:数字图书馆是一个内容丰富的、组织化的、多媒体形式的数字化系统,它的资源、工作过程和服务提供都是数字化的,它集中了不同载体、不同地理位置的资源,以数字化存储、以网络实现连接和共享,本质上是一个数字化、网络化的信息空间。网络化:数字图书馆是以网

2、络为依托、以资源共享为目标的数字化系统、,设计时重视网络功能的需求与实现。通常在网络环境中具备浏览器的浏览与检索功能、广泛采用Z39.50标准、网上的各种应用协议、通信协议、数据交换标准、数据传输、编码和压缩,使它真正成为各种网络技术和标准的集成系统。分布式系统:采用关系数据库管理系统,结构上采用分布式数据访问和数据库连接;支持开放式应用开发与多语种利用;支持规范控制、规范记录;系统集成化程度高。,2)数字图书馆的信息资源特点数字化的选择性信息资源 所有资源都是按用户需要经过选择的数字化资源,收集的资源包括两大类:一是已经数字化的资源,如网络资源、各种数据库资源、光盘、磁盘上存储的资源等;二是

3、传统的非数字资源压缩处理后形成的数字化信息,如已有的图书、期刊、录音、录像带等。多媒体资源 数字图书馆的资源是多样化的,不同媒体的信息都要收集,包括文本、音频、视频、图形、图像。这些不同的资源库中,要分别建立字符数值库、文本、声音、图象等专门资源库。各媒体用超媒体方式组织(混合),用户可以在链接好的网络结构中进行浏览。,海量资源和分布式资源存储结构 数字图书馆处理的数据是海量的,估计一般的资源量可达到101215字节,它的资源包括持续倍增的网络资源,也包括不断增长的数字化的传统资源。海量资源使数据存储必须以大量的分布式数据库群把资源存放在不同的计算机上,每个计算机负责特定资源的收集、加工、存储

4、、利用和维护工作。按用户需求提供服务(最好是交互式的自动界面)用户通过数字图书馆的交互界面提出服务请求,数字图书馆使用高效的检索系统,为用户提供迅速、准确、个性化的服务。,3)数字图书馆信息组织的特点以用户为中心组织信息资源 数字图书馆为每位用户提供个性化的信息服务,针对每个用户的每个需求从海量资源中查找符合用户需求的资源,而且它提供的资源不是一般的单一资源,而是关于某种问题的知识点,包括各种不同媒体的信息,如关于某个旅游点的文字、图象、旅馆、旅游路线图、气象、车次等。所以资源组织在检索时形成一种临时的知识点。,信息资源加工处理自动化 数字图书馆的信息资源描述、自动分类、自动聚类、元数据自动抽

5、取等对资源进行加工处理应尽可能自动化。要针对用户需求和资源特点开发各种检索系统和内容丰富多样的资源库。智能查询服务 数字图书馆的海量信息资源要求提供高效的智能检索服务,如设计良好的数字图书馆既能满足对图形、图象、视频的关键词、主题词查询,而且能够通过颜色、纹理、形状、关键帧等来查找;同时,查询还要求能够实现无缝跨库连接,使用户能够方便、快速、准确地查到所有存储在数字图书馆的分布式资源。,二、数字图书馆结构,1.基本系统结构(基本功能模块)数字图书馆的基本构件由数字对象、统一资源名称和数据存储系统组成。数字对象 数字对象是组织管理数字信息的方式、构成计算机存储与处理数字信息及功能实现所需要的完整

6、数据结构。数据结构包括唯一标识名称、元数据和数字化内容。数字化信息一般包括不同的部分,如文本信息、程序、数据内容、Web页面等,可以把几个数字对象组成数字对象组,用来描述复杂多样的数字信息结构。DL中的数字化信息可以分成一些类别进管理,每一类别要定义一组规则,来描述数字对象、数字对象的内部对构、相关的元数据、数字对象的命名规则,以便把多个数字对象组成数字对象组。,统一资源名(URN)URN是网络中数字化信息的唯一永久标识。这个标识由资源名或资源位置标识数字资源。在数字图书馆系统中,URN是唯一标识,用来永久地标识数字对象和存储系统,它和网络中的URL不同,URL不可能永久标识标识数字对象和存储

7、系统,因为网络配置、系统和文件位置均可改变。数据存储系统 数据存储系统是基于网络的存储与管理数字对象及相关信息的计算机系统,通过数据存储协议(RAP)对数据存储系统实施管理与操作,一个设计良好的数据存储系统可以向多个DL提供资源。以上三个基本构件可以构建任何DL体系结构。这个系统结构应具有扩展性、分布性与系统互操作性。,DL的基本体系结构图,用户界面,检索系统,名字解析系统,存储系统,图释,用户系统定义面向用户和系统管理员使用的两类界面,用户端通常是互联网浏览器,在浏览器上实现与DL系统的服务交互,执行请求与服务;检索系统是DL系统的核心功能,检索系统在网络环境中采用分布式检索或并行检索系统结

8、构。名字解析系统负责将URN转换为存储数字对象的网络物理地址,并实现URN的注册管理功能,以保证它的唯一性。数据存储系统存储与管理数字对象及其他信息,通过数据存储系统存取协议实现对数字信息的管理,同时实施访问控制和安全管理功能。,2 数字图书馆的技术体系结构,调度子系统,查询子系统,对象数据库,数据加工子系统,用户,元数据库,图释,查询服务子系统向用户提供查询服务。用户连接到此子系统提出查询请求,请求处理后经元数据库和调度子系统查到初步相关信息,用户确认后再通过元数据中所含数据对象的句柄,通过调度系统到对象数据库中取出用户需要的信息;主要功能是实现数字化信息和知识的发布和利用。元数据库和对象数

9、据库存储和管理数据对象的数据体、元数据及其它信息,把数字化信息相对集中。这两个库是数字图书馆的资源库,分布在不同的地点;,数据加工子系统对数据信息进行打集、处理、加工、存储和组织,将描述信息的元数据归入元数据库,将数字对象本身(数据体、内容)送入对象数据库。调度子系统是一个为数字图书馆资源提供分布式目录服务的计算机系统,负责自由地存取分布在不同资源库的信息,实现网络环境下对象数据的识别、统一调节度和无缝跨库检索。,3数字图书馆的应用系统开发,按照数字图书馆的体系结构,DL系统需要开发相应的应用:(1)资源加工系统 数字资源加工系统要对多种形式的资源如文本、图象、音频、视频等的数字化采集、加工、

10、处理,实现一次加工,长期利用,并适应未来扩展的需要,建设DL系统的资源库。(2)异构资源库整合系统 在数字图书馆建立前的各种数据库要整合到DL系统中,主要的困难是多种内容的数据结构形式不同,原来的系统平台和应用软件也不完全相同。所以目前没有成熟的方案。国外可行方案之一是采用XML,封装技术对现有数据库进行统一封装,将它们与DL系统连接起来。(3)数字资源管理与存储系统 数字图书馆的数字资源由元数据和对象数据构成,一般地将元数据相对集中存放,对象数据分布存放。DL需要的大规模资源管理与存储系统在实现对大量数字资源的存储与管理,主要内容是数据对象和元数据的存储格式、存取协议、维护数据对象和元数据的

11、完整性和一致性,以及在网络环境中大规模分布式数字资源的快速有效的存取支持等。,(4)资源调度系统 调度系统首先要有一个建立在统一命名规则基础上的完善的调度码体系,第二是要建立一个有效的调度机制,第三是要建立有效地为资源加工和用户服务提供调度服务的功能。调度系统的目标是通过一个标识确定DL中所有数字资源的规则,建立一个管理所有DL资源的系统;当需要变化时,只要修改唯一标识所指向的对应值就能服务的正常运行。(5)用户查询和服务系统 此系统主要实现用户需要的信息和知识的发布和利用。用户通过应用界面进入系统,检索元数据查获资源标识,再通过调度系统,调动数字资源管理系统获取对象库中的资源。此系统由应用界

12、面系统、元数据搜索系统、数字资源存取系统组成。如图,应用界面系统,调度系统,调度码,搜索系统,元数据,资源存取系统,资源库,此外,DL还有联合编目和馆际互借系统(建立各单位网络元数据共建共享系统和数字资源链接服务系)、安全认证系统、版权保护与电子商务系统(部分服务收费)。,三、数字图书馆信息组织技术与方法,1数字图书馆信息组织的数据结构 与传统图书馆一样,数字图书馆信息组织的信息组织由三部分组成:指针、元数据和数据内容。指针是数据的唯一标识,如同一个排架号或一个网页地址(但不是URL);元数据是一个描述数据特征的数据集,类似目录,数据是一个个的文件内容,类似图书馆的文献。也就是说,DL中的一个

13、文件(文本信息、图片、视频或音频文件等),在DL中先给一个唯一标识代表它在系统中的位置,然后再把其基本特征抽取出来(元数据)。,(1)指针 指针是标识数据的一组唯一指示符。一般分为狭义与广义两种:狭义指针(内部指针)是某个DL系统中用来代表文件或数据的唯一标识符,该标识在这个系统中是唯一的;由某个系统赋予,所以可以按某个系统的总体需要自行设计。设计时要作到:规范性,即发求建立内部指针的生成规则;唯一性,每个指针都是唯一的,不能与其它指针重复;定长性,指针要设计成定长字符串(可节省存储空间)。内部指针由本系统生成,只用于本系统。广义意义上的指针是由统一资源名称赋予的广泛意义上的数字信息唯一标识符

14、,代表数字化信息的主要特征。,数字信息对象只有赋予唯一标识符,才能组织和检索,并在DL系统中成为可以识别的唯一标识。标识数字信息对象目前主要有两种方法:一个是统一赋予信息对象一个唯一名称,即统一资源名称URNs;另一个赋予数字信息一个固定位置,即永久统一资源定位器法(PURL)。URNs方案由美国CNRI的句柄系统(handle system)提供标识网络资源的分布式目录服务。它负责给每一个资源一个永久的、唯一的名称(URN),这个名称独立于它的存储位置,不管它存储在什么地方,名称不会改变,所以总能找到这个资源。,每个句柄由两部分组成:前一部分是命名授权,后一部分是唯一局部名称。所以=/。一般

15、认为,句柄是指向指针的指针,它有全局句柄和局部句柄之分。如 10.1045/january99-bearman这个句柄前一部分是它的命名授权“10.1045”定义,后一部分是它的唯一名称。再如 cnri.dlib/july95-arms也是一个句柄。句柄系统通过赋予数字对象代表其唯一标识的统一资源名称,可以对它进行操作和管理。句柄 管理主要通过全球性的名称规范登记服务,建立全球规范名称数据库,并通过句柄代理服务(Proxy server)提供两个代理服务器,用户可以在万维网上通过句柄获取数字资源。,PURL是OCLC于1996年建立的标识数字信息资源的方法,它的原理是建立一个转换服务器,将数字

16、对象的PURL转换成可以在网络中重新指向资源地址的URL,PURL在解析、转换中不变,重指的URL则随对象的实际地址而变化。PURL由协议、转换服务器地址和文件名称三部分组成。,(2)元数据 元数据是描述数据本身特征的数据。依靠元数据可以管理数字图书馆系统中的海量信息,帮助DL系统组织、管理和查找数据。它实际上是从文件中抽取出来的各种特征或元素,类似传统的著录。它的作用是:1)数字资源的组织和检索:数字资源的描述和标引就是代表资源内容和外部特征的元数据,根据元数据可以将资源组织起,并实现快速管理和查询。,2)设计和维护数据库的工具:设计DL系统的物理结构、逻辑模块和业务(包括服务)规则需要参考

17、所有使用的元数据特征来设计,同时设计和管理人员需要随时查阅元数据,掌握数据库的全面情况,并随时了解数据的变更,以维护数据的完整性与准确性。总之元数据在本质上是一种数据结构标准,可以规范数据的组织,方便管理、检索和利用。,(3)数据 数字图书馆管理的主体是数据,管理、设计和检索最终都是DL系统中的数据内容。目前流行的数据格式是SGML系列和PDF格式。SGML是国际标准电子文本标记语言,电子文档编码、交换、管理和发布均采用SGML系列语言。HTML是SGML的一个应用,网页编写、传输、浏览器接受、解释和显示都来是用HTML编写的网页,是一个广泛使用网页数据描述语言,一般可以用数据库对HTML网页

18、进行组织和管理。HTML最大的优点是简单和网状的组织,但是它对复杂文档的描述能力有限,以及随意性标签对浏览器开发是个缺点,所以人们又开发了XML。,XML是SGML的简化形式(使用SGML20%的符号,具有它的80%功能),它克服了SGML的复杂性,又具有SGML的强大功能和HTML的简单性。XML文件也可以用数据库进行管理和查询。PDF文件格式可以保存印刷文本和公文的原有格式,可以在浏览器中显示图形、图象、复杂的公式,可以用扫描仪等工具转换生成数字化文本,可以跨平台(Windows 和UNIS平台都支持PDF格式)运行。,2 数字图书馆的数据库技术,数据库技术是所有信息系统的核心技术,也是数

19、字图书馆信息组织、存储和管理的关键技术,数字图书馆性能、信息的获取、检索、存储、组织都依赖数据库技术。通常数字图书馆应用的主流数据库技术有:(1)关系数据库技术 关系数据库技术是一种成熟的文本数据处理和事务管理方法,它通过关系模型、关系代数和关系演算,形成了良好的结构化数据处理优势,所以它对数字图书馆管理和处理统计数据、数值,建立事实数据库,具有很大作用。关系数据库的技术特点是用二维表存储、管理和查询数据,用“记录-字段-文件”模式规范所有的文本数据,它的每条记录由许多字段组成,各字段不重复,具有唯一的值。它的结构定义有严格限制,,字段长度固定、类型先行定义,所以关系运算准确性和查询完备性高,

20、但是对复杂的、多变的数据库内容有较大限制。关系数据库检索采用SQL查询,要先建立一个索引文件,采用“SELECT-FROM-WHERE”查询模块检索文件中相关记录的字段。关系数据库的主要缺陷是对不同表文件查询时要对表进行链接操作,当数据量太大时系统的空间要求高,检索速度和检索深度(如不支持全文检索)不够理想,不支持多媒体的管理等。,(2)面向对象数据库技术 面向对象(Object Oriented)技术发源于程序设计和软件开发领域,主要方法是面向对象分析和面向对象设计,后来逐步与数据库技术和人工智能等结合起来,形成一种新的技术方法。面向对象技术的核心概念是对象、类、继承、封装等。对象是它的基本

21、单元,可以表示任意实体;类和继承表达对象间的共性和关系,用映射技术实现共性和关系的抽象、封装、复杂性控制、信息隐蔽等机制。面向对象数据库是采用面向对象技术的数据库系统。目前还不够成熟,主流方法是在关系数据库中采用对象技术,如Oracle,其方法是把关系数据库(RDB)与面向对象数据库(OODB)结合起来。这种方法对查询优化方面有较大优势,但是,在面向对象的语义、性能与效率等方面很难提高。完全的面向对象数据库要先建立一个面向对象的数据模型,设计适应面向对象技术的相应语言和面向对象的数据库管理系统(OODBMS)的核心模块。这样才能实现系统结构清晰、效率强大的目标。目前纯粹的面向对象技术在数据库中

22、的应用仍有较大的难度,系统工具、系统环境等仍有待提高到一个新的层次。面向对象数据库技术在数字图书馆中的应用大大提高了系统的服务功能,在互操作、个性化定制服务、用户管理、查询优化方面具有强大的功能。,(3)非结构化数据库技术 非结构化数据库技术是能够存储和管理形式多样的非结构化数据的技术。它把结构化与非结构化数据都作为资源来进行管理,这种技术的特点是可以处理变长数据和重复字段,实现对数据项的变长存储管理,这样对图象、视频等非结构化数据具有重要意义。在数字图书馆中对连续信息(如全文信息)和非结构信息(变长数据和重复数据)的管理具有强大的优势。非结构化数据库技术通过倒排文档对记录快速定位实现查询,,

23、非结构化数据库在检索方面的特点是采用倒排文档技术对库中的记录高速定位,实现检索。倒排文档在检索功能上灵活高效,检索速度快且不受资源数量大的限制,能够实现字段和子字段的逻辑组配检索、全文任意词的单项检索和组配检索;更重要的是它可以容纳不定长字段,存储机制灵活,适应性强,可以存储网页、图象、文本、视听资料等多媒体信息,对网络中交换的复杂数据格式有很高的适应性。对,(4)多媒体数据库 数字图书馆的资源数量庞大,形式多样,其中多媒体信息是它的资源的重要组成部分。对多媒体信息的管理要通过多媒体数据库实现。关系数据库是目前应用广泛的数据库技术,利用关系数据库可以通过在关系数据库中引入新的抽象数据类型来实现

24、处理,但是这种方法只能在多媒体的输入输出上实现管理,对除输入输出之外的的操作和深层查询,则要求用户自行定义各种相关的操作和查询。所以建立多媒体数据库才能实现对多媒体数据的有效管理。建立多媒体数据库目前有两种方法,一是把各种媒体的数据库整合成一个在功能上统一的多媒体数据库,是一种节约效率的、现实的方案。,二是建立一个新的专门处理多媒体数据的新型数据库,不再利用现有的各种媒体的数据库,很显然这种模式不但在技术存在困难,而且在利用现有技术资源上也是一个浪费。所以一般采取第一种方案,该方案是一个三层模型,如图:,MDBML,UIL,MDBL,MDMS系统结构,Web Server,DB,MDBServ

25、er,Browser,DL的MDB系统,图6-1由三层构成:第1层UIL,实现系统服务器与用户之间的信息交换,存储用户数据并实现管理;第2层MDBML,实现格式化与非格式化数据的管理,是实现MDBMS功能的核心部分;第3层是MDBL,负责把每个多媒体查询命令翻译(转变)成不同数据库的DBMS能接受(理解)的操作指令,从各库查询后的各种媒体的数据,再组装成一个多媒体数据对象,并输出到UIL(用户终端)。图6-2是一个基于因特网的数字图书馆多媒体数据库系统,由数据库、多媒体数据库服务器、Web服务器、浏览器(用户存储终端)组成。,(5)数字图书馆的数据仓库技术 在DL中一般的功能是实现资源导航和信

26、息提供,还要具有信息分析、决策支持功能,在数字图书馆的大量历史数据中实现数据挖掘,是DL的重要任务。为了向用户提供高层次信息服务,必须在DL中实现对丰富资源的深层开发(二次、三次信息)和处理,所以必须建立DW,以实现支持决策的高层次服务。构建DL的需要分析它的功能,一般数据仓库的体系结构如图:,数据仓库体系结构,数据挖掘系统/数据发布(展现)系统,数据集市,数据集市,数据集市,数据集市,数据,元数据,数据清洗/转换,提取仓库,业务操作系统,外部数据,数据仓库存储系统,数据提取,数据提取(Data Extraction):DW按分析的主题来组织数据,只提取系统分析必要的那部分数据,如客户购买行为

27、为主题,就仅提取与购买行为有关的数据;一般关系数据库中有各种关系型数据接口,用提取引擎提取数据。数据清洗(Data Cleaning):就是将错误的、不一致的数据送入数据仓库前予以更正可删除。一般冗余信息存放在不同库中,会产生不一致,更新不同步。数据转化(Data Transformation)把从各种不同的数据库中(如IBM的DB2、Informix、Sybase、SQL Server等)提取的不同数据类型转换成统一格式。如日期:2000-2-3、2/3/2000、2000/2/3等。,提取仓库(Extraction Store)将不一致的数据存入仓库之前要缓存在提取库中,等待清洗和转换。还

28、要建立提取日志(Extraction Log)详细记录数据来源、转化过程,作为元数据的重要组成部分,便于验证其质量。外部数据源(External Source)从外部获取的与分析主题相关的信息,市场信息,竞争对手情况等。数据仓库存储(Data Repository)存放数据仓库数据和元数据的存储空间,主要有多维数据库、类系数据库、以及混合两种方式的数据库。,数据 从业务数据中提取或从外部数据源中导入的数据,经清洗、转化后存入的原始数据。只是数据仓库数据的一部分,因为要进行数据挖掘和分析,所以原始数据存放时要加载到多维库、进和预运算等冗余数据,以便提高速度。元数据 是描述数据的数据,提供有关数据

29、的环境。如存储信息、各库和数据表中的字段信息、数据表之间的关联信息、数据索引约束等。数据仓库中的元数据一般有两种:一是为从操作型环境向DW环境转换而建立的元数据,包括源数据项的名、属性及转化信息;二是用来建立用户的商业模型和前端工具之间建立映射的元数据(它是DSS的元数据),包括数据仓库中信息的种类、存储位置、存储格式;信息之间的关系、信息和,业务之间的关系、数据使用的业务规则;数据模型;数据模型和数据仓库之间的关系。如图,Char(20)User_name,Varchar(50)User_Name,User表,user_id,User_name,address,Customer数据库,维表数

30、据库,User维表,user_id,address,User_name,格式转化,数据集市(Data Market)是面向主题(部门)的、在逻辑上或物理上划分出来的数据仓库中的数据子集。如市场发展趋势的分析主题由营销或市场部门使用的,将这部分数据在逻辑上或物理上分离出来,当使用这些数据时不必再到DW的海量数据里去检索,只分析这部分数据就可以了。数据仓库在数字图书馆中主要用于数据挖掘(DM)和联机分析处理(OLAP),以解决决策支持问题,,第6章习题,一、名词1 数字图书馆 2 数字对象 3 数据集市4 数据提取 5 非结构化数据库技术二、思考题1 数字图书馆有哪些特征?2 数字图书馆的资源组织有何特点?为什么?3 结合数字图书馆的基本结构图,说明各部分的作用。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号