《信息组织概论第三章ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息组织概论第三章ppt课件.ppt(49页珍藏版)》请在三一办公上搜索。
1、第三章 信息组织的技术标准,学习要求,主要内容:本章主要介绍信息组织的技术标准基本知识, 传统信息组织技术标准和网络信息组织技术标 准。掌握:MARC格式及其特点; 元数据含义、元数据类型、元数据作用、元数据格 式和创建; DC的元素和限定词;DC的设计原则和句法;了解:ISBD和AACR2; MARC格式起源; SGML、HTML、XML、DTD; 元数据应用; DC的扩展; TEI、VRA Core3.0、FGDC数字地理空间元数据标准。,第三章 信息组织技术标准,传统信息组织技术标准,信息组织的技术标准概述,章节简介,网络信息组织技术标准,3.1信息组织的技术标准概述,信息组织技术标准,
2、信息组织的技术标准都是围绕着各类型和各种载体的数据或信息的内容和形式特征描述与标引的的技术和方法的规范和统一为目的的。只不过数字信息环境和社会信息化中,更多地依赖计算机和通信技术,所以,必须与其相关标准相协调,使其能够反映出数字信息对描述、链接、交换、查询、互操作等方面的技术统一和协调的要求。,3.1.1信息组织技术标准及意义,信息组织技术标准的意义,3.1.1信息组织技术标准及意义,信息组织的标准是信息组织工作的基础,在建设信息资源库时,统一标准非常重要,它直接影响到资源库的制作质量和查询效果,特别是对信息资源的定义和描述过程中,执行有关标准才能保证信息组织的规范性和有效性。信息资源的标准化
3、和规范化是实现图书馆资源共建共享的前提和根本保障。,WEB上的元数据的各种标准太多,标准间互不相容,且仍在制定,都柏林核心有望成为国际标准。,数字图书馆各自采用自己的标准和方法,情况不容乐观,但开始了标准化的研究,3.1.2信息组织技术标准类型,信息组织技术标准,网络信息组织技术标准,传统信息组织技术标准,传统信息组织技术标准是针对传统的信息资源的加工组织,如纸质文献信息,很多标准经过多年实践完善,已经成为各国都遵循的成熟的国际标准。如ISBD、AACR2、MARC等。,网络信息组织技术标准是针对日益扩展的网络信息而制定的信息组织标准。如置标语言、元数据等。,3.2传统信息组织技术标准,3.2
4、.1著录标准,1 、国际标准书目著录(ISBD),(1) 背景概况,国际标准书目著录是为了实现文献著录的统一和规范而制定的一套供各类型文献著录用的国际标准。,目的:A、使不同来源的数据交换成为可能B、可以跨越语言障碍,帮助人们解释书目记录C、使书目数据转换为电子格式更为容易,ISDB的发展和维护工作是由国际图图联书目控制部的编目组负责承担的,3.2.1著录标准,表:ISBD体系结构一览表,3.2.1著录标准,表:ISBD体系结构一览表,3.2.1著录标准,(2) 体系结构,A 、在文献著录规则的编制体例上,ISBD采用了总则 与分则相结合的方式,形成了一整套完整的文献 著录规则;B、 ISBD
5、遵循“客观描述”的著录原则,即依据受编文 献本身的情况如实著录;C、 ISBD明确规定了获取著录信息的来源,保证了对 同一种文献著录的信息采集具有一致性;D、 ISBD还规定了各个著录项目、著录单元项目的内 容、次序及其著录用标识符。,3.2.1著录标准,3.2.1著录标准,(1) 背景概况,AACR2是在现代编目理论指导下,紧密配合ISBD而产生的一部最为著名的编目条例。它的制定为英语世界的文献编目工作提供了标准化工具,对世界编目事业的标准化起到了重要的推动作用,也为各国编目规则的制定树立了典范,2、AACR2(英美编目条例(第2版) ),3.2.1著录标准,贯彻标准化原则,坚持著者原则,实
6、行统一标目原则,(2) AACR2(英美编目条例(第2版) )编制原则,(3)AACR2结构和内容,AACR2是一部综合性的著录条例,它不仅适用于普通图书,也适用于连续性出版物及各类型文献。AACR2全书共分19章,由三部分组成。第一部分为“著录”,共13章,依据ISBD的各分则,规定了各类型文献的著录项目、著录项目的顺序、标识符号的使用以及著录方法等。第二部分为“标目、统一题名与参照”,共6章。这一部分对检索点的选取、个人著者与机关团体标目、地理名称、统一题名和参照的著录分别做出了明确规定。第三部分是在书末所附的4种附录。,3.2.1著录标准,3.2.1著录标准,ISDB和AACR2与我国文
7、献著录,AACR2对我国图书馆的西文文献著录工作起到了统一、规范的作用。,2005年,参照国际标准著录规则(ISBD)和英美编目条目规则(AACR2)的最新版,中国文献编目规则(第二版)完成修订并出版。这次的修订主要面向信息化、面向世界、面向社会需求,实现与国际书目情报顺利交流,使中文书目数据为全世界所共享。,机读目录(MARC),机读目录通常称(Machine-Readable Catalogue,MARC)译为“机器可读的目录”为机读目录,它是以代码形式和特定格式结构记录在计算机存贮载体上,能够被计算机识别并编辑输出书目信息的目录形式。,3.2.2机读目录,可变格式可变长字段的记录格式;,
8、采用目次方式;,每条MARC记录分3个区:它们是头标区、目次区和数据区;,物理记录和逻辑记录的关系。,MARC总体结构特点,3.2.2机读目录,(1) UNIMARC,(2)USMARC,1977年,IFLA为了统一各国机读目录格式,主持制定了国际机读目录格式(Universal MARC For-mat,简称UNIMARC)。许多国家都使用UNIMARC格式作为国际机读书目记录交换的格式。,USMARC是美国国会图书馆的机读目录通信格式,它的前身是MARCII格式。USMARC格式与国际标准化组织制定的“文献目录信息交换用磁带格式”ISO2709的规定一致,只不过在其字段标识和内容项目上略有
9、不同。,3.2.2机读目录,(3)CNMARC,中国机读目录格式WHT0503一96,通常称为CNMARC。它是由国家书目机构编制的,由中华人民共和国文化部于1996年发布的文化行业标准。主要用于中国国内图书情报部门和其他国家书目机构间的书目信息交换。CNMARC格式是以UNIMARC为依据的,凡是UNIMARC中定义的字段适合于中国出版物的有关规定都予以保留,并补充了中国出版物特有而UNIMARC中没有的字段定义。,3.2.2机读目录,CNMARC记录结构,3.2.2机读目录,3.3网络信息组织技术标准,(1)标准通用置标语言(SGML),标准通用置标语言 (Standard General
10、ized Markup Language,SGML)是,是ISO组织于1986年发布的ISO 8879国际标准。 实际上是一种通用的文档结构描述置标语言,主要用来定义文献模型的逻辑和物理类结构。它是适合书目、文献全文、电子文献及多媒体信息进行描述的一种新的标准,它使得信息的描述独立于系统,独立于语种,结构与内容分开,充分地实现了信息的共享。,3.3.1置标语言,置标语言(markup language), 是一种用文本添加 标记的语言。置标:就数据本身的信息对数据进行编码的方法。,超文本置标语言(HTML),HTML是由SGML派生的实例置标语言,不能作为定义其它置标语言的元语言。HTML是一
11、种用来制作超文本文档的简单标记语言。用HTML编写的超文本文档称为HTML文档,它能独立于各种操作系统平台(如UNIX,WINDOWS等)。生成一个HTML文档主要有以下3种途径:手工直接编写(例如用你所喜爱的ASCII文本编辑器或其它HTML的编辑工具);通过某些格式转换工具将现有的其它格式文档(如WORD文档)转换成HTML文档;由Web服务器(或称HTTP 服务器)一方实时动态地生成。,3.3.1置标语言,可扩展的置标语言(XML),可扩展的置标语言(Extensible Markup Language,XML),是W3C组织于1998年2月发布的标准。W3C组织制定XML标准的初衷是,
12、定义一种互联网上交换数据的标准。W3C采取了简化SGML的策略,在SGML基础上,去掉语法定义部分,适当简化DTD部分,并增加了部分互联网的特殊成分。所以XML也可以作为派生其它置标语言的元语言。,3.3.1置标语言,文件类型定义(DTD),DTD规定了一个语法分析器解释一个“有效的”XML文件所需知道的所有规则的细节。这个规则可以非常简单,仅仅列出所有有效的元素,例如元素、标记、属性、实体;也可以非常复杂,不但列出这些元素,还指出这些元素之间的内在联系。我们可以把DTD看作一个或多个XML文件的模板,这些XML文件中的元素、元素的属性、元素的排列方式/顺序、元素能够包含的内容等,都必须符合D
13、TD中的定义。XML文件中的元素,即我们所创建的标记,是根据我们应用的实际情况来创建的。,3.3.1置标语言,3.3.2元数据,元数据含义,元数据法,“元数据(Metadata)”就是“关于数据的数据”,是对数据进行组织和处理的基础。,元数据法就是对信息单元及其集合进行规范描述从而形成元数据,并依其将分布式的信息资源整合成有机信息体系的基准、方法和工具。,元数据概念的新内涵,新的单元:源于数据对象的新技术,而非信息管理系统的新技术,不仅仅针对印刷型资源。 新的功能:目录记录、题名清单或其它方面元数据单元的热链接为检索者生成了从外部制作的元数据到资源本身的直接的链接。通过使用相关性排序和概念映射
14、等技术的运算法则,搜索引擎可模仿人工标引者的行为生成元数据能够设定目录和数据库检索软件以隐藏元数据。 新的模式:数据库模式和标记模式。,3.3.2元数据,3.3.2元数据,元数据类型,依据元数据的功能,依据元数据格式的结构复杂程度,分为全文索引、简单结构化格式、特定领域使用的结构更复杂的元数据格式 。,管理型元数据、描述型元数据、保存型、技术型元数据和使用型元数据。,元数据的作用,3.3.2元数据,1)描述:根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。都柏林核心元素集所提供的,是信息对象的识别而言最为基本的描述信息;而机读目录
15、格式,则为信息对象提供详细级别的描述。2)定位:元数据包含有关网络信息资源位置方面的信息,因而可确定资源的位置所在,促进了网络环境中信息对象的发现和检索。3)搜寻:识别资源的价值,发现其真正需要的资源。4)评估:价值评估,作为存取与利用的参考。5)选择:对信息对象的取舍,选择合适用户使用的资源,元数据格式,元数据的格式通过三层结构来完整定义:内容结构(Content Structure),对该元数据的构成元素及其定义标准进行描述;句法结构(Syntax Structure),定义元数据整体结构以及如何描述这种结构;语义结构(Semantic Structure),定义元数据元素的具体描述方法。
16、,3.3.2元数据,元数据开发应用的目的,3.3.2元数据,1)确认和检索:DC是典型的代表2)著录描述:MARC3)资源组织体系:资源集合的基本描述和对资源集合的知识 组织体系的描述。4)资源管理:支持对资源利用和管理过程的政策与控制机制 的描述。5)资源的保护和长期保存6)系统功能和执行7)系统建模,3.3.2元数据,1)首先需要根据元数据的具体应用领域、应用目标和现有标准体系,利用标准的编码语言、代码体系、标准词汇和描述规则,定义可描述特定数据对象的元数据集,并可能通过标准复用机制在这个元数据集中复用其它元数据集中的某些元素;2)利用标准的标记语言(例如XML/RDF)以及所复用的其它元
17、数据集元素来准确标记元数据格式;3)建立一定的系统机制来实现元数据标注(例如利用标引模板系统进行DC数据标引或MARC数据标引);4)在元数据标注过程中可能借助元数据挖掘机制,从所标注的数据资源中发现、分析、确认和抽取合适的元数据元素进行标注,或者将描述这些数据资源的用其它格式定义的元数据转换为当前格式的元数据元素,而这些过程需要相关的文献结构知识、语义知识和检索转换知识的支持;5)元数据标注后形成的元数据记录被存放于元数据记录库里,该数据库系统通过开放界面支持标准检索协议下对元数据记录的检索,并可能支持与其他元数据格式间的转换;6)元数据记录可能需要长期保存,可依照开放存档信息系统模型来建立
18、长期保存信息模式和管理机制。,元数据开发应用生命周期,3.3.2元数据,1) 元数据实验系统(Metadata Experimental System,MES),元数据的应用:,MES是中国台湾的一个信息描述与检索的实验系统,其建立的目的有两个:一是让读者通过这个系统,对元数据及未来的可能运作方式,有更为具体的了解与认识;二是希望利用此实验系统来测试和验证元数据的功能与作用,如都柏林核心元素集这种简单的信息描述格式,是否如制定者所设想的,可以满足网络信息资源的描述和检索需求。就其目前状况而言,MES仍处于测试中,初步测试已显示运作良好,其中包括两种元数据DC和URN(Uniform Resou
19、rce names)架构。,3.3.2元数据,元数据实验系统的特征:,开放式设计 描述和检索部分开放给任何人使用。 MES面向所有人,采用开放式描述,但这样则会产生描述的结果不统一、描述的质量参差不齐的问题,但目前尚无解决的办法。,b) 具有描述和检索的双重功能 提供精确检索和模糊检索,c) 使用统一资源名称作为信息资源的唯一识别符,3.3.2元数据,2) 网络信息资源的描述和检索工具Spectrum系统,Spectrum系统是OCLC为没有专业编目或标记知识背景的个人制作描述网络信息资源的记录而设计的一种工具。Spectrum系统允许用户注册和描述因特网上可检索的信息资源,它由3个部分组成:
20、记录生成子系统、记录转换子系统、记录检索子系统。,元数据的应用:,3.3.3都柏林核心元素集,都柏林核心元素集(dublin core elements Set)通常也被称为都柏林核心(dublin core, DC),是为描述网络资源、支持网络检索而建立的元数据模式。DC可以说是最小的元数据元素集,也是目前世界上使用最为广泛的元数据格式。,3.3.3都柏林核心元素集,都柏林核心元素集是定位在简单的资源描述格式,提供一个基本数据库,作为各种专业进一步加工处理的基础。DC具备一下特色,使其成为电子资源描述方面的杰出代表;简单明了语义互操作性:提高跨学科领域语义互操作的可能性国际认同可扩展性,3.
21、3.3都柏林核心元素集,资源内容描述类元素 title、 subject、description、source、language、 relation、coverage知识产权描述类元素 creator、publisher、contributor、rights外部属性描述类元素 date、type、format、identifier,DC元数据的元素(15个),3.3.3都柏林核心元素集,为了丰富DC的内涵并不断扩充其应用的范围,就需要对DC元素的内容和语义做进一步的限定或说明,这样可使其意义更加明确,体现了DC简明的特点。 语言(lang):指明元素值的描述元素的语言,并不是所描述 的信息资源
22、本身的语言。模式(scheme):指明元素值的确遵从已有或正在讨论中的一 个体系架构中的合法值类型(type):指明元素值是何种类型的值,指定了给定元素 的一个方面。,DC元数据的限定词(三类),3.3.3都柏林核心元素集,类型词表,空间点编码模式,空间区域编码模式,时间编码模式,DC的内容编码规则,结构化数值编码,3.3.3都柏林核心元素集,内在本质原则可扩展原则 语法独立原则 可选择性原则 可重复原则 可修饰原则,DC设计原则,3.3.3都柏林核心元素集,DC元数据的基本句法是:【例如】 ,DC的基本句法,3.3.3都柏林核心元素集,DC扩展,DC应用领域扩展,DC内容描述扩展,DC内容描
23、述扩展工作主要是在DC框架上建立对特殊类别元数据的扩充或复用机制,所建立的各个特殊元素集作为专门的命名域可被DC引入和复用。项目主要包括代理项目、引用项目、藏品项目、教育项目、管理项目。,DC应用领域扩展主要是考虑在具体应用领域中如何选择应用DC元素集、限制属性集和编码规则。包括 政府机构项目、图书馆项目、注册项目。,3.3.4其它元数据简介,在图书馆界对编目标准应用于网络信息资源的可行性进行评估的同时,人文计算学者们开发了一种用于电子文本结构的初始化编码体系TEI(Text Encoding Initiative)。TEI项目是一个合作研究的国际项目,该项目是由3个主要的专业协会主持组织的,
24、即美国计算语言协会(the Association for Computational Linguistics,ACL)、美国文学与语言计算协会(the Association for Literary and Linguistic Computing,AILC)、美国计算和人文协会(the Association for Computing and the Humanities,ACH)。TEI项目的目的是减少现存编码的多样性,提供一个通用的支持复杂文本结构的编码方案。后来TEI的使用扩大到各个学科领域,成为电子文本交换的国际编码标准。 TEI规定了对电子文本的描述方法、标记定义和记录结构等
25、,包括元数据和内容两部分,使用SGML作为编码语言,具有平台独立性、应用灵活性和可扩展性,能支持对各种类型或特征的电子文本进行编码。,电子文本编码体系(TEI),3.3.4其它元数据简介,可视资源协会(Visual Resource Association,VRA)为了规范地描述可视文化作品及其图像资源,于2000年6月发布了VRA可视资源核心类目第三版(VRA Core Categories,Version 3.0)。VRA Core中的资源或作品是指包括绘画、雕塑、表演、乐曲、文艺作品、建筑物、建筑设计或其它含有文化含义的物品等,这些作品可独立存在,也可以由多个部分组成。可视文化作品的图像
26、资源是指这些作品的可视化复制品或代表物,可以是照片、幻灯片、录像或数字化形式,一个作品可以拥有多个图像资源。 VRA Core3.0定义了17个核心类目,部分核心类目下进一步规定了子元素,VRA Core3.0没有规定必备类目,而且所有类目均可重复。17个类目包括Record Type(记录类型)、Type(作品类型)、Title(题名)、Measurement(量度)、Material(材料)、 Technique(技巧)、Creator(创作者)、Creation(创作日期)、Location(位置)、ID Number(标识符)、Style/Period(风格/时期)、Culture(文
27、化)、Subject(主题)、Relation(关系)、Description(描述)、Source(来源)、Right(权利)。,VRA可视资源核心,3.3.4其它元数据简介,1994年6月8日,为了推动地理数据的协调发展、使用、共享和传播,美国联邦地理数据委员会(FGDC)颁布了数字地理空间元数据内容标准。1998年11月,该标准的第2版面世。有关人员指定该标准的目的,在于为数字地理空间数据文件提供通用的术语和定义集。标准规定了为达到这些目的而制定的数据单元和复合单元的名称及其定义以及有关这些数据单元的值方面的信息。 在这个标准中,元数据的主要用途在于:1) 维持组织内部在地理空间数据方面的投入。2) 将有关某组织的数据馆藏方面的信息提供给数据目录、数据交换中心和数据中介机构。3) 提供有待处理的信息和阐释通过来自外部来源的转移得到的数据。,FGDC数字地理空间元数据内容标准,思考题,1.如何理解“信息技术标准”?2.国际标准书目著录包括哪些著录项目和著录单元?3.何谓机读目录?4.简述MARC的格式及其特点。5.简述中国机读目录格式的逻辑结构及各结构的作用。6.什么叫元数据?为什么说元数据并不是新生事物,而是由来已久?7.简述元数据的作用。8.简述都柏林核心元素集的15个元素及其设计原则。9.试分析都柏林核心元素集与传统文献著录规范相比具有哪些特点。,