元数据编码.ppt

上传人:仙人指路1688 文档编号:4517068 上传时间:2023-04-25 格式:PPT 页数:126 大小:3.01MB
返回 下载 相关 举报
元数据编码.ppt_第1页
第1页 / 共126页
元数据编码.ppt_第2页
第2页 / 共126页
元数据编码.ppt_第3页
第3页 / 共126页
元数据编码.ppt_第4页
第4页 / 共126页
元数据编码.ppt_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《元数据编码.ppt》由会员分享,可在线阅读,更多相关《元数据编码.ppt(126页珍藏版)》请在三一办公上搜索。

1、,元数据编码,元数据体系架构,语义结构句法,元数据编码语言,From 张晓林,元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。在元数据发展初期人们常使用自定义的记录语言(例如MARC)或数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。,元数据编码的作用,形式化表述结构化,如标记语言例:ISO 2709,元数据管理组织与存储元数据表现元数据互操作长期保存,利用置标语言(例如HT

2、ML/XML/RDF/XMLs/RDFs/OWL等)将元数据方案形式化,提供机器处理的规范表达,就是元数据置标。-刘老师,元数据编码形式在元数据生命周期中的作用,基于生命周期的元数据开发应用框架,From 张晓林,元数据编码相关问题,字符集编码结构描述机制语义管理与注册机制结构化与非结构化平台独立与应用相关机器可读与人工可读逻辑层面与表现层面,用什么进行元数据编码?,普通文本私有结构(WORD)数据库非人工可读计算机编码机器语言ISO 2709 标记语言,元数据由谁来编码,编目人员手工编码专用的编辑器或客户端由机器编码自动生成描述性元数据自动生成技术性元数据由共享平台生成由系统根据协议生成,S

3、GML家族标记语言,标记语言,标记语言:标记通常是让软件识别如何来处理文本,包括:对文本进行索引用于屏幕显示或打印标记转换至其他输出设备标记语言的标记通常对最终用户是不可见的标记语言的实例:SGML/HTML/XML一个老的实例:WPS一种嵌入文档中、表示文档结构和/或格式的代码。-刘老师,SGML 家族,TEIEAD,RDFOWL,ONIX METSMODSMARC-XML,SGML(标准通用标记语言:Standard Generalized Markup Language),ISO 8879:信息处理-文本与办公系统-标准通用标记语言(SGML),(日内瓦:ISO,1986)主要是为了定义

4、通用的文件格式:优点:开放的ISO规范可以描述复杂的文本,适用性强适合支持对大信息容量及复杂的文本印刷的处理缺点:复杂的体系对效率与便携性是个挑战成本很高,需要昂贵、复杂的软件支持不能通过浏览器这种简单客户端来解析,HTML,ONIX METSMODSMARC-XML,TEIEAD,RDF,HTML(超文本链接标记语言:HyperText Markup Language),最新规范HTML 4.01(W3C 推荐稿(1999-12-04)是由Tim Berners-Lee在1990年代为万维网应用开发的:一个SGML DTD(实际上是SGML的一个应用)小型实用的固定的标记集史上最成功的文档格

5、式维护机构:W3C超文本标记语言(Hyper Text Markup Language)一种简单的文本置标和排版语言,带有指向其他对象的链接,用于万维网。-刘老师,HTML的优缺点,优点:相对易学易用适用面广,有很多应用工具非常适合用作信息展现 缺点:“非标准”的各种实现将信息展现与信息本身混合在一起预定义的标记集发展的空间受限链接能力受限,Early Days in Richmond Hill:A History of the Community to 1930:electronic edition.by Stamp,Robert M.Appendices compiled by Janet

6、 E Fayle Co-ordinated by Mary-Lou Griffin Richmond Hill Public Library Board1991based on the original document:Early Days in Richmond Hill:A History of the Community to 1930 by Robert M.Stamp,HTML实例,From:edrh.rhpl.richmondhill.on.ca/,HTML语言实例,HTML实例:张三 系统网络中心 上海图书馆,结果显示:张三系统网络中心上海图书馆,XML,ONIX METSMO

7、DSMARC-XML,TEIEAD,RDF,XML(可扩展标记语言:eXtensible Markup Language),最新规范XML 1.0(第三版)(W3C 推荐稿(2004-2-4)最新规范XML 1.1(W3C 推荐稿(2004-2-4)“专用于网络世界的SGML”支持SGML DTD-实际上是SGML的一个子集,但避免了SGML的复杂与高代价也是一种支持自定义标记集的“元语言”(利用XML的命名域机制)能够描述元数据与内容,但是没有格式与展现部分的内容缺省支持UNICODE有一个完整的规范系列予以支持维护机构:W3C,XML(续),XML 是一种较基本的表示结构化数据的语法体系X

8、ML可以被用作:标记一篇文档的结构与内容表述结构化的元数据作为一个容器表述非XML的内容以上各种用途的综合XML的一些原则:可扩展:每一个个人、机构或团体都可以定义自己的标记体系以满足各自的需求清晰明确:XML文档可以自我表述定义构造能力:通过严格遵守的简单规则可阅读:基本上是,XML实例:张三系统网络中心上海图书馆,XML实例,又一个XML实例,陈伯钧陈国懋523173918.jpg1910年11月26日1974年2月6日四川省达县河市乡北京高等军事学院院长上将1955年1955年一级解放勋章陈 伯 钧(1910-1974)陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予

9、上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。.,应用XML的优势在哪儿?,数据处理能力更强:索引 系统可以既快又聪明地索引XML文档智能代理 XML能让计算机读懂哪一部分的文档内容是哪一类型的数据数据交换 可以在不同的领域交换数据,各种数据中介将会更简单、便宜与可靠应用 与应用无关的数据共享能力可移植性:一次构建文档,可以按需要多次以各种格式发布(HTML、PDF或其他各种格式,包括在手机与PDA上的应用等等)XML似乎要比其他文档格式寿命更长信息展示:采用XSL/XSLT语言可以使文档内容可以很方便的以各种形式被剪裁、翻译以及格式化,XML 家族,XPointer,XQuer

10、y,XLink,XML Schema,XML Infoset,XML Namespaces,XInclude,XPath,XSL/XSLT,XHTML,ONIX METSMODSMARC-XML,TEIEAD,RDF,格式良好性与有效性(Well-Formedness and Validity),每一个标记都有始和终空标记以“/”结尾根标记只有一个标记嵌套要正确属性值要加双引号,匹配或遵循 DTD文件的定义与约束,格式良好的XML文档 well-formed:,XML 文档的有效性Validated:,RDF,ONIX METSMODSMARC-XML,TEIEAD,RDF,RDF(资源描述框

11、架:Resource Description Framework),最新规范RDF(修订版)(W3C 推荐稿(2004-2-10)基于XML的描述语言提供一种标准的描述模型提供语义、结构、句法三个层次的互操作能力模块化的互操作能力有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用应用前景广阔(如Semantic Web)维护机构:W3C,RDF基本概念,RDF是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(Resource)、属性(Property)与属性值(Value),资源resource,属性property,属性值value,语句statement,换言之“

12、张三是由以下网址所标识的资源的作者:http:/”,http:/,作者author,张三,什么是RDF?,http:/,作者author,张三,张三,RDF描述实例,http:/,作者author,张三,为什么需要RDF?,为什么要使用 RDF?,RDF提供共享元数据的模型(model)共享语义(meaning)元数据可以在相互了解不多或根本不了解的应用之间共享例如一个基于RDF的书目应用能够吸收基于RDF的地理空间应用的元数据并对其意义有所理解。,RDF:三位一体的描述体系,Value-C,value of property-B,RDF 的设计就是将你的XML文档结构化成资源、属性与值三位一

13、体的描述方法。,value of property-A,元数据标记语言DC描述实例,命名域(Namespace),ContentContentContent,命名域 A,命名域 C,命名域 B,XMLNamespaceSchema,XMLDocumentInstance,XMLApplication Profile Schema,命名域概念实例,A nifty pictureimage/tiff,METS Schema,NISO MIX ExtensionSchema,MODS ExtensionSchema,XMLNamespaceSchema,XMLDocumentInstance,XML

14、 METSApplication Profile Schema,DC实体概念,元素(element)修饰词(qualifier)元素限定(element refinement)编码体系(encoding scheme)字符串值(value string),编码体系Encoding Scheme:元数据修饰的一种方式,用来规定元素取值范围或取值意义的受控词表或规范名称。-刘老师,基础,DC描述将嵌入到(X)HTML文档的 部分DC元数据描述放在这里,DCMES的元素,使用XHTML中的元素的属性 name 和 content 来对DC15个元素和字符串值进行置标,使用如下形式:例如:15个MCM

15、ES元素的名称首字母一般小写,字符串值(Value strings),字符串值(value strings)在XHML的 元素的content 属性中content 属性中的字符串定义为CDATA,即来自文档字符集中的一连串可能包括字符实体(character entities)的字符如果需要,长的字符串值可以打包成多行需要忽略某些特殊字符,如,etc,字符串值(Value string)的语种,在说明字符串值(value string)语种的地方,应该用XHTML 元素的 xml:lang 属性,如:,置标时如何重复元素,多个属性值应通过重复 XHTML 元素来为这些属性置标,例如:,其他的

16、DC元素,DC还有元素不属于原来的DCMES15个元素中,如Audience使用相同的形式置标,但改用 DCTERMS 前缀:例如:元素名称可以大小写混合,但首字母要小写,元素限定(element refinements)的置标,对元素修饰词使用相同的形式置标:例如:,编码体系(encoding schemes)的置标,编码体系使用XHTML 元素中的 scheme 属性置标,使用如下形式:举例:,命名域的处理,DC.和 DCTERMS.两个前缀用来指明属性来自的命名域把命名域的URI放在XHTML的元素中:当然所有的字串都可以做为前缀的名称,现在使用的是 DC.和DCTERMS.,值的URI

17、s,当一个属性的值是另一资源的URI时(如 DC.relation属性),推荐使用另一种供选择的置标方式,采用XHTML的 元素,使用如下形式:例如:,DC元素和非DC元素混合时的置标,在XHTML 元素中,DC元数据可以与非DC元数据混合下面的例子在同一个XHTML网页中内嵌了DC,AGLS和非标准的元 数据:,HTML 文件头的实例,Early Days in Richmond Hill:A History of the Community to 1930:electronic edition.,From:edrh.rhpl.richmondhill.on.ca/,用XML对DC进行置标,

18、在说明值(value)语种的地方,应该用 xml:lang 属性,如:seafood fruits de mer,元素限定的XML置标,元素限定(element refinements)置标方式与其他属性相同比如:2002-06 请不要使用下面置标方式的任一种:2002-062002-06 2002-06,编码体系(Encoding schemes),编码体系(encoding schemes)应该使用XML元素的xsi:type 属性来置标编码体系的名称应该作为一个属性值,采用XML限定名(QName)的形式:http:/www.ukoln.ac.uk/,作为容器的元素,注意,记录(reco

19、rds)应该在一个或多个某种类型的XML容器元素中置标;不推荐任何容器元素的名称,也不推荐容器元素来源的命名域名称下面的容器元素名称做为侯选:,and,名称的大小写问题,元素、元素限定、编码体系(elements,element refinements and encoding schemes)应使用列入如下文档中的名称:DCMI Metadata Termshttp:/dublincore.org/documents/dcmi-terms/注意:15个DCMES中的元素首字母必须小写,Element,Value,Resource,Value,Property Type,Dublin Core

20、,RDF Model,Date,2000-11-27,Created,ISO8601,www.page.html,2000-11-27,Date,RDF Model,Dublin Core,DC的RDF描述实例,http:/,DC:Creator,张三,张三,更多RDF描述实例,Dublin Core Metadata Initiative(DCMI)Home Page The Dublin Core Metadata Initiative is an open forum engaged in the development of interoperable online metadata

21、standards that support a broad range of purposes and business models.DCMIs activities include consensus-driven working groups,global workshops,conferences,standards liaison,and educational efforts to promote widespread acceptance of metadata standards and practices.2001-01-16 text/html en Dublin Cor

22、e Metadata Initiative,dublincore.org/index.shtml.rdf,更多DC在RDF中的描述实例,D08.586.682.075.400 Formate Dehydrogenase,http:/dublincore.org/documents/2002/05/15/dcq-rdf-xml/,xmlns:bib=“http:/www.na.org/persons#”,Metastructures 98 Talk,Eric Miller emilleroclc.org OCLC Metastructures 98 Talk,混合元数据(命名域)应用实例,Met

23、adata and XML,XML=syntax,Metadata and RDF/XML,Metadata=semantics,RDF=structure,XML=syntax,模式(schema)定义,元数据规范(schema)定义语言,DTD(Document Type Definition)文档类型定义,XML Schema XML 模式(XMLs)XMLS指XML Schema,即XML模式,用于定义XML词表和结构用于机器识别和共享信息的定义语言。-刘老师,Address Example:DTD实例和树(1),Document Type Definition(DTD):,Addre

24、ss Example:DTD实例和树(1),Address Example:DTD实例和树(2),Document Type Tree:,Document Type Definition(DTD):,address,PCDATA,PCDATA,PCDATA,name,street,town,place,Address Example:DTD实例和树(2),Document Type Tree:,address,PCDATA,PCDATA,PCDATA,name,street,town,place,Xaver M.Linde Wikingerufer 7 10555 Berlin,XML Mar

25、kup 2:,DTD的一些语法符号,Document Type Tree:,|或?0 或 1,address,PCDATA,PCDATA,PCDATA,name,street,town,PCDATA,box,+1.N*0.N,DTD的一些语法符号,Document Type Tree:,Document Type Definition(DTD):,address,PCDATA,PCDATA,PCDATA,name,street,town,PCDATA,phone,PCDATA,fax,XML 实例,address,Xaver M.Linde,Wikingerufer 7,10555 Berli

26、n,name,street,town,030/1234567,030/1234569,030/1234568,phone,phone,fax,XML Schema实例,Gustav SielmannArnold RummerJohann Neumeier,XML Schema实例,元数据词表定义与本体,RDFS(RDF Schema)RDF Vocabulary Description LanguageRDFS即RDF Schema,用于定义元数据属性元素(例如“创建者”),以描述资源的一种定义语言。-刘老师,OWL Web Ontology Language 万维网本体语言(Web Onto

27、logy Language)是描述互联网上信息内容及其相互关系的一种人工语言,是对RDF模式语言的进一步扩充,从本质上是为了计算机处理而设计,而不是为了人理解用的。-刘老师,RDF Schema 词汇定义语言,定义类(Class)rdf:Resource rdfs:Class rdfs:Datatype rdf:Property 定义属性(Property)rdfs:subPropertyOf rdfs:domain rdfs:range rdfs:subClassOf,RDF Schema 举例,来自科技部项目的规范,RDF Schema 的属性关系与简单推理,subClassOf:Caro

28、le 是类(class)的成员是 的子类(subclass)因此 Carole 在大学(university)工作.subPropertityOf:Marlon 有兄弟姐妹(hasSibling)Susan有兄弟姐妹(hasSibling)属性是有亲戚关系(hasRelative)属性的子类(subclass)因此Marlon与Susan有亲戚关系Domain and Range:有兄弟姐妹(hasSibling)这一属性只能应用于动物主题与对象,因此 Marlon是动物这一个类的成员。,OWL 万维网本体语言,分为三个版本,Full,DL,Lite,三个语言层次版本:OWL LiteOWL的

29、一个子集,对于描述分类及简单的关系很有用OWL DL(描述逻辑)包括OWL的所有构词,不过也有一些相关的约束以保证維持計算機使用的完備性(computational completeness,即所有的結論都能夠確保是可以被計算出來的)與可判定性(decidability,即所有的計算都能在有限的時間內完成)的用戶使用。OWL Full包括所有的OWL构词并且没有限制与约束,但是不保证可处理能力。语义层次不同层次的OWL必须在语义上有如下的一致关系:All legal Lite ontologies are legal DL ontologies.All legal DL ontologies

30、are legal Full ontologies,An OWL Example,An Example Ontology:Climate Data,The example shows how to construct a really simple ontology and instance.We dont use it to encode all data but rather to encode metadata about data files.Where is the data file(URI)that has the temperature associated with this

31、 dataset?Two classes:datasetParameterOne property:hasParameterSeveral parameters:cloud_medium,bounds_latitude,temperatureLine Pouchard(ORNL)created this for ESG using Protg and OilEd.,Lets Begin,Front matters:OWL ontologies begin with the header.A useful place to put metadata about the document.Line

32、 uses the Dublin Core to establish authorship.Next,define two classes:dataset and parameter.Class definitions are almost trivial.We really state what something is by its properties.Deep philosophical arguments here,Im sure.Most of the work will go into defining the property,hasParameter.Begins on bo

33、ttom of next slideBut the full extent of the definition requires a separate slide.,Class Definitions,Ontology headerWith Dublin CoreParameters.,hasParameter Definition,Defining hasParameter,hasParameter domain:it applies to the dataset class.hasParameter range:it applies to a list of 3 OWL ThingsClo

34、ud_medium,bounds_latitude,and temperature.This is done using the awkward RDF list structure.“Give me the first of the rest recursively until I get to nil”These three OWL Things are then defined.They are each of type“parameter”That is,members of the parameter class.Each may also be further defined by

35、 additional properties and classes.Temperature has units,for example,bounds_latitude needs starting and stopping values in decimal degrees,etc.Or it may be out of scope.I may just need to know that the bounds_latitude for particular dataset is located in some resource with a specific URI.,Parameter:

36、Cloud_medium,Parameter:temperature,Parameter:Bounds_latitude,Finally,Apply It to Something,What is the file PCM.B06.10.dataset1?Its a member of the dataset class,which we have defined.What properties does it have?bounds_latitude and cloud_medium,as all such members do.Where can I get the bounds_lati

37、tude for this data set?Its in the file indicated by the rdf:resource.,OWL Enriched RDFMetadata about PCM.B06.10.dataset1,OWL 属性的性质,owl:TransitivePropertyowl:SymmetricPropertyowl:FunctionalPropertyowl:InverseFunctionalPropertyrdfs:domainrdfs:range,owl:TransitiveProperty,P(x,y)and P(y,z)=P(x,z),owl:Sy

38、mmetricProperty,P(x,y)iff P(y,x),RDFS与OWL的区别,同RDFS,OWL可声明类和属性,并由类包含(subClass)和属性包含(subProperty)公理来划分各自的等级层次。但OWL的类是能通过逻辑组合算子(合取,析取,补)在其他类的基础上得以描述,也能视为多个对象的枚举类;同时OWL还可声明某个属性具有传递性、对称性、函数性,或是某个属性的逆属性。显然这些都超越了RDF(S)的能力。更为重要的是,OWL允许通过属性限定词(restriction),并结合对属性的描述和对类的归属从而自定义新的类。,元数据与数字资源管理:METS,METS(元数据编码与

39、交换标准:Metadata Encoding&Transmission Standard),提供描述规范构造“集成器”(hub)文档来管理数字对象基于XML规范“集成器”文档可以联接分散但相关的数字文件及内容METS利用XML提供一种词汇及语法来标识数字对象文件,描述其间的关系,从而组合这些相关的数字实体来源于MOA2项目维护机构:LOC,METS的作用,标识出组成一个数字实体对象的文件或文件中的章节,并且表示出相关这些内容的结构链接描述元数据与相关数字内容链接管理元数据与相关数字内容链接动作定义及程序代码与相关数字内容及描述和管理元数据将数字内容与相关的描述及管理元数据打包成二进制数据包,我

40、们可以利用METS:,用于交换的语法规则 作为转换及交换数字对象的标准 SIP(OAIS模型)用于功能描述的语法规则可以作为最终用户浏览或阅读数字内容及相关元数据的基础DIP用于存档的语法规则可以作为用于数字对象保存的标准 AIP,METS可以用作SIP/AIP/DIP,Producer,Consumer,Management,OAIS,SIP,DIP,AIP,Administration,Preservation planning,Ingest,Access,AIP,Datamanagement,Archivalstorage,Descriptive info,Descriptive inf

41、o,METS文档的结构,Header Descriptive Metadata Administrative Metadata File list Structural MapStructural Link Behavior Section,METS文档的结构,头标区(可选)描述元数据(可选)管理元数据(可选)文件节(有则必备)结构描述(必备)结构链接(可选)行为描述(可选),METS 结构,METS 结构(头标区),METS 结构(描述元数据),Alices Adventures in Wonderland text,METS 结构(描述元数据实例),METS 结构(描述元数据),外部描述元

42、数据,METS 结构(管理元数据),METS 结构(管理元数据),amdSec,sourceMD,digiprovMD,rightsMD,外部管理元数据,techMD,mdRef,mdWrap,METS 结构(文件节),METS 结构(文件节),外部文件内容,fileSec,fileGrp,file,Flocat,FContent,file,file,链接文件与管理元数据,fileSec,fileGrp,file,amdSec,sourceMD,digiprovMD,rightsMD,文件节,管理元数据,外部管理元数据,techMD,mdRef,mdWrap,METS 结构(结构描述),链接结

43、构与内容,structMap,外部内容,文件节,fileSec,fileGrp,file,Flocat,div,area,fptr,mptr,seq,area,area,par,area,area,FContent,file,file,file,结构描述,链接结构与描述元数据,结构描述,structMap,div,描述元数据,外部描述元数据,div,div,链接管理元数据与结构和内容,结构描述,管理元数据,structMap,div,fileSec,fileGrp,file,amdSec,sourceMD,digiprovMD,rightsMD,外部管理元数据,techMD,mdRef,mdWrap,文件节,METS 结构(结构链接),METS 结构(行为描述),BNI3165 Cambridge Mass.Reports of the president and treasurer for.Radcliffe College University Press,METS官方网址:http:/www.loc.gov/standards/mets/,http:/mapageweb.umontreal.ca/turner/meta/english/,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 文秘知识


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号