数字出版信息组织研.ppt

上传人:小飞机 文档编号:6294424 上传时间:2023-10-14 格式:PPT 页数:55 大小:363.82KB
返回 下载 相关 举报
数字出版信息组织研.ppt_第1页
第1页 / 共55页
数字出版信息组织研.ppt_第2页
第2页 / 共55页
数字出版信息组织研.ppt_第3页
第3页 / 共55页
数字出版信息组织研.ppt_第4页
第4页 / 共55页
数字出版信息组织研.ppt_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《数字出版信息组织研.ppt》由会员分享,可在线阅读,更多相关《数字出版信息组织研.ppt(55页珍藏版)》请在三一办公上搜索。

1、电子书(数字图书)光盘、互联网、无线网等渠道获得计算机、PDA、电子阅读器、移动电话上阅读特点直接由计算机或其他电子设备存储、检索、显示和处理制作非常简单,可使用专用工具载体多样化经由互联网、无线网等通道非常快速地传播方便检索和永久保存,问题:为什么没有普及?,第二章 数字出版信息组织,21 数字文档方式数字出版中所用到的文稿形式,在实际中最典型有四种:图像方式公司自有格式、PDF标准格式和标记语言方式图像方式图像方式指对印刷稿直接用扫描仪扫描成图像,阅读时原样显示图像实现简单,占存储容量大,不能用于全文检索和超文本链接只出现在早期,现在基本不再使用观点:图像方式并不是合适的数字文档形式,数字

2、文档方式,公司自有阅读格式微软(LIT)、Adobe(PDF),国内超星(PDG)、方正(CEB)、书生等,全部拥有自有格式和浏览工具用户使用不同阅读器,一定程度上增加用户阅读成本,可能无形中造成数字图书用户流失竞争后的事实标准,数字文档方式,PDF格式与印刷密切相关继PostScript(解决了符号字型描述的标准化)之后的一项重要技术,解决排版格式上的标准化问题印刷制作的文稿可以直接制作或上网使用,数字文稿完全体现了印刷文稿的形式,用户可以原样打印输出,复杂的公式图表也可以很好的描述。现在一些报刊上网仍然提供PDF格式,以便读者了解版面情况,出版社也用其存档保存图书信息PDF是可加密文档:可

3、给用户不同等级的权限,可附数字签名,做批注、审批加印等,数字文档方式,PDF格式不主要针对电子阅读在相对很小的屏幕上看大的印刷版面不方便PDF检索功能相对较弱对文章的检索不很方便,超文本链接功能不够强,这些功能是数字文档突出的特点观点:PDF格式实际上是印刷出版的数字化延伸,建立了印刷出版和数字出版的桥梁,是对传统出版的数字化兼容,而非全新意义上的数字出版格式,数字文档方式,标记语言方式以HTML为主的数字文档标识方式标记语言文稿可以在浏览器在上直接识读专门为计算机描述文档,用户可以方便的浏览和检索信息网络功能能够将Internet上的信息资源联结起来,因而成为今天网络环境中最主要的数字文本描

4、述方式,在数字出版领域?,22 数字出版中的数据,方正博思内容管理平台,数字化产品(书+内容)业务流程,内容创作(图书多媒体),结构化,内容加工和标注,内容管理平台逻辑架构图,图书,网动图书,Online First,X M L,模板1,模板2,模板3,高等教育出版社基于内容管理的业务流程,在数字出版中,需要一种描述出版行为结构框架的工具组织不同类型、格式的数据,以形成产品方便联结不同阶段的加工过程方便流程管理方便知识(不仅是数据)保存便于数据转换便于以各种形态发布,文本与文献,文本是知识交流的主要方式文献单一的信息单元文本是文献的典型数据形式,文献也可以包含其他媒体可以是一个完整的逻辑单元,

5、如研究报告、书、手册;也可以大型文本的一部分,如一个或多个自然段,词典的一个条目,一个汽车零部件的描述等可以是任意物理单元,如一个文件、一封电子邮件或一个网页,文献的特征,语法用于定义结构、表现样式、语义甚至是外部行为结构,文献生产者指定,如章、节语义,文献作者说明样式,如何打印或显示,文献的处理,人的理解通过内容计算机理解自然语言?格式转化专用/开放,文献自身的信息(与内容无关),元数据,元数据,元数据关于数据组织、不同数据域及其相互关系的信息。简言之,元数据就是“关于数据的数据”数据库中的关系名、每个关系的字段和属性、属性区域文本相关的元数据包括作者、出版日期、出版商、文献长度(如页数、字

6、数、字节数)以及文献的类型(如书、文章、备忘录等),23 SGML通用标记语言,231 SGML概述80年代初IBM公司为世界的计算机和信息系统制订标准,通过在文档中附加标签,标志文档中的各种元素,这种将纯文本及格式化文本混合在一起的伪计算机语言称标记语言。IBM把这种语言叫做GML(Generalized Markup Language)1986年世界标准化组织在GML的基础上制订了ISO8897标准,即SGML(Standard Generalized Markup Language)SGML作为一个国际标准语言,主要用于电子排版。其目的是为了不同系统之间文档信息的交换及文档信息的再利用,

7、SGML主要是面向正文的,但也可以描述图形图像声音等。SGML是元语言,它主要是用来定义其他语言,而不对原始文档的表达方式做太细的规定与限制,232 SGML的作用与特点,SGML的作用主要是对文档做结构上的规定规定了表述文档结构及属性信息的方法,即抽象文档结构规定了从抽象文档结构到具体应用所需要的特定字符及定义方法规定了适用于这一具体文档结构的文档表达方式对具有处理SGML标准文档并且可查找出文档中的标记错误等能力的文档处理系统做了规定规定了将图像等多种形式的信息嵌入SGML的表达方式,SGML,SGML的特点SGML做为通用标记语言要考虑适合各种不同类型的软硬件平台,做到与具体系统的无关性

8、文档信息的转换和处理与具体设备无关。文档的理解和转换与具体的处理系统无关SGML与具体的应用无关。与所用的语种无关,233 SGML的组成,SGML在逻辑上将文件组织成树形元素结构。SGML文件一般由三部分组成:SGML声明文件类型定义(DTD)和文件实例SGML声明用于定义字符信息具体语言规则容量要求及使用SGML的哪些特性文件类型定义(DTD)定义文件的结构及在文件信息中的标记规则。DTD遵照SGML声明中规定的字符信息及语言规则,对一类文件的结构用一组标记声明作严格定义文件实例包含文件信息及标记,是SGML的主体,SGML元素,元素是一个可标记的逻辑体,以“book”为例,视book为一

9、类元素,将它可分为若干Chapter,Chapter还可分为Title和若干Section。Chapter,Title和Section也是元素。它们都是含有一定结构的逻辑体一个元素的标记实例元素名 数据/元素名起始标签 结束标签,SGML元素,BOOK类的元素实例,SGML DTDs,在SGML中,用DTD(Document Type Definition)来定义文献(元素)类型,描述其内部的一般逻辑结构。如下DTDs:!ELEMENT Book-(chapter+)!ELEMENT Chapter-(Title,Section+)!ELEMENT Title|Section-CDATA 其中

10、+表示一个或多个,24 超文本标记语言HTML,HTML的起源89年,欧洲核能研究中心的Tim Berners LeeSGML的应用实例面向信息表示(Tim原意为面向数据组织)HTML文件的构成HTML由元素组成,结构上由HEAD元素和BODY元素组成,其他元素都包含在两者中超文本标记语言用来规定文档的逻辑结构,其扩充允许行间图片填充表格嵌入对象和程序以及资源超文本链接其大部分标记具有如下形式标记名称 属性名属性域 内容,HTML,HTML的目的(Tim Berners-Lee):“万维网是人们相互交流的一种媒介:通过共享知识来交流。为了达到这个目的,计算机、网络、操作系统和命令都要成为无形的

11、,留给我们一个尽可能直接获得信息的界面”(释放万维网的全部潜能),HTML格式页,格式页HTML的问题HTML设计的初衷是描述文档中各部分内容的结构,而不是文档内容在页面或显示器上出现的具体形式。这一点使HTML文档可以跨平台使用。但在表示具体文档时,文本格式细节如何显示也需要描述。HTML采用的方法是:将内容描述和显示描述信息混合在一起。使用标记语言同时表述结构和格式信息是不可取的,这将使文档难于维护,格式页,解决问题的思路把格式化指令作为一个整体与文本标记完全分离,使用专门为格式细节而设计的语言来编写格式化指令,即格式页法格式页法把设计文档分为两个步骤(1)标记文档自身(内容)(2)设计格

12、式化指令(显示),格式页例,!-格式化指令-P left margin:5cmfont-family:font-style:italiccolor:black!-标记文档-H2/H2P/P表示段落P按 内格式显示,格式页,格式页的优点相同文档可利用不同格式页文档维护方便。同一文档集可采用同一格式,修改时统一改变。这一点非常适合出版一致性好。便于管理和更新。适用于栏目化表示简化标记与格式。格式从文本内容中分离出来,格式页,实现格式页的方法规则型,指令以语句或声明列表形式出现,指定文档某一元素或一组元素的格式。其优点是简单,缺点是受格式限制。现在Web中主要是这种形式,称为CSS(Cascadin

13、g Style Sheets)过程型,格式化指令以函数形式出现,相当于小程序。其优点是功能强,缺点是复杂。典型的如专为SGML设计的DSSSL(Document Style Semantics and Specification Language),25 可扩展标记语言XML,251 HTML面临的问题HTML的特点语法简单,容易学习开发应用简单,广泛应用直观影响:使Web技术从计算机界走向全世界并深入影响每个人的生活HTML的问题过于简单,影响复杂文档(多媒体、数学公式)面向表示(远离面向结构的初衷)内部条理越来越差,XML,需求的发展W3C XML工作组主席Jon Bosak指出,以下四类

14、应用在HTML中无法实现,必须依靠XML才能完成:1需要Web客户在两个或多个异种数据库间操作的应用2试图由Web客户分担相当比例的Web服务器处理任务的应用3需要向Web客户呈现同一数据对不同用户的不同显示(view)的应用4智能Web代理(agent)试图使发现的信息与个人用户的需求相符,252 XML概述,定义可扩展标记语言XML(eXtensible Markup Language)描述了一类称为XML文档的数据对象,且部分地描述了处理这些数据对象的计算机程序的行为XML文档结构序言XML声明文档类型定义DTD文档实例按DTD对具体文档的描述,例,XML3.0技术内幕微软公司东方人华2

15、0018,72.00,XML验证,语法检查过程通过某种DTD进行了验证的XML是合法的XML一个形式良好的XML文档遵守XML语法规则XML文档必须有根元素 XML文档必须有关闭标签 XML标签对大小写敏感 XML元素必须被正确的嵌套 XML属性必须加引号验证器,XSL,XML标准体系XML文档描述(DTD及对具体文档的描述)XML文档使用可扩展样式表语言(eXtensible Stylesheet Language XSL),XSL,XSL是表达样式的语言,样式包括两方面的含义首先是内容的重新组织,对应XSL信息转换语言(XSL Transformation Language,XSLT),用

16、于对XML文档进行处理,如挑选信息、改变信息顺序、对信息处理后得到新信息等然后是内容的呈现格式,对应XSL对象(XSL Formatting Object),类似于CSS,但功能更强,XML中的超链接,XML超链接可以多向链接(HTML单向),用于多个文件协同工作文件内部定位功能链接库分离文件与链接XML链接规范分为Xlink语言、Xpointer语言、Base,XML中的其它技术,XML体系中的其它技术XML Schema:模式,比DTD方式更容易编程处理DOM:文档对象模型,XML文档的应用程序接口JDOM、SAX,253 XML的特点与影响,XML的特点信息描述与信息处理分离,标记只是描

17、述数据本身XML文档具有自我描述能力XML具有开放性和可扩展性文档可验证,XML的应用领域,设计标记语言根据本领域需求设计,如化学领域的CML、数学的MathML、移动通信领域的WML等数据交换和数据整合数据交换的核心是信息描述的标准化,主要解决信息的可理解性问题,XML具有描述数据的非凡能力和对数据描述格式的一致性,正在成为数据交换的事实上的标准不同用户的不同数据源(不同格式的数据库)可以只通过XML进行数据交互,XML成为统一接口语言(XML没有定义数据的具体规范,而是通过数据中附加标记来表达数据的逻辑机构和含义),XML的应用领域,媒体无关的数据发布同一数据可用不同方式发布尽量完善的表示

18、数据本身,然后用XSL的转换发布到各种媒体(显示器、打印机、无线设备、盲文设备)真正可以实现“一次制作,多种复制”(“一次制作,多次出版”)智能代理和本地计算XML具有自描述属性,智能数据库可以根据已有知识库理解数据,然后做出具体处理服务器只需仅可能完善、准确的将要处理的数据封装进XML文件中,传给客户机,客户机可本地处理(XML的自描述性),使分布计算成为可能,XML的应用领域,精确搜索标记描述数据信息(内容与结构),可根据结构检索内容文件保值自描述性使多年之后文档仍然是可以理解的,XML的影响,通用的信息描述ASCII码使计算机内部编码统一TCP/IP通过通用的链接协议,使任何支持TCP/

19、IP的设备之间可以互通XML具有开放性和描述复杂数据的能力(元语言),可以建立任何复杂层次的数据模型,现有信息也可转化为XML,形成统一的信息描述平台独立的信息发布信息描述与信息处理分离(数据库和SQL)一次描述,到处使用(JAVA的“一次编译,到处运行”),XML的影响,数据交换独立数据独立于供应商和平台,遵从共同的DTD就可以交换,与硬件、软件、数据库、语言无关搜索符合用户意图自描述使信息不拘泥于具体的数据库格式(用户不关心格式,只关心内容)信息分布处理客户端只根据XML文档按照本地的要求处理,254 XML的应用OEB,电子图书格式的标准问题国际开放式电子书籍论坛OeB(Open eBo

20、ok Forum),网址,制定出了开放式电子书籍推荐格式(Open eBook Publication Structure Recommended Specification)开放式电子书籍论坛是电子书籍的国际标准化组织,它的成员包括Microsoft、Adobe、方正电子、Sony等厂商和McGraw-Hill、Pearson Education、Oxford University Press等著名出版公司OeB推荐的电子书籍格式是基于XML的开放格式,它有望成为未来电子书的标准格式,Open-eBook标准,OEBPS 规定使用XML文档来表示电子书籍,其结构如下,Open-eBook标准

21、,其中是电子书籍的根元素,一个元素就表示一个电子书籍(如对应edu.bigc.oebpkg.Package类)提供书籍描述,如书名、作者等等,它包含两个子元素和(如对应的类是Metadata)提供遵循Dublin Core Metadata Initiative(http:/dublincore.org/)规范的书籍元数据描述(如对应DcMetadata类),Open-eBook标准,根据Dublin Core Metadata Initiative的定义,书籍的元数据描述元素有、,Open-eBook标准,元素表示电子书所包含的附属文件及其类型(对应类为Manifest),它的子元素为(对应Item类),每一个对应一个文件元素(对应Spine类)定义电子图书的基本线性阅读顺序,其子元素(对应Itemref类)的排列顺序就是文档的基本阅读顺序。指向在中定义的文件。元素是可选项目,它可以定义多个不同的文档导航,导航的内容可以是文档的部分或全部内容。元素对应于Tours类,其子元素对应于Tour类。每一个就是一个导航方案,它由一个或多个(对应Site类)构成,Open-eBook标准,最后,元素(如:对应Guide类)也是可选项目。它由一个或多个元素(如:对应Reference类)构成,定义图书的基本结构元素,如目录、封面等等,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号