数字出版信息处理研.ppt_三一办公31ppt.com

资源描述

《数字出版信息处理研.ppt》由会员分享，可在线阅读，更多相关《数字出版信息处理研.ppt（56页珍藏版）》请在三一办公上搜索。

1、第三章数字出版信息处理,31 文献化处理311 文献类型一次文献是指作者以本人的研究成果为基本素材而创作或撰写的文献，不管创作时是否参考或引用了他人的著作，也不管该文献以何种物质形式出现，均属一次文献。大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献,文献类型,二次文献是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物，是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。检索工具书和网上检索引擎是典型的二次文献三次文献指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。如大百科全书、辞典等,312 文献检索,将文献信息按一定的方式组织和储存起

2、来，并能根据用户的需要取出所需特定信息的整个过程，文献检索分为数据检索：以文献中的数据为对象的一种检索。如某公式、某化学分子式等事实检索：以文献中的事实为对象，检索某一事物发生的时间、地点或过程文献检索：以文献为对象，查找某个课题的有关文献的一种检索,313 文献检索与数字出版,数字出版的标准化增强功能检索资源重用多种形式发布资源管理交换与共享出版内容文献化加工,314 全文数据的标引,概念标引，就是标出著作中具有情报检索价值和分析价值的知识项，并以此为基础，建立各种索引，从而为读者提供用以检索的入口，即所谓检索点标引方式自动标引，西方拼音文字比较适合，汉字（分词）有一定困难人工标引半自动标引

3、,标引,其他相关概念人名地名文献名年代关键字等具有重要检索价值的数据项可以加上相关属性，如人名加属性“N”，文献名加属性“D”等，这叫做“属性标引”很多代词或类似词汇是与上下文相关的，如：他同年次日其父等，标引时应明确标识出其所指，这种标引叫“加注标引”文章中可能出现大量同义词，如孙中山孙文孙逸仙等，着可用所谓“后控词表”来解决，即“孙中山”后带有孙文等，表示是同义词,单汉字处理模式，每一个汉字均做为检索点注意，标引不是正文中原有的内容，在显示正文时不应出现，所以标引应以区别于正文的形式加入，或者干脆另建一文件，表明与原文件相对位置的关系（索引）,32 例高等教育出版社,从出版物转变到做数字化

4、的内容从内容生产转变到资源集成从出版商变成服务商出版业要转变为数字化内容的服务业数字出版基本信息系统分三类协作创造平台生产内容管理平台内容服务和运营平台,内容创作（图书多媒体）,结构化,内容加工和标注,内容管理平台逻辑架构图,图书,网动图书,Online First,X M L,模板1,模板2,模板3,321 内容结构化,目的：一个内容可以应用在多个相同或不同载体的产品和服务中,便于修改：只要修改内容源头，而不需要修改每一个产品中的每一个地方，增加了内容的精确性,内容结构化,传统出版内容非结构化内容跟版式捆绑在一起做别的产品（如网络、移动阅读），必须重做结构化内容与版式分离内容可以通过不同的版

5、式生成不同的产品和服务如结构化的内容SXM格式套用模板会生成PDF格式文件变成电子书，同样SXM的格式的内容用另外一个模板就有可能生成网络文件以XML语言为内容结构化，XML鼓励各行业根据自己行业的特点来制定自己的内容结构化标准（DTD）,结构化标准HEPDTD,结构类,内容类,规范类,重用类,HEPDTD V1.0词汇200多个，分为六个方面：,公式：应用Mathml 2.0标准,图表：应用calstblx标准,结构化流程,作者按照Word模版交稿,Word稿整理,转换,生产XML动态文件,图书结构化流程,WORD模板是出版社根据自己的DTD的标准进行设计的,多媒体结构化流程,按结构及媒体进

6、行拆分,筛选,按资源库建设规范创作并标注,322 内容加工和标注,内容加工和元数据标注编辑在XML的编辑器上进行文档加工，加工过程与处理WORD文档一样标签都可以隐去，编辑就可以继续改动二审、三审人员都可以在线在XML编辑器上进行审稿,基于XML内容加工的优点,协同加工一本图书尤其是大型的工具书由多个编辑进行加工每个编辑从已经存在内容管理系统中的书稿文档中剪出自己的章节，别的工作人员可以看到团队每个人所做改动的情况不负责这一章节，不能对别人所复制的章节进行改动，但能看到别人的改动内容更改跟踪、各版本记录每个编辑做的删改在系统中都做记录，谁在什么时间做了哪些改动,基于XML的内容加工,基于XML

7、内容加工的优点,内容加工和重用单元标注同步进行加工过程中，对精彩的段落、片断可以拆分出来，对于他的属性通过元数据进行标注多种媒体的集成做一本书的时候，可以插入多媒体的素材，但多媒体的素材对于它的元数据标注时可以标注为在生成一本图书的时候不出现，但在网络发布的时候又出现，一旦书本做完之后，在网站上就可以同步发布。发布出去的产品，在图书上可能会插入很多多媒体的资源,基于XML内容加工的优点,灵活的工作流设置考虑目前实际情况，内容管理系统设计了纸面加工和内容标注分开进行的流程,内容元数据标注,有重用价值的内容，如例题、习题、案例进行元数据标注，以便这些内容更方便准确的检索，建立知识之间的关联通过元

8、数据标注可以准确搜索进行知识之间的关联，也就是说一旦一本书中的内容进行标注之后，一个读者在读别的作品时，想要浏览跟那本书中的知识点相关的内容资源，这本书的内容就可以跟他进行关联。也就是说，一位读者在读我这本书的时候，有一个内容是不能理解的，这个内容恰恰不是这本书所要讲的内容，只要别的书做了内容元数据的标注，那本可能讲这一数据最权威的书就会关联到这位读者所读的内容,内容元数据标注,实现跨出版社内容之间的关联在不同出版物之间，按照内容结构化和元数据的标准进行处理，不同出版社的内容放在一个公共的服务平台上，一位读者在读一个出版社内容的时候，就会关联到别的出版社更精彩的内容上,标注,1.通用类（ID、

9、标题、作者、关键词、描述、所属部门）,2.教育类（知识单元类型、媒体素材类型、读者层次、学科、知识点词汇、终端用户类型、创作难度）,3.技术类（文件类型、软硬件运行环境、创作难度、持续时间、安装说明）,4.权利类（价格、版权限制、著作权代理人、描述）,5.关系类（关系类型、标识符类型、值）,标注的项目共 33 个，图书中的重用单元将部分继承ERP中的信息,323 内容管理系统,三层内容模型,产品库：存放产品生产过程中的各类文档,案例库,习题库,图片库,动画库,资源库：存放各类跨媒体可重用单元（知识单元素材、媒体素材）,CMS管理的数字化内容,1.原稿（以PDF存放）,2.Word稿,3.X

10、ML初稿（Word转换）,4.XML正式文档（用于生产）,5.各类多媒体资源文档（资源库）,6.3B2排版文件,7.PDF成品,9.各类模版和样式文件,8.封面文档,“产品库”按部门设置：,“资源库”按学科来设置：,知识单元素材,媒体素材,324 多渠道发布,PDF,HTML,网动图书,页面集,DTD词汇的图书样式,中文排版的特殊要求规则定义,特殊字符集,基于XML的中文图书排版,特点：基于模版的自动化排版系统，可以提高系列图书的排版的效率，可以对结构化内容的版式定义的非常详细，版式设计灵活。模板的设计包括：,页面集,325 内容管理平台的作用,将各类资源,按照结构化的思想和统一的标准汇集

11、起来,为出版社内资源共享、集成服务提供强有力的支持；,面对市场的变化，灵活衍生服务产品；,提供一个集成的、综合的生产平台，有利于生产效率的提高和生产成本的降低。,33 例：数字报刊与跨媒体出版系统,可以和报纸印刷出版的正常生产流程无缝整合通过在全流程中引入版面的版本化描述和管控机制支持非正常流程情况的报纸版面生产，能够最大限度地保障在出现调版、撤版、转版、错版、改版情况下流程中流转的各种版面数据的一致性、完整性和正确性，很好地适应目前各种报纸日常多变复杂的版面实际生产环境和不同工艺,数字报刊暨跨媒体出版系统,平面媒体转化为互联网媒体版面文件按照电子报的技术要求进行加工（反解），然后基于反解的输

12、出结果，生成可以通过互联网阅读的电子报网页整合北大方正的版面结构化描述技术、电子版面的生成技术、电子报纸的自动合成发布技术；新创了基于飞腾软插件实现的一系列版面内容快速智能反解标引技术,数据组织,版面元素转换,版面包含的大样信息，即：报纸名称、见报日期、见报版面、版次、签发部门、签发人、组版员等。电子报中需要的呈现的信息是：报纸名称、见报日期、见报版面、版次等文字稿的小样信息，包括：引题、标题、副题、见报作者、栏目、与转版有关的下转和上接、来源、摘要、体裁、分类、发布方式、稿件类别、小样内容以及记者、编辑等。与电子报有关的信息有：引题、标题、副题、见报作者、栏目、转版信息、发布方式、稿件类别、

13、小样内容等,版面元素,图片稿件的小样信息，包括：引题、标题、副题、图片说明、见报作者、栏目、来源、摘要、体裁、分类、发布方式、稿件类别、图片的文件名以及记者、编辑等。与电子报有关的信息有：引题、标题、副题、图片说明、见报作者、栏目、发布方式、稿件类别、图片的文件名等,反解,基于fit文件反解能够获取到电子报中需要的大部分信息，飞旋插件导入版面文件时还能自动提取稿件的引题、标题、副题、小样内容以及图片文件名等信息通过飞旋插件标引的输出结果为以下三类文件XML文件：描述了版面的大样属性和版面所含小样的结构、属性、内容、位置关系；版面图：JPG格式，版面的pdf文件：反映了版面的内容，并可用于阅读；

14、稿件图：图片稿件的图（原图、简图、图标），按要求生成的稿件图，均为jpg格式,技术实现,“数字报刊阅览系统”是“数字报刊系统”的一个重要子系统，相关系统包括“数字报刊快速自动生成系统”“数字报刊多媒体加工系统”“报纸生产安全控制系统”“网站电子报发布系统”“数字资产再加工系统”“历史版面数据加工工程”,技术实现,衔接“采编与照排系统”，在源头采集信息嵌入“飞旋系统”，实现最简化的标引通过“畅流系统”，获取准确的版面图像借助“翔宇系统”，自动生成静态网页版面浏览转版稿件的合成模板管理报纸节点管理,数字报刊暨跨媒体出版系统,数字报刊系统实现了基于印刷的传统报纸、基于网络的电子报纸、基于数据

15、库的报纸光盘、基于CEB标准和PDF标准的数字图书（报刊合订本）以及面向广播、电视选播的特殊要求文本和版面样式文件的提供，实现跨媒体的出版。在报纸版面PDF文件中嵌入电视节目的技术实现，同时为未来实现媒体融合创造技术平台,34 数据的结构特征,结构性数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据数据模型：二维表（关系型）典型形式：数据库数据特点：根据结构组织数据、存储数据、处理数据技术关键：数据与结构相互独立优势：处理方便,非结构性数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等数据模型：无典型形式：全文数据特点：根据内容组织数据

16、、存储数据、处理数据技术关键：大型数据组织、存储、全文检索优势：适合各种形式的数据,全文数据中的数据结构关系文章的著录项信息，如篇名作者名主题词等具有很强的结构属性，一般采用关系数据库技术进行管理，著录项的查询很方便文章正文数据不具有很强的结构性，所以在全文数据库中数据的组织可采用文件系统，或对全文结构化，并利用文件名或库关联建立相应关系,半结构性数据介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，XML、HTML文档就属于半结构化数据。一般是自描述的，数据的结构和内容混在一起，没有明显的区分特点：先有数据，后有模式模式用于描述数据的结构信息，而不是对数据结构进行强制性的约束,数据模型：树、图核心概念：结构信息与实际数据一起组成数据集合典型形式：标记语言特点：根据结构和内容组织、存储、处理数据技术关键：利用数据结构信息描述实际数据信息优势：将各种形式的数据结构化XML文档是比较典型的半结构化数据，为了更有效地进行XML数据的处理，学者们提出了许多定义其模式的方案，如DTD、DCD、XML-Schema等。此外，还有许多关于XML文档内参照约束机制的建议，如Xpointer、XLink 等。提出XML文档的含义更丰富的模式定义形式和约束机制是目前非常热门的一个研究领域,

展开阅读全文