会议文献开放资源采集与服务系统的元数据抽取.doc

上传人:仙人指路1688 文档编号:2396128 上传时间:2023-02-17 格式:DOC 页数:5 大小:106KB
返回 下载 相关 举报
会议文献开放资源采集与服务系统的元数据抽取.doc_第1页
第1页 / 共5页
会议文献开放资源采集与服务系统的元数据抽取.doc_第2页
第2页 / 共5页
会议文献开放资源采集与服务系统的元数据抽取.doc_第3页
第3页 / 共5页
会议文献开放资源采集与服务系统的元数据抽取.doc_第4页
第4页 / 共5页
会议文献开放资源采集与服务系统的元数据抽取.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《会议文献开放资源采集与服务系统的元数据抽取.doc》由会员分享,可在线阅读,更多相关《会议文献开放资源采集与服务系统的元数据抽取.doc(5页珍藏版)》请在三一办公上搜索。

1、会议文献开放资源采集与服务系统的元数据抽取Metadata Extraction for the Acquisition and Service System of Open Conference Literatures摘 要:在会议文献开放资源采集与服务系统中实现了自动抽取+人工校对的元数据抽取流程,并设计了一个自动抽取器。针对会议文献开放资源本身的特点,该自动抽取器集成了多个基础抽取模板,并易于构建针对某个会议文献集的处理模板,能实现对多种格式的文献进行自动抽取,具有较高的准确度。关键词:开放获取;会议文献;元数据抽取Abstract: We realize a metadata extr

2、action workflow of automatical extraction and manual proofreading in the acquisition and service system of open conference literatures and design an automatic extractor. In terms of features of open conference literatures, the automatic extractor integrates with a number of basic extraction template

3、s, and is easy to build a process template for literatures of a certain conference, it also can automatically extract literatures that have a variety of formats with high accuracy.Keywords: open access; conference literature; metadata extraction1 概述随着网络的迅速发展、学术交流模式的改变,网络上出现了大量可供用户免费使用的网络会议开放资源,例如:开放

4、期刊、机构仓储、会议录、科技报告、科学新闻、学术博客和研究社区等。会议文献开放资源采集与服务系统(以下简称采集服务系统)则实现了对会议文献开放资源的采集、标引、组织、保存和服务1。目前采集服务系统已经采集了2000多个会议的开放会议论文。每个会议都有数量不等、文档格式和排版格式都不尽相同的会议论文需要进行元数据抽取,所涉及的文档格式包括PDF、PPT、DOC、PS和HTML等,其中绝大多数为PDF格式的会议论文。目前国内外在如何快速、准确地从不同格式的文献中抽取元数据进行了大量的研究。文献2利用正则表达式规则对论文数据信息进行自动抽取,文献3描述了通过构造半结构化信息抽取器从HTML页面中提取

5、信息的方法,文献4利用机器学习模型从Office类型文档中自动抽取元数据信息。在PDF文献抽取方面。文献5通过样本学习生成抽取规则,利用抽取规则从PDF文档集中抽取出有用数据,文献6采用基于规则的匹配方法和基于格式的定位方法抽取PDF科技论文中的元数据信息。本文将首先介绍采集服务系统中的元数据抽取流程,然后描述元数据自动抽取器的设计与实现。2 采集服务系统的元数据抽取2.1 介绍在采集服务系统中,各类开放资源首先需要进行采集、分析和审核等处理操作,然后才能够被提交到用户平台。其中,资源采集具体实现了对包括用户推荐资源在内的各类开放资源的抓取和存储,资源分析则实现了对已采集资源的元数据抽取和标引

6、,资源审核是对已分析资源是否满足资源审核质量控制体系要求进行判断。采集服务系统中的用户平台则对通过上述处理的开放资源进行集成和发布。采集服务器系统中的开放资源处理流程见图1。用户推荐资源程序抓取资源资源采集资源分析资源审核用户平台采集服务系统资源建设人员用户图1 采集服务系统中的开放资源处理流程2.2 元数据抽取流程采集服务系统的元数据抽取基本要求是:从开放文献资源中抽取出能够描述资源本身的信息,例如标题、作者(包括姓名、机构、地址和email)、关键词、摘要、资助情况等信息。由于采集服务系统中的开放文献资源来源较广,要实现所有资源的准确自动抽取难度较大,而系统又需要得到质量较高的元数据。因此

7、在采集服务系统中,采用了自动抽取+人工校对的元数据抽取流程,详细的处理流程为:1)系统将采集到的某个会议不同格式的资源结果集保存到本地存储设备上。2)资源建设人员对结果集中的资源进行清洗,主要操作是对整本的文献集进行自动拆分,更改某些资源的名称或者删除不需要的资源。3)选择PDF抽取模板,通过自动抽取器,分别对PDF和DOC格式的文献进行自动抽取。4)系统找出对可能会出错的抽取结果,并提示资源建设人员对这些资源进行人工校对,增加、删除或者修改抽取结果。5)人工校对完成后,把该会议所有已校对的资源提交给资源审核流程。采集服务系统的元数据抽取流程见图2。 已采集未分析资源拆分更名删除已分析未审核资

8、源修改结果删除结果增加结果资源审核自动抽取器选择模板图2 元数据抽取流程3 自动抽取器的设计与实现 在整个元数据抽取流程中,自动抽取器的设计与实现至关重要。该自动抽取器的框架见图3。1)在清洗后的资源结果集中找出所有的PDF类型文献,根据资源建设人员事先选择的抽取模板,抽取出文献的标题、作者(包括姓名、机构、地址和email)、关键词和摘要等信息。2)在清洗后的资源结果集中找出所有的DOC类型文献,抽取出文献的标题和作者等信息。3)存储抽取结果。 抽取PDF类型文献抽取DOC类型文献存储抽取结果清洗后的资源结果集模板待添加的隐藏文字内容3选择图3 自动抽取框架在采集服务系统中,PDF是最主要的

9、文献格式,因此采集服务系统中的元数据抽取主要是对PDF文献进行元数据抽取。系统采用了PDFBOX开源软件包来提取PDF文献中的内容和信息。PDF文献属于半结构化文档,一般来说,该类型文献的结构框架相对比较固定,但是由于PDF创建源的不同,通过PDFBOX提取出的信息也是有较大的差异,因此很难构建一个准确抽取不同PDF文献的通用方法。目前采集服务系统中文献主要是会议文献,有相当数量的会议文献在首页包含有会议介绍,并且同一个会议中的文献格式具有相似性,因此为了简化抽取算法的复杂度,提高抽取的准确度,自动抽取器中建立了多个基础抽取模板。基础抽取模板主要考虑了文献中是否包含会议介绍,如果包含会议介绍,

10、会议介绍在文献中的位置等因素。具体的模板描述及处理方式见表1。序号模板描述处理方式1文献首页包含标题、作者、摘要、关键词和正文,没有会议介绍只提取首页所有行的信息,依次抽取出标题、作者、摘要和关键词,没有摘要就把正文第一段作为摘要2文献首页包含会议介绍、标题、作者、摘要和正文3文献首页包含标题、作者、会议介绍、摘要和正文4文献首页是会议介绍,第二页包含标题等内容只提取第二页所有行的信息,依次抽取出标题、作者、摘要和关键词,没有摘要就把正文第一段作为摘要表1 模板描述及处理方式如果应用基础抽取模板抽取的准确度较低的时候,通过修改相应基础模板中的参数就能迅速构建出针对该会议资源的处理模板,重新对该

11、会议的资源进行元数据抽取。下面主要介绍一下自动抽取器中PDF文献抽取的基本思路。1)自动抽取器根据抽取模板的选择,对PDF文献首页或者某一个页面进行遍历,提取出该页面的所有行的内容、行数、字体大小、字号、Y轴位置和纵向缩放值等信息,保存到中间实体类中,最终形成了一个包含所有行属性和方法描述的实体类列表。2)在后续的内容解析中,自动抽取器将直接对该实体类列表进行处理。主要采取的是以Y轴位置判断为主,实体类中其他信息为辅的方法。选择Y轴位置,而不是字体大小等其它信息作为主要判断依据,这是由于很多文献中看似字体大小不一致的字符,提取出来的字体大小却是一致的,而Y轴位置则具有一定的规律性。一般情况下,

12、文献中标题的Y轴位置小于作者的Y轴位置,作者的Y轴位置小于摘要或关键词的Y轴位置。作者信息在抽取出来的结果中是由姓名、机构、地址及email组成的一个整体,通过对作者分栏和分行等情况的处理,把每个作者的相关信息存储在一个新的实体类中,所有的作者信息形成了一个作者实体类列表。3)自动抽取器把抽取结果存储到结果实体类中,结果实体类包含了标题、作者实体类列表、摘要和关键词等属性。 自动抽取器对73届IFLA General Conference and Council会议文献的抽取结果界面截图见图4,从图中可以看出在抽取模板合适的情况下,该自动抽取器具有较高的准确度。目前,采集与服务系统已分析并发布

13、了2000余个重要会议的22700余篇会议论文。对于有适用处理模板的会议,自动抽取器能够实现90%以上的元数据抽取正确率;对于没有适用处理模板的会议,也能够基于基础抽取模板,快速构建适用的处理模板。 图4 元数据自动抽取结果4 结束语 本文针对在采集服务系统中如何快速准确地从文献中抽取出元数据的问题,开发并设计了自动抽取+人工校对的元数据抽取流程。在自动抽取环节,通过抽取模板的加入,极大地提高了抽取的准确度,同时在抽取流程中加入了人工校对,既保证了元数据抽取的质量,又减少了资源建设人员的工作量。在下一步的工作中,除了抽取模板的维护,还需要增加自动抽取器能够处理的文档类型,提高多种格式文献元数据

14、抽取的质量。 参考文献:1 朱江等.会议文献开放资源采集与服务系统的建设J.情报理论与实践,2010(7):117-119.2 李朝光等.论文元数据信息的自动抽取J.计算机工程与应用,2002(21):189-191,235.3 黄豫清,戚广志,张福炎. 从Web文档中构造半结构化信息的抽取器J.软件学报,2000(11):73-78.4 Yunhua Hu, Hang Li,bo Cao, et al. Automatic extraction of titles from general documents using machine learningJ. Information Processing and Management,2006,42(1):1276-1293.5 张波. PDF文档语义信息抽取研究D. 河北大学, 2004.6 张秀秀,马建霞. PDF科技论文语义元数据的自动抽取研究J.现代图书情报技术, 2009(2):102-106.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号