《大数据与图书馆服.ppt》由会员分享,可在线阅读,更多相关《大数据与图书馆服.ppt(14页珍藏版)》请在三一办公上搜索。
1、大数据与图书馆服务,摘要:通过对大数据特征和国内外现状的详细分析,对大数据时代的图书馆服务提出了三点思考,对图书馆利用大数据提出了期望。,关键词:大数据;图书馆服务,大数据概论,大数据(bigdata),或称海量数据,是用来描述海量的结构化和非结构化数据的专业术语,包括业务流程数据,如天文望远镜拍摄的图像视频数据、气象学里面的卫星云图数据等;企业大数据,如物联网、联通、移动、电信等通信和互联网运营商的数据等;社会大数据,如社会性网络服务(SNS)、微博、新闻媒体、视频网站、电子商务、招聘信息等;个人大数据,如个人实时位置、状态、见闻、言论等;科学大数据,如各种学科数据库等。大数据所描述的数据量
2、规模巨大到无法通过传统的数据库和软件技术进行存储、管理和处理。作为这两年的热词,大数据是继Web2.0、数据仓库、数据挖掘和云计算之后为计算机界所主要研究的对象。在感知上,大数据是指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集合,大数据之所以可能成为一个“时代”,在很大程度上是因为这是一个可以由社会各界广泛参与的社会运动,而不仅仅是少数专家学者的研究对象。,大数据特征,数量Volume 第一个特征也是最重要的,大数据描述的是大批量数据,数据量级一般可以达到PB(1024TB)级规模,根据互联网数据中心(IDC)的监测,全球在2010年正式进入ZB(10243TB)时代,2011
3、年全球数据量将达到1.8ZB,预计到2020年,全球将总共拥有35ZB的数据量。日益庞大的数据量使得人们对数据的有效利用日益重视,从而衍生了大数据概念。大数据需要处理的是各类统计、用户行为等数据,如企业的经营交易信息、商品物流信息、社会网络交流信息、位置信息等,数据规模极为庞大,有着自己独特的处理方案。多样性Variety 大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成了大量的异构数据,因此不能再用处理结构化数据的方法来进行处理。速度Velocity 大数据对数据实时处理有着极高的要求,需要实时反馈结果,捕捉、分析、处理每一瞬时出现的数据,因此通过传统数据
4、库查询方式得到的当前结果很可能已经没有了价值。真实性Veracity 大数据策略可以提供更为真实的数据,通过对大量数据的分析,在用户行为、数据总结和未来预测方面做出准确的判断,为政府、企业、科研决策提供了真实可靠的依据。,大数据技术及应用现状,大数据的研究是近几年开始的,为了适应大数据日益迅猛的发展,其技术发展很快。就目前来看,大数据技术主要涵盖的领域有可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据管理以及Hadoop、Map-Reduce、HDFS等。在大数据存储方面,有分布式缓存、基于MPP的分布式数据库、分布式文件系统和NoSQL数据库技术,通过这些技术,大数据的优势得以发挥,
5、其数据才得以整合和利用,从而为社会带来效益的提升。近几年,大数据在国内外都有较快的发展。,国外发展现状,大数据的重要性已经得到了世界各国的共识,在2010年7月,联合国发布了大数据促发展,挑战与机遇白皮书,白皮书中指出,大数据时代已经到来,如今人们可以使用极其丰富的数据资源,包括旧数据和新数据,来对社会,对人口进行前所未有的实时分析。2012年1月,在瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告大数据,大影响:国际化发展的新机遇宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。同时各国也在积极研究和利用大数据。2012年5月,美国政府发布了大数据研究和发展计划,此
6、项带有2亿多美元推动资金的倡议,旨在通过推动和改善与大数据相关的收集、组织和分析工具及技术,提升从海量和复杂的数据集中获取知识和洞察分析能力,推动政府与公司、大学的合作结盟,全民动员来应对“大数据”时代的挑战。美国政府推动的大数据计划也涵盖了图书馆部分,例如美国国家医学图书馆,开展了整合生物学及临床信息项目(i2b2:InformaticsforIntegratingBiologyandtheBedside),旨在创造能够整合和交换医疗保健和生物医学研究数据的方法和工具。通过i2b2开发的软件工具整合、挖掘和表现的数据,能够通过开源共享,在全球50多个组织进行使用。该项目就利用了大数据对于数据
7、整合和共享的优势,实现了生物学和临床信息数据的共享。美国有名的IT大公司,包括谷歌、Amazon、IBM、FACEBOOK、甲骨文等都在进行大数据开发和商业营运。例如谷歌推出了BigQuery服务,为企业提供廉价的大数据分析方案。2012年年底,英国的商业、创新和技能部宣布将注资1.89亿英镑发展大数据。2013年5月初,英国首个综合运用大数据技术的医药卫生科研中心在牛津大学成立,投资达9000万英磅,中心通过搜集、存储和分析大量医疗信息,确定新药物的研发方向,从而减少药物开发成本,同时为发现新的治疗手段提供线索。随着越来越多的发达国家重视大数据的研究和应用,并取得了一定成果。中国也开始逐步意
8、识到大数据的重要性。,国内发展现状,国内计算机行业对大数据的重要性有着清醒的认识,2013年6月5日召开的第五届中国云计算大会就确定会议的主题是“大数据大带宽推动云计算应用与创新”,会上,中国云计算技术与产业联盟理事长吴基传指出,大数据是云计算服务的基础,是构架云平台最基本的要素之一,没有对海量信息分析的大数据,就没有为所有信息消费者获取有价值信息的可能性。国内搜索领域巨头,掌握大量用户数据的百度公司已经着手开展大数据的处理和实践。由于百度是基于互联网的数据处理而生,处理大数据的需求十分迫切,百度技术委员会理事长陈尚义透露,“百度每天处理的数据量将近100个PB,相当于5000个国家图书馆的信
9、息量的总和”。在技术方面,百度根据大数据的特点和百度自身的情况,借鉴了Hadoop的思想,并开发了ReplicationProtocol、数据分治、拆片存储等方法来处理大数据10,为了解决大数据的存储问题,百度在阳泉市开展了“云计算”中心项目,其中心数据存储量超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量11。百度积极采用大数据的核心技术,充分利用了大数据的特点,将数据之间的关联做到了较高的水平,特别在对搜索结果的多方面多角度展示方面,当用户检索“乔布斯”时,百度将会在检索结果页面右侧显示其生平、苹果公司董事会成员、苹果公司历任CEO等,这都是基于大数据计算的结果。淘
10、宝网作为国内最大的B2C机构,已经把大数据看成了生产力,例如在2012年,淘宝根据用户的消费记录推出的年度个性账单,根据产品的消费情况推出的淘宝指数,2013年根据用户的信用情况推出的“信用支付”,“让信用成为财富”,可以说是对传统金融业的颠覆,“信用支付”吸引和留住了消费者。这都是利用大数据技术来实现的创新功能,充分发挥了大数据的效应。据权威预测,未来3年中国大数据市场将突破百亿元。而2012年中国大数据市场尚不足5亿元,这是中国大数据时代到来的佐证,国内图书馆在大数据研究方面起步较晚,但逐步引起了业界重视,在中国知网CNKI中以“图书馆”和“大数据”为题名来进行检索,检索出的文章只有1篇,
11、在维普中文科技期刊数据库中,以同样的方式检索,检索出文章14篇,主要研究大数据对图书馆服务、发展等方面的影响与挑战。在第十届“数字图书馆前沿问题高级研讨班”上,国防科技信息中心研究员陈豫做了“大数据的体系建设”的报告,在会议的头脑风暴环节,进行了主题为“大数据环境下的知识组织与服务挑战与机遇”的热烈讨论,可见国内图书馆员已经逐步认识到大数据研究的重要意义,并进行了一定程度的理论研究。武汉大学陈传夫教授在2012年东莞图书馆年会上展示了大数据时代数字图书馆体系结构图,介绍了大数据对数字图书馆体系结构的改变(见附图)。,大数据时代图书馆服务的思考,图书馆作为信息的集散地,很多学者围绕“自由获取知识
12、是人类的权利”这一图书馆社会使命,提出了图书馆的社会价值,知识中心、学习中心、文化中心,图书馆肩负着社会大学的作用,目前,图书馆所采集的都是结构化数据,结构化数据是指行数据,存储在数据库里,可以用二维表结构来逻辑表达数据16,例如书目数据、目次数据、期刊报纸数据、网络导航数据等,也是现在图书馆主要采集的数据,来源是外购数据库商数据或者图书馆自建数据库数据,其主要特征是由元数据和对象数据构成,用结构化数据库进行存储,用SQL语言进行查询,这种数据的主要特征是时效较长、专指性强、有固定的结构和格式、易于整理等。基于结构化数据的处理方案已经趋于成熟,例如艾利贝斯有限公司开发的Aleph500自动化系
13、统、国家图书馆开发的文津搜索系统、深圳图书馆开发的ILAS系等,结构化数据处理和开发已经形成了基本固定的模式和方法,大大推动了图书馆的资源揭示。但在大数据时代,大部分是非结构化数据,这种数据不能用数据库二维逻辑表来表示,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息,对于图书馆而言,还包括各类读者使用数据、数据库使用统计数据、书籍借阅数据、网站点击数据等,数据零散,格式多样,使用率较低,因此图书馆服务模式一直以提供结构化数据为主,包括图书馆书目检索服务、参考咨询服务、定题服务等。而大数据时代的图书馆服务可能更具挑战性,服务手段、方式等也会随着大数据的特点而
14、变化,笔者认为:以大数据的处理与服务为优势的图书馆的服务水平将会进一步提升,其服务范围及领域将会得到更大的扩展,为社会、为政府、企业做大数据分析的服务将成为图书馆的主要工作。,准确的数据推送服务,数据推送服务是指图书馆根据读者的需求,主动将读者所需要的信息内容推送到读者端,读者端的含义多样,包括读者访问网页、读者电脑的应用程序、读者的移动设备等。目前,图书馆的推送服务往往没有考虑到读者需求,而是根据图书馆所提供的服务进行推送,或者只在某些领域考虑了读者需求,在相关方面做了一些推送,并不能满足读者的全部要求,同时也没有预测性,当大数据环境下,对于读者的各类行为,例如查阅资料或者浏览网页等,可以细
15、化到某一篇文章,甚至某一个词,将读者各类微行为都汇集到数据库中,然后根据不同层次人群的兴趣爱好进行详细分析,分层次进行准确地推送服务,另外,根据读者的行为热点分析,大数据能够告诉图书馆读者的兴趣变化曲线,以预测读者需求,从而为图书馆的资源采集、资源更新提供依据,最终达到超前读者需求、引导读者需求行为的效果,大大提高图书馆的社会效益。,细粒度个性化服务,个性化服务是图书馆为读者量身定制的服务,目前,图书馆依靠读者调查问卷、读者基本信息、读者的研究领域、读者检索集等方式来对个人定制服务策略,个性化服务的依据单一、固定不灵活,无法满足读者更细粒度的个性化需求。大数据时代,图书馆将利用大数据技术,参考
16、目前盛行大数据环境下的”猿题库”17模式,捕捉读者的动态操作行为,细化到读者的每一次点击,结合学科分析和行业分析,为读者建立灵活的个性化档案,灵活性表现在大数据技术能够自动监控读者行为的变化情况进行分析,自动调用不同层次、类别的数据智能式推送给读者。为图书馆实现细粒度个性化服务提供了可能。,深度的参考咨询服务,传统的参考咨询服务主要是利用图书馆现有的参考工具书、检索工具书、外购数据库和自建数据库,由有一定专业知识和熟悉检索工具的专职参考馆员来开展此工作,在大数据时代,咨询馆员可以将符合大数据特征的咨询课题融入大数据系统,系统将根据咨询主题,利用数据分析技术,可视化技术,瞬时以图形展示查询结果,
17、从而缩短了咨询馆员获取资源的时间,扩大了咨询馆员对资源的获取面,从而最大限度的满足读者(特别是企业方面的读者)需求,提高了参考咨询的效率,并使图书馆深度参考咨询服务成为可能。,结语,从大数据中去捕捉、分析向读者推送有潜在价值的数据,将成为大数据时代图书馆的一大主要业务,并且这些业务开展的水平也将决定着大数据时代的图书馆发展水平及方向。因此图书馆要把握住这次机遇,找准切入点,坚定图书馆为政府、为企业、为科研、为社区服务的宗旨,扩大服务面,提高服务质量,开创新的服务方式,以更开放的服务进一步提升图书馆的社会价值,真正成为社会的知识中心、学习中心和文化中心。,谢谢观看,佐日古丽.亚森计算机2013-1班,