《大数据信息检索论文.doc》由会员分享,可在线阅读,更多相关《大数据信息检索论文.doc(9页珍藏版)》请在三一办公上搜索。
1、 大 数 据 的概念、技术与挑战 学 院:专业名称:学 号: 姓 名: 计算机与电子信息学院 计算机科学与技术指导教师:时 间: 2013年11月 大数据的概念、技术与挑战XXX(广西大学 计算机与电子信息学院,广西 南宁 530004) 【摘要】计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比在
2、此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析最后归纳总结大数据时代所面临的新挑战【Abstract】 Data type and amount in human society is growing in amazing speed which is caused by emerging new services such as cloud computing,internet of things and social network,the era of big data has come Data has been fundamental r
3、esource from simple dealing object,and how to manage and utilize big data better has attracted much attention Evolution or revolution on database research for big data is a problemThis paper discusses the concept of big data,and surveys its state of the art The framework of big data is described and
4、 key techniques are studied Finally some new challenges in the future are summarized【关键词】大数据,技术,挑战,数据分析,云计算【key words】big data;technology;Challenge;data analysis;cloud computing近年来,伴随着物联网、云计算、移动互联网等新技术的迅猛发展,数据正以前所未有的速度不断增长和积累,大数据时代已经到来,这引起了产业界 学术界 科技界和政府机构的广泛关注。大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险
5、大数据的基本概念、关键技术以及对其利用上均存在很多的疑问和争议【1】。 1 一、大数据的基本概念及大数据时代产生的必然早在1980年,美国著名未来学家阿尔温托夫勒( AlvinToffler) 在 第三次浪潮 一书中就提出了 大数据 ( BigData) 的概念,并将其赞颂为 第三次浪潮的华彩乐章2著名的数据库专家 图灵奖获得者吉姆 格雷( JimGray) 认为传统的实验 理论和计算机3大范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,于是,其在2007年提出当前科学研究已发展到了 第4种范式( The FourthParadigm)3,即以大数据为代表的数据密集型科学近几年,
6、一些国际顶级学术刊物也相继出版专刊对大数据进行探讨研究 2008 年9 月,Nature推出了 Big Data 专刊4,从互联网技术环境科学 生物医药等多个方面介绍了海量数据5带来的挑战 2011年2月,Science出版关于数据处理的专刊 Dealing with data,讨论了数据洪流( Data Deluge) 所带来的挑战,并阐明了大数据对于科学研究的重要性 2012年4月,欧洲信息学与数学研究协会会刊ERCIM News出版专刊 Big Data6,讨论了有关大数据时代的数据管理 数据密集型研究的创新技术等问题,并介绍了欧洲科研机构开展的研究活动和进展情况最早提出大数据时代已经到
7、来的是全球知名咨 询 公 司 麦 肯 锡,其下属机构全球研究所( Mckinsey Global Institute) 于2011年6月份发布的一份专门的研究报告,将 大数据 视为全世界 下一个创新竞争和生产力提高的前沿领域7,并指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素; 而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来 著名的市场调研机构IDC( International Data Corporation,国际数据公司) 在同年的报告中指出,全球数据总量在2011年已达到1.8ZB( 1ZB=240GB) ,而这个数据大约以每两年翻一番的速
8、度增长,预计至2020年全球拥有的数据量将达35ZB8。华尔街日报更是将大数据时代 智能化生产和无线网络革命称为引领未来繁荣的三大技术变革 此外,Gartner、埃森哲、普华永道等咨询公司,以及财富周刊 福布斯 纽约时报 等商业管理刊物也对大数据进行了大量的介绍与研究纵观国际形势,对大数据的研究与应用已引起各国政府部门的高度重视,成为重要的战略布局方向 各国陆续出台有关大数据的国家政策和战略2012年3月,美国奥巴马政府宣布将投资2亿美元用于启动 大数据研发倡议( Big Data Researchand Development Initiative)9,旨在提高从海量和复杂的数据中分析萃取信
9、息的能力,2 这是继1993年美国宣布 信息高速公路 计划后的又一次重大科技发展部署 继美国率先开启大数据国家战略先河之后,其他各国也随后跟进,已经或者即将出台相应的战略举措 日本政府重新启动2011年日本大地震后一度搁置的政府ICT战略研究,于2012年7月推出新的综合战略 活力ICT日本,重点关注大数据应用所需的云计算 传感器社会化媒体等智能技术开发2013年1月,英国政府宣布将注资6亿英镑,发展大数据 合成生物等8类高新技术,其中信息行业新兴的大数据技术将获得1.89亿英镑,占据总投资的近三分之一 澳大利亚政府在同年3月表示,澳联邦政府大数据战略草案有望在5月份出台,预计会在6 7月间正
10、式颁布一些区域性或全球性组织也对大数据予以高度关注 在过去几年,欧盟已对科学数据信息化基础设施投资1亿多欧元,并将数据信息化基础设施作为Horizon2020计划的优先领域之一62012年初,世界经济论坛一份题为 大数据,大影响( BigData,BigImpact) 的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样联合国也推出了全球脉动( GlobalPulse)10倡议项目,希望利用大数据来促进全球经济发展。尽管各界 各地区 各机构对大数据广泛关注,进行了大量研究,但目前对于大数据尚未形成公认的定义 信息管理专家涂子沛在大数据: 正在到来的数据革命 中这样定义大数据:指那些
11、大小已经超出了传统意义上的尺度,一般的软件工11具难以捕捉 存储管理和分析的数据,一般以 太字节( TB) 为单位 这一定义基本上简单明了地阐述了大数据的内涵。数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来IT技术发展的战略走向。在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长【12】。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济【13】,也使得大数据的存在成为可能。传感器数据也是大数据的主要来源之一。在物
12、联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据。此外,移动互联网、三网融合、Web 2.0技术和电子商务技术的飞速发展,也促进了大数据时代的产生和发展。可以发现,3 数字化已经成为社会发展的必然趋势。与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成长也越来越离不开大量数据的支持【14】。也就是说,企业的任何一项业务活动都与大量的数据紧密相联,而我们每一个人都是数据的产生者,数据量与日俱增,数据结构繁杂多变,数据产生速度非常之快,我们已经进入了大数据的时代【15】。
13、二、大数据的特点及关键技术分析1.大数据的特点大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点 大数据具有以下4个特点,即4个V16:( 1) 数据体量( Volumes) 巨大大型数据集,从TB级别,跃升到PB级别; ( 2) 数据类别( Variety) 繁多 数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;( 3) 价值( Value) 密度低 以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟;( 4) 处理速度( Velocity) 快 包含大量在线或实时数据分析处理的需求,1秒定律。随着互联
14、网技术的不断发展,数据本身就是资产云计算为数据资产提供了保管访问的场所和渠道,但如何盘活数据资产,使其为国家治理企业决策乃至个人生活服务,是大数据的核心议题,也是云计算的灵魂和必然的升级方向。大数据已经出现 IDC多年的研究结果告诉我们: 全球数据量大约每两年翻一番,每年产生的数据量按指数增长,数据增速基本符合摩尔定律 全球有46亿移动电话用户,有20亿人访问互联网,人们以比以往任何时候都高得多的热情在与数据或信息交互 思科公司预计,到2013年,在互联网上流动的数据量将达到每年667艾字节17。2.关键技术2.1云计算;大数据的基础平台与支撑技术如果将各种大数据的应用比作一辆辆“汽车”,支撑
15、起这些“汽车”运行的”高速公路”就是云计算正是云计算技术在数据存储、管理与分析等方面的支撑,才使得大数据有用武之地文件系统是支撑上层应用的基础。原始的数据存4 储在文件系统之中,但是用户习惯通过数据库系统来存取文件因为这样会屏蔽掉底层的细节,且方便数据管理直接采用关系模型的分布式数据库并不能适应大数据时代的数据存储。据查询是数据库最重要的应用之一,而索引则是解决数据查询问题的有效方案。而数据分析技术是最核心的业务【18】。2.2大数据处理工具关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得关系数据库在很多场景不再适用而HadOop【19】是目前
16、最为流行的大数据处理平台而Hadoop最先是Doug Cutting模仿GFS,MapReduce实现的一个云计算开源平台,后贡献给ApacheHadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统(Ecosystem)【20】某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准【21】三、大数据时代面临的机遇与挑战综上所述,大数据时代的数据存在着如下几个特点:多源异构;分布广泛;动态增长;先有数据后有模式正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的机遇与挑战。
17、(一)大数据带来的机遇【22】1.大数据的挖掘和应用成为核心,将从多个方面创造价值。大数据的重心将从存储和传输,过渡到数据的挖掘和应用,这将深刻影响企业的商业模式 据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3000亿美元和1000亿欧元,利用个人位置信息潜在可创造出【23】6000亿美元价值,因此大数据应用具有远超万亿美元的大市场。2.大数据利用中安全更加重要,为信息安全带来发展契机。随着移动互联网物联网等新兴IT技术逐渐步入主流,大数据使得数据价值极大提高,无处不在的数据,对信息安全提出了更高要求 同时,大数据领域出现的许多新兴技术与产品将为安全分析提供新的可能性
18、; 信息安全和云计算贯5 穿于大数据产业链的各个环节,云安全等关键技术将更安全地保护数据 大数据对信息安全的要求和促进将推动信息安全产业的大发展。3.大数据时代来临,使商业智能信息安全和云计算具有更大潜力。大数据产业链按产品形态分为硬件基础软件和应用软件三大领域,商业智能信息安全和云计算主题横跨三大领域,将构成产业链中快速发展的三驾马车就国内而言,商业智能市场已步入成长期,预计未来3年复合年均增长率( CAGR) 为35%,十二五期间潜在产值将超300亿元; 信息安全预计未来3年CAGR有望保持35%40%的快速增长,十二五期间潜在产值将超4000亿元; 云计算刚进入【24】成长期,预计未来5
19、年CAGR将超50%,2015年产业规模预计将达1万亿元。 (二)面临的挑战1.大数据集成数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析需要进行数据的集成数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有了新的需求,因此也面临着新的挑战1)广泛的异构性传统的数据集成中也会面对数据异构的问题,但是在大数据时代这种异构性出现了新的变化,大量出现的各种数据本身是非结构化的或弱结构化的,如留言、博客、图像、视频数据等,如何将这些数据转化成一个结构化的格式是研究者面临的一项重大挑战【25】2)数据质量数据量大不一定就代表信息量或者数据价值的增大,相反很多时
20、候意味着信息垃圾的泛滥.2.大数据分析大数据最为严重的风险存在于数据分析层面。数据量的增大会带来规律的丧【26】失和严重失真。传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(online analytical6 processing,OI。AP),可以进行多个维度的下钻(drill一down)或上卷(rollup)操作对于从数据中提炼更深层次的知识的需求促使数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法这一整套处理流程在处理相对较少的结构化数
21、据时极为高效但是随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。据阿里巴巴称,虽然其各类业务产生的数据为数据分析创造了非常好的基础条件,然而却招聘不到合适的数据科学家而影响了研发进展【27】。3.大数据的隐私问题隐私问题由来已久,这基本也是大家最关心的问题。计算机的出现使得越来越多的数据以数字化的形式存储在电脑中,互联网的发展则使数据更加容易产生和传播,数据隐私问题越来越严重大数据高度依赖数据存储与共享,必须考虑寻求更好的方法消除各种隐患与漏洞,才能有效地管控安全风险。数据的隐私保护是大数据分析和处理面临的重要问题,既是技术问题也是社会学问题。
22、如果对私人数据使用不当,尤其是泄漏有一定关联的多组数据,将导致用户的隐私泄漏【28】。当前,数据安全形势不容乐观,需要保护的数据量增长已超过了数据总量的增长 据IDC统计【29】:2010年仅有不到1/3的数据需要保护,到2020年这一比例将超过2/5; 2012年的统计显示,虽然有35%的信息需要保护,但实际得到保护的不到20% 在亚洲 南美等新兴市场,数据保护的缺失更加严重 首先个人隐私更容易通过网络泄露,随着电子商务 社交网络的兴起,人们通过网络联系的日益紧密,将个人的相关数据足迹聚集起来分析,可以很容易获取个人的相关信息,隐私数据就可能暴露,而数据在网络上的发布机制使得这种暴露似乎防不
23、胜防; 在国家层面,大数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明。信息安全战略是国家战略不可分割的重要组成部【30】分,其必要性体现在其从上而下,而非从下而上的推动作用。美国发布大数据研发计划,大力发展大大数据技术就有增强国家安全方面的战略考量.4.大数据能耗问题在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈从小型集群到大规模数据中心都面临着降低7 能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较少在大数据管理系统中,能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主理想状态下,整个
24、大数据管理系统的能耗应该和系统利用率成正比但是实际情况并不像预期情况,系统利用率为0时仍然有能量消耗【31】。5.大数据处理与硬件的协同硬件的快速升级换代有力地促进了大数据的发展,但是这也在一定程度上造成了大量不同架构硬件共存的局面.大数据处理必须要有舍才有得。可以通过舍【32】弃一些不必要的性能和精确性来获取更为重要的性能和精确性。6.大数据管理易用性问题从数据集成到数据分析,直到最后的数据解释,易用性应当贯穿整个大数据的流程易用性的挑战突出体现在两个方面:首先大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化其复杂程度已经远远超出传统的关系数据库其次大数据已经广泛渗透到人们生活的各
25、个方面,很多行业都开始有了大数据分析的需求但是这些行业的绝大部分从业者都不是数据分析的专家,在复杂的大数据工具面前,他们只是初级的使用者(naIve users)复杂的分析过程和难以理解的分析结果限制了他们从大数据中获取知识的能力这两个原因导致易用性成为大数据时代软件工具设计的一个巨大挑战关于大数据易用性的研究仍处于一个起步阶段从设计学的角度来看易用性表现为易见(easy to discover)、易学(easy to learn)和易用(easy to use)。7.性能测试基准数据库产品的成功离不开以TPC系列为代表的测试基准的产生正是有了这些测试基准,才能够准确地衡量不同数据库产品的性能
26、,并对其存在的问题进行改进。在过去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展【33】。四、结果和结论关系像互联网、云计算以及物联网等技术一样,大数据时代的到来势必会再次让信息技术领域焕然一新。大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取8 并利用隐藏在大数据中的信息以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。总的来说,目前对于大数据的研究仍处于一个非常初步的阶段
27、,还有很多基础性的问题有待解决大数据的几个特征中究竟哪个最重要?面对大数据管理我们需要的是简单的技术上的演变(evo1ution)还是彻底的变革(revoIution)?不同学科的研究者之间怎样协作才能更有利于大数据问题的解决?诸如此类的问题还有许多,要解决大数据问题仍有很长的路要走。 感谢:XXX老师给予的的指导和提供的课件,以及所参考的文献的所有作者。【参考文献】 1孟小峰,慈祥: 大数据管理:概念、技术与挑战。计算机研究与发展146-169,20132阿尔温 托夫勒 第三次浪潮M 北京: 三联书店出版社,19843Jim Gray One Science A transformed sc
28、ientific methodC/Tony H,Stewart T,Kirstin T The fourth paradigm: Dataintensive scientific discoveryRedmond,WA: Microsoft Research,2009: 19334Nature.BigDataEB/OL.data/indexhtml5 Science.Special online collection: Dealing with dataEB/OL http: /wwwsciencemagorg/site/special/data/,20116李国杰,程学旗大数据研究: 未来科
29、技及经济社会发展的重大战略领域 大数据的研究现状与科学思考J 战略与决策研究,2012,27( 6) :648,6497Big Data: The next frontier for innovation,competition and productivity,Mckinsey Global Institute,20118The2011Digital Universe Study: Extracting Value from Chaos International Data Corporation and EMC,June 2011 9 9 Big Data across the Feder
30、al Government EB/OLhttp: /wwwWhite house gov/sites/default/files/microsites/ostp/big data fact sheet final 1pdf10 UN Global Pulse Big Data for Development:Challenges OpportunitiesR/OL.http: /www.unglobalpulse.org/projects/BigDataforDevelopment11涂子沛 大数据: 正在到来的数据革命M 桂林:广西师范大学出版社,2012:575512覃雄派,王会举,杜小勇
31、,等。大数据分析RDBMS与Mapreduse的竞争共性【J】。软件学报,2012,23(1),32-45.13郭秦川:官方统计与大数据对比分析。10047794(2013)080050-614涂子沛,大数据(M),广州:广州师范大学出版社。15朱志军,闰蕾,等大数据大价值、大机遇、大变革M】电子工业出版社,201216大数据分析技术的发展EB/OL 20120516 http: /tech ccidnet com/art/32963/20120516/3859799_1 html17郭晓科大数据【M】北京:清华大学出版社18孟小峰,慈祥: 大数据管理:概念、技术与挑战。计算机研究与发展146
32、-169,201319HadoopEB/()I。20121002http:/hadoopapacheOrg/indexhtml20陈明 :大数据问题。计算机教育,第5 期2013 年3 月10 日21魏斐翡:ECLHadoop:基于Hadoop的有效电子商务物流大数据处理策略. 计算机工程与科学。第35卷第10期2013年10月。22严霄凤,张德馨:大数据研究。计算机技术与发展,第23卷第4期【2013年4月】23中信证券:计算机行业大数据(Big Data)专题研究报告:大数据,大市场,大机遇。【2011年12月7日】24中国证券网:中央经济工作在即,四类股或收益。【2011年12月7日】2
33、5Schuhmann R J. Engineering leadership education: the search for defination and a curricular approachJ. Journal of Stem Education, 2010(11): 61-69.26刘德寰,李雪莲:大数据的风险和现存问题. 2013.03 广告大观 理论版10 27窦万春,江澄:大数据应用的技术体系及潜在问题。中兴通讯技术,【2013年8月】 第19卷第4期28崔军, 汪霞. 培养工程领军人才: 麻省理工学院的工程领导力教育J. 高等理科教育, 2010(6): 30-35.29
34、BenjaminWoo Worldwide Big Data Technology and Services20122015Forecast2012516Big data http: /www gartner com/itglossary/bigdata30蔡翠红美国国家信息安全战略M。上海:学林出版社,2010:35,75,8431刘旭涛:IDC:数据中心能耗问题成关注焦点。网界网,【2012年5月17日】32T.I.Tsai:HPC China 2013:大数据中的软硬件协同创新。中国IT新媒体 【2013年10月31日】33CSDN:大数据:基准测试是一把尚未完成的尺子。IT专家网数据中心,【2013年12月10日】 11