互联网中的大数据.docx

上传人:小飞机 文档编号:5004677 上传时间:2023-05-28 格式:DOCX 页数:16 大小:238.84KB
返回 下载 相关 举报
互联网中的大数据.docx_第1页
第1页 / 共16页
互联网中的大数据.docx_第2页
第2页 / 共16页
互联网中的大数据.docx_第3页
第3页 / 共16页
互联网中的大数据.docx_第4页
第4页 / 共16页
互联网中的大数据.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《互联网中的大数据.docx》由会员分享,可在线阅读,更多相关《互联网中的大数据.docx(16页珍藏版)》请在三一办公上搜索。

1、互联网中的大数据华中科技大学软件学院软件工程1105班李浩宇 U201117790、李新维 U201117802、李全锋 U201117804、徐平茂 U2011178152014-3-11摘要:介绍了大数据的概念和特点“4V+1C”,列举了国内外主要互联网公 司在大数据上的应用,对比了中国和美国对推进大数据的发展所作出的行动,最 后对大数据业务的未来发展作出展望分析。关键词:大数据、应用、信息化、互联网、云计算Abstract: This paper introduces the concept and characteristics of big data: 4V +1 C, lists

2、the major domestic and foreign Internet companies in the big data, comparing the action to promote the development of China and the United States have made big data, the last of the big future analysis of the prospects for the development of data services.Keywords: big data, applications, informatio

3、n technology, internet, cloud computing目录1 “大数据的产生” 22 “大数据”的特点33大数据的相关技术与解决方案44国内外主要互联网公司对大数据的战略布局与应用75国内外大数据布局与应用比较116未来大数据在互联网中的应用12“大数据”是一个术语,是一个带有文化基因和营销理念的词汇,但同时也 反映了科技领域中正在发展中的趋势,这种趋势为理解这个世界和作出决策的新 方法开启了一扇大门! “大数据”的出现不是一个偶然的事情,它是在信息化、 网络化高度发达的今天,在这个数据整天飞的时代所必须要经历的过程。这个现 象的出现同时又给网络安全及维护,信息攻击及防

4、御带来了新的问题和挑战。那么到底什么是“大数据”呢?维基百科上说:大数据指的是“网络公司日常运营所生成和积累用户网络行 为”,在互联网飞速发展的当代,数据增长如此之快,以至于难以使用现有的数 据库管理工具来驾驭,困难存在于数据的获取、存储、探索、共享、分析和可视 化等方面。数据量的增长到现在,已经不是以我们所熟知的多少G和多少T来 描述了,而是以P(1千T),E(1百万T)或Z(10亿T)为计量单位。百度对此给予 了更形象的描述:光是其新首页导航每天就要从超过1.5PG的数据中进行挖掘, 这些数据如果打印出来将超过5千亿张A4纸,摞起来会超过4万公里高,接近 地球同步卫星轨道长度,平铺可以铺满

5、海南岛。而2020年新增的数字信息成长 幅度将是2009年的近45倍。如今,只需要两天就能创造出自文明诞生以来到 2003年所产生的数据总量。这些数据的规模、形式超出了传统数据处理方法所能捕获、管理和处理的能 力。人类的这种能力是不断进步的,所以,大数据的数据量是一个不断变化的目 标。美国地理空间情报基金会(USGIF)的一个关于大数据的情况讨论会中提到人 类现在处理数据能力的增长速度如今跟不上数据量的增长速度,所以,在数据面 前,处理能力总是有很大的空缺。过去做信息处理的方法应该要尽快做出调整, 掌握大数据的处理能力,会使得在之后的信息处理各个领域掌握主动权。另外,大数据,不仅仅是指大量的数

6、据,也不是仅仅指数据的指数增长速度, 它是对需要对当前架构需要做出调整的数据进行在理解上的新的方式和理念。对 数据整合算法,数据结构理解使用上的新的方法的研究势在必行。(1)Variety (多样化)大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构化数据 和视频和语音信息为代表的非结构化等多类数据,并且它们的处理和分析方式区 别很大。(2)Volume (海量)通过各种智能设备产生了大量的数据,PB级别可谓是常态,估计国内外大 型互联网企业每天的数据量已经接近TB级别。(3)Velocity (快速)大数据要求快速处理,因为有些数据存在时效性。比如电商的数据,假如今 天数据的分析结

7、果要等到明天才能得到,那么将会使电商很难做类似补货这样的 决策,从而导致这些数据失去了分析的意义。(4)Vitality (灵活)在互联网时代,和以往相比,企业的业务需求更新的频率加快了很多,那么 相关大数据的分析和处理模型必须快速地适应新的业务需求。(5)Complexity (复杂)虽然传统的商务智能(BI)已经很复杂了,但是由于前面4个V的存在, 使得针对大数据的处理和分析更艰巨,并且过去那套基于关系型数据库的BI开 始有点不合时宜了,同时也需要根据不同的业务场景,采取不同的处理方式和工 具。以上新时代下“大数据”的特点决定它肯定会对当今信息时代的数据处理产 生很大的影响。图一大数据技术

8、处理框架图3大数据的相关技术与解决方案大数据的一些相关技术如下:1)分析技术数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真2)数据技术数据采集:ETL工具数据存取:关系数据库;NoSQL; SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等3)存储技术结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据:图片、视频、word、pdf、ppt等文件存储,不利于检索、查询和存储半结构化数据:转换为结构化存储,按照非结构化存储4)成熟

9、的解决方案Hadoop (MapReduce技术):Hadoop框架中最核心的设计就是:MapReduce 和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的, 简单的一句话解释MapReduce就是“任务的分解与结果的汇总”HDFS是Hadoop 分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提 供了底层支持。MapReduce从它名字上来看就大致可以看出个缘由,两个动词 Map和 Reduce,“Map (展开)”就是将一个任务分解成为多个任务,“Reduce”就是将 分解后多任务处理的结果汇总起来,得

10、出最后的分析结果。在分布式系统中,机 器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资 源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩 展无疑提供了最好的设计保证。任务分解处理以后,那就需要将处理以后的结果 再汇总起来,这就是Reduce要做的工作。图二MapReduce结构示意图HDFS是分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式 文件系统有很多类似的特质。分布式文件系统基本的几个特点:1、对于整个集群有单一的命名空间。2、数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功 创建之前无法看到文件存在。3、文件会被分

11、割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。a同 HDFiS 7HamrHisidisi图三HDFS结构示意图卜面综合MapReduce和HDFS来看Hadoop的结构:图四Hadoop结构示意图在Hadoop的系统中,会有一台Master,主要负责NameNode的工作以及 JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的 任务执行。还会有多台Slave,每一台Slave通常具有DataNode的功能并负责 TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map

12、任务以及Reduce任务。Hadoop的优点及使用场景:1、可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根 本。2、经济:框架可以运行在任何普通的PC上。3、可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证 了分布式处理的可靠性。4、高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。4国内外主要互联网公司对大数据的战略布局与应用大数据技术与业务发展,仍然以欧美国家大型IT公司为主进行。像上一拨 “云计算”的热潮一样,大数据日渐成为IT厂商竞相抢占的制高点,图五是2011 年

13、大数据厂商的收益分析,数据来自Wikibon。白波 DAlN Pure-hUMpnj Mgm hUiigxEV 厚 rtiE. 18柚wu*I图五2011年大数据厂商收益分析(1)国际商用机器(IBM)IBM是商业分析和大数据技术的最活跃厂商之一。早在大数据概念进入媒 体视野之前,IBM就提出“智慧地球”的说法,其核心是把“智慧”嵌入系统 和程之中,使服务的交付、产品开发、制造、采购和销售得以实现,使亿万人生 活和工作的方式变得更加智慧。现在,大数据技术为IBM提供了一种实现途径。 近年来,IBM 先后投资了 SPSS、Clarity、OpenPages、i2、Algorithmics 等公司

14、 用以开发其商业分析解决方案,为客户提供预知判决、防范诈骗、风险和威胁的 能力。此外,IBM雇佣了近9000名具有专业行业知识的资深分析咨询师,建立 起了由8个全球分析解决方案中心联接起来的网络。IBM大数据平台建立在开 源的Apache Hadoop之上。通过向用户提供分析的整合手段从而理解信息以求 得更好的商业效益,此平台能够使数据密集型应用软件更方便地管理和分析PB 级大数据。IBM正在扩展其大数据平台以使其能在Hadoop的其它运营平台上运 行,首先将推广至Cloudera。Cloudera对于Hadoop社区的发展作出了重大贡 献,同时也较早地为金融服务、政府、通信、媒体、零售、能源

15、、医保等行业的 客户提供了基于Hadoop的系统。Hadoop的Cloudera用户现在能够使用IBM大 数据平台进行复杂的数据分析,建立新一代的软件应用程序。(2)甲骨文(Oracle)甲骨文公司在官方文档中将自身描述为“第一个为企业提供完整、集成的大 数据全面解决方案的厂商”。它将大数据来源划分成为三类:1)传统企业数据, 如CRM系统,ERP系统,在线交易数据等;2)机器生成/传感器数据,如呼叫 记录,网络日志,智能度表,设备日志等;3)社交数据,如用户反馈系统,微 博和校友录等等。甲骨文认为大数据对企业来说非常重要,可以帮助企业更深刻 和透彻地理解商业行为,进而为改进服务,提高竞争力和

16、更好地创新提供帮助。甲骨文将大数据平台的行为概括为:数据获取、数据组织和数据分析。并为 这三个阶段开发了不同的产品,而这些产品又与其推出的“大数据机”完全集成 到一起。Oracle大数据机是一个硬、软件集成系统,融合了 Cloudera公司的 Distribution Including Apache Hadoop 和 Cloudera Manager。该系统米用 Oracle Linux操作系统,配备有 Oracle NoSQL数据库社区版本和 Oracle HotSpot Java虚拟机。同时,甲骨文公司还宣布推出了最新软件产品Oracle Big Data Connectorso该产品可

17、以帮助客户利用Oracle数据库11g轻松整合存储在 Hadoop和Oracle NoSQL数据库中的数据。借助Oracle Exadata数据库云服务器、Oracle Exalogic中间件云服务器与 Oracle Exalytics商务智能云服务器,配备有Oracle Big DataConnectors软件的 Oracle大数据机将能够满足客户在企业数据中心内获取、组织和分析大数据的所 有需求。(3)惠普(HP)如图五所示,大数据厂商市场份额第一是Vertica,目前已被HP收购。在大 数据方面,HP的收购还包括:2010年9月3日,惠普以23.5亿美元收购了存储 企业3PAR,收购之后

18、3PAR存储业务已经连续6个季度保持100%的增长,成为 增长最快的高端存储平台,同时也是惠普目前营收最大的存储产品阵列;2011 年8月惠普以100亿美元收购了英国第二大软件商Autonomy,该公司擅长基于 语义计算的数据处理和数据挖掘,其软件被设计用来识别结构化数据和非结构化 数据之间的关系。惠普的大数据解决方案包括:1)HP StoreOnce全新重复数据删除解决方 案,帮助企业在更短时间内保护更多数据,从而在数据爆发式增长时更好地应对 风险。全新解决方案首次在单一系统中实现了高达100TB/小时的备份性能和 40TB/小时的数据恢复性能;2)惠普融合云(HP Converged Cl

19、oud)、采用 Autonomy Intelligent Data Operating Layer (IDOL) 10 的 HP Data Protector 7,让企业理解并使用网络点击流量、浏览及交易数据,从而发掘新趋势、机遇 及风险行动资产,从而促进业务增长及利润;3)新版惠普Vertica分析平台(日? VerticaAnalytics Platform)Vertica 6,让企业能够在任何地点、使用任何接口连 接、分析和管理各种类型的信息,VerticaFlexStore架构为大数据分析提供灵活的 框架,与Hadoop Autonomy或任何其它结构化、非结构化或半结构化数据源的 高

20、级集成或联合。(4)百度百度作为中国最大的搜索引擎,在中国和中文互联网领域各项排行中不是最 大就是最多。2012年,百度日均抓取约10亿网页,处理超过100PB( 1PB=1024TB) 的数据。过去10年,百度网页搜索库已从500万猛增到了 500亿个页面。从公 开的材料看,百度的大数据战略往往与云计算绑定在一起,强调大数据储存与处 理能力。2011年8月,百度宣布将用三年的时间建立一个全国最大的数据中心, 并且主打“绿色”。通过对大数据流量的把握,百度经过设计,降低设备能耗、 减少服务器、日间侧重商业业务、夜间侧重数据业务,从而让“百度的单体十万 台服务器的数据中心,PUE每降低0.1,一

21、年就可为百度节省上千万元的成本。”(5)腾讯腾讯自称“目前中国最大的互联网综合服务提供商之一,也是中国服务用户 最多的互联网企业之一”,拥有超过7.52亿QQ即时通讯活跃账户,1亿微信用 户、4.25亿微博用户和超过1亿的视频用户。在积累了个人用户多方面的海量数 据后,2012年腾讯提出了 “大数据营销”的概念。腾讯网总编辑陈菊红表示“将 从这些海量数据中挖掘、分辨出用户的行为模式、兴趣偏好等,打造专属于每个 人的智慧门户。” 腾讯不仅在各大产品线中都设置了数据挖掘团队,还在和一 些第三方数据挖掘公司、营销公司展开合作洽谈,充分挖掘用户在网上的行为、 关系、UGC(用户产生的内容)等数据,“通

22、过合理的方法找到对企业有帮助的数 据,并且将营销预算合理的分配在为数众多的数据来源平台上”,从而提高营销 效率。2011年4月腾讯追加在天津的数据中心建设投资,欲建立亚洲最大的数 据储备处理中心。(6)淘宝相比中国用户最多的两家互联网企业,淘宝在大数据方面的举措丝毫不逊 色,因为几乎所有淘宝业务都依赖淘宝数据库。每天大约有6000万用户登录淘 宝网,约20亿页面浏览量(PV)。淘宝所使用的OceanBase分布式数据库,在 基准数据和增量数据基础上,实现不同部门对数千亿条记录、数百TB数据上的 跨行跨表事务共同完成,并支持每天40005000万的更新操作。早在2009年淘 宝便自建大型数据库,

23、并通过对全国淘宝购买数据的挖掘发布了 2011年淘宝中 国地图,对其掌握的大量用户交易数据进行了形象的展示。随着大数据的蓬勃发 展,阿里巴巴集团提出了 “平台、金融、数据”的三步战略,把“数据分享平台” 作为战略目标,并且逐步推进数据开放之路。在利用大数据为提高用户购物体验 的旗号下,淘宝根据长尾原理充分利用大数据挖掘技术,建设开放平台,提供各 种增值服务。此外,阿里巴巴集团于2013年推出了“天池”平台,“天池”平台基于阿里 集团的海量数据离线处理服务ODPS,向学术界提供科研数据和开放数据处理服 务。5国内外大数据布局与应用比较国内互联网企业大数据的布局虽然略迟于国外,但从规模和投入上不容

24、小 觑。国内外在此领域的建设基本同步,体现在以下三个方面:第一,国外、国内 大型互联网企业对大数据布局都加大投入规模,不仅是物理存储设备和处理能力 的建设,也加强了分析工具的开发与分析人才队伍建设;第二,它们都在思考如 何用足、用好大数据,期待从数据中挖掘潜在的巨大价值,使其为企业自身、用 户和第三方带来便利与收益;第三,它们赋予大数据在数据之外的意义,都将大 数据作为企业向其他领域延伸、转型的机会。但是,限于国内外互联网发展水平、 视野和其他产业积淀的不同,在大数据建设重点、建设方式和长远战略上存在差 异。在建设重点上,国内企业侧重于物理上数据存储能力建设。无论是百度、腾 讯,还是淘宝、中国

25、移动都推出了各自数据中心项目,通常以容量来衡量成就。 而国外企业则已经主要侧重分析工具手段和围绕用户的解决方案开发,已经明确 了大数据的盈利方式,并沿此方向不断深入。国内企业的大数据盈利更多是在探 索阶段。因为建设重点不同,国内企业往往采取“各自为战、“平地起楼”的建设方 式,从基础层面分头进行大数据存储或处理的开发。国外企业却多采用收购兼并、 合作开发多种方式来进行建设,推进大数据存储、处理、分析综合发展,而不偏 于一隅。大数据就是网络社会的未来,国外企业对大数据的提法看似“务虚”,但实 际上目光长远,如IBM的智慧地球,真正体现了战略思考。而国内企业在更长 时间、更广范围上的全球化布局上略

26、显不足,大多都只以当下国内市场为目标进 行大数据的定位与思考。但在大数据具体应用上,国内企业的差异不大。首先,是为自身服务,通过 大数据的开发,获取自身运行数据,为更科学、高效的组织结构安排提供条件, 如百度的绿色数据中心建设。借助大数据的开发,让企业自身也变得更为灵巧, 为涉足其他领域提供了机遇,如英特尔和中国移动。其次,企业通过深入挖掘用 户大数据,对其行为、习惯有更为准确的把握,可以不断改善产品和服务,提升 用户体验。最后,大数据的挖掘为其他商业企业营销和社会智能部门服务与管理 提供依据,很可能会突破长期以来广告模式的霸主地位。6未来大数据在互联网中的应用硬件有价,数据无价,数据本身就是

27、资产。正如麦肯锡的大数据专题报告所 指出的那样,大数据已经渗透到每一个工商业组织内,将成为重要的生产要素、 决策依据。大数据将产生大价值,增强企业的竞争力,将是下一波创新、竞争和 提高生产力的前沿技术。在市场方面,大数据业务将每年为美国全民医保带来3000亿的价值,全球 因为个人地理信息的应用将额外产生6000亿美元的零售额,为美国创造14-19 万个数据分析人员岗位等内容。另外,大数据也促使各大IT公司对信息管理专 家及相关技术研发的需求,最近几年,甲骨文、IBM、微软、SAP和惠普已经在 数据管理和分析上花费了超过150亿美元。目前数据挖掘及分析产业值约有1000 亿美元,而且每年以10%

28、的增长率在递增。在中国,大数据也会有比较大的发展 空间,据国内有关机构估算,未来中国大数据潜在市场规模有望近2万亿。在技术领域,一方面,大数据面临的有效存储、快速读写、实时分析等挑战, 将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存 计算等市场。另一方面,因为大数据中蕴含的巨大价值,带来对数据快速处理和 分析的迫切需求,将引发数据挖掘、商业智能市场的空前繁荣。在应用方面,大数据业务可以在如下四个方面得到广泛的应用:1)快速地 对突发事件的跟踪和响应,体现大数据“速度V”的特征;2)提高对危机行为 变化的理解与判断,大数据“内容多样性V”的特征;3)精确绘制服务需求分 布

29、地图的能力,基于海量数据的统计分析;4)提高预测需求和供应变化的能力, 综合运用大数据的快速、海量、多样数据的数据挖掘技术。总体而言,大数据技术及业务发展,刚刚起步,展望未来,一片蓝海,但其 中也隐含一些“礁石”,应引起注意和思考概括起来,可能有如下几点:1)数据 挖掘中的隐私问题;2)数据驱动的创新问题。数据安全是数字化生活方式的隐忧之一。在现阶段人们已经生成了很多数据 记录,比电话记录、上网痕迹、交易记录等,凡使用数字化工具都会留下记录。 将来这些数据在各个环节打通以后,一个人的行为就无法隐藏,数据持有人可以 从历史数据中推测判断出行为人的下一步动作一一个人行动轨迹、行为轨迹,甚 至思维轨

30、迹。在纽约时报的一篇专题报道中,受用户赞同最多的一篇评论说,“他 们(大数据持有方)想知道每一毫秒我们在做什么,找出我们的行为模式,比我 们自己更了解我们,从我们已经忘记的随意点击中榨取我们每一分钱。”或许这 些提法有些危言耸听,但绝非不可能,大数据技术的终究目的是使用事实统计数 据,分析预测未来趋向。另外,大数据时代,日渐发展的数据驱动式的决策模式,降低了决策风险, 也扼杀了潜在的、没有数据支持的创新。在未来可能看到这样的情形,基于对人 性和事物的感性认识,或者基于某种未经数据验证的理论,一个人或者组织推出 某种服务,在进行决策时,由于缺少过往数据分析,没有数据支持,而无法通过 惯性的数据驱动的决议形式而形成最终的商业项目。综上,尽管大数据面临一些小问题,但仍是蓬勃发展的趋势,大数据技术是 数字化发展的必然,它为人类全面、深刻地认识世界、认识自身提供了新的方式、 新视角,这在此前的时代是无法办到的。我们期待大数据技术为人类文明的发展 做出巨大贡献,让科技再次成为驱动社会发展的巨大动力。参考文献:1、大数据时代(中国电子科学研究院学报编辑部,北京)2、国内外主要互联网公司大数据布局与应用比较研究(人民网研究院,官建文、 刘振兴、刘扬)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号