《大数据专题讲稿ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据专题讲稿ppt课件.ppt(42页珍藏版)》请在三一办公上搜索。
1、,Big Data 大数据,什么是大数据? 海量数据本身+处理方法,大数据的产生及概念,*,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,“大数据”的诞生 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出
2、了“大数据”这个概念。如今,这个概念几乎应用到了所有人类发展的领域中。,大数据时代的背景,物联网加速大数据的发展,指数型增长的海量数据,所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。,想驾驭这庞大的数据,我们必须了
3、解大数据的特征。,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,1PB = 250字节1EB = 260字节1ZB = 270字节,指数型增长的海量数据,大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,大数据是指社会生产生活和管理服务过程中形成的,依托现代信息技术采集、传输、汇总的,超过传统数据系统处理能力的数据,具有数据量大、数据类型多、处理速度快的特点,通过整合
4、共享、交叉复用、提取分析可获取新知识,创造新价值。,大数据 = 海量数据 + 复杂类型的数据处理方法,海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括:交易数据和交互数据集在内的所有数据集,海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科
5、学信息、电子邮件等等。可以告诉我们未来会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资
6、产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。,密不可分的大数据与云计算,大数据是落地的云,*,大数据不仅仅是“大”,多大?至少PB级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,*,软件是大数据的引擎,*,大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,如何让大数据更有意义是重点;对非结构化数据的内容理解是实现大数据资源化、知识化、
7、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等麻省理工学院数字商业中心的首席科学家安德鲁麦卡菲对北美33家上市公司的高管进行了结构性访谈之后发现:运用大数据做决策的那些行业领先企业,比其竞争对手在产能上高5%,利润上高6%。,分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等,存储结
8、构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4),能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、图文转换技术、模式识别技术、地理信息技术等等,都在大数据分析时获得应用。,大数据的展现方式,新模式正在出现,基于SQL语言: 面对OLAP的传统行和列,不基于SQL或map-reduce的: 由谷歌率先发起,数据流: 基于运行商数据直接生
9、成任意图形,数据入口/汇聚,数据平台,分析,前提:传统交付模式-单片或基于设备的解决方案,云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”- Forrester analyst Jim Kobielus,大数据的组成部分,大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;,展现方式:大型控制中心、移动终端,在多样性、体量、速度三大特征的指引下
10、,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。,大数据为什么重要?决定企业是否有未来、业务可延伸范围,更高一层数据层面整合企业内外部,挖掘内部需求,经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。,产生新的用户量、给用户产生行为指纹,用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重
11、金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。,国外发展情况:万马奔腾,抢占大数据高地,衍生于亚马逊、Google等互联网公司,前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对
12、用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。,互联网越来越智能,Google精确掌握用户行为、获取需求,IBMOracleEMCMicrosoft角力大数据,EMC,EMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。EMC的大数据解决方案包括40多个产品。,2010年7月收购数据库软件供应商Greenplum,花费3亿美元2009年七月收购数据复制解决方案提供商Data Domain,花费24亿美元不一定和大数据完全相关
13、,EMC从2009年起收购了Archer Technologies, SourceLabs, FastScale Technology, Configuresoft, and Varonis Systems。,IBM,IBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析,在过去四年中,IBM已经投入超过120亿美元进行了23项相关并购,其中包括:2010年9月收购数据库分析供应商Netezza公司,花费17亿美元2010年10月收购网络分析软件供应商Co
14、remetrics2009年10月收购数据分析和统计软件提供商SPSS, 花费12亿美元2009年1月收购业务规则管理软件供应商ILOG, 花费3亿4千万美元2007年花费20亿美元收购商务智能软件供应商Cognos,微软,微软提供了高性能计算能力,并在2005年靠Windows Compute Cluster服务器进入相关市场最近,微软的HPC部门开发了该公司的Dryad并行处理技术社区技术预览(CTP),第一步是向Windows HPC Server的用户提供处理大数据工具,甲骨文,甲骨文大数据提供的数据库和数据库软件主要用于配合Sun的硬件,特别是它的最高端服务,2009年7月收购专注于
15、数据复制和实时数据集成解决方案的私人企业GoldenGate Software,国外已经开始大规模投资应用,美国国务院采用大数据技术开发新的美国护照系统。,IBM宣布投资1亿美元用于大数据研究;,美国IT公司开始意识到大数据技术能够为公司创造价值;,大数据公司引入汽车行业高管人员扩展营销业务;,大数据在国内的机遇,云计算、物联网从政绩工程变成实用工程,国内各地制定云计算“十二五”规划,云计算、物联网园区,中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。云计算、物联网、社交化媒体、GIS为大数据提供了丰富的
16、数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。,商业模式发生改变,卖license,卖服务,易复制、利润率高边际成本为零卖人头盗版,客户粘度高软硬一体化利润率较卖license低,需要解决复用问题,因泛在计算而导致行业需求变化,利用好海量的大数据,解决中国软件公司卖人头、卖授权、无粘度的商业模式,转变为以数据服务为核心的新商业模式。,启发各行业对IT系统投资新热点,不同行业中,企业信息化成熟度差异明显;政府 等行业 的信息 化成熟 度明显领先,总 体处于扩展和 整合优 化阶段 ;除金
17、融和电信之外的服务行业的信息化建设成熟度相对较低,仍处 在成长阶段。对大数据的处理需求将启发对于IT系统投资新热点,证实IT推动业务发展,增加对IT投资。,建筑流通,移动互联化,数据智能化大数据,更多行业的应用,政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。,未来IT投资重心转移,结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心;海量数据可以在各个部门创造重大的财务价值,未来投资倾斜。,*,数据的再利用: 由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再
18、次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。,大数据价值链的3大构成:数据本身、技能与思维谷歌公司三者兼具,在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。,未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。,大数据时代,传统行业最终都会转变为大数据行业,无论是金融服务也、医药还是制造业。,*,大数据赋予我们洞察未来的能
19、力,马云成功预测2008 年经济危机“2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。,人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。大数据时代,成功企业具备的时代特征,大数据云计
20、算物联网平台,移动互联语义网智能化,大数据时代,能产生大数据,如电信运营商,互联网门户具备大数据挖掘能力,如Google,百度能应用大数据进行垂直整合,如苹果,淘宝,工业时代,信息时代,手工时代,大数据时代典型特征,在大数据时代,让数据成为资产,三类企业将获得成功,时代变迁,掌握”入口”是共性,平台化满足用户个性化需求,企业才能持续领先,颠覆性创新传统的以产品营销和服务为核心的商业模式,构建以用户需求为核心的平台生态圈,形成用户:自愿进入(搭建以用户为核心的开放交互平台);自动交互(过程中应用大数据分析挖掘形成用户知识);自我增值(整合网络资源为用户提供个性化解决方案服务)的商业模式,向平台生
21、态圈企业转型,企业需经历三个阶段,平台化转型期采集大数据,形成“入口”能力(1年时间),平台化发展期应用“入口”大数据,服务产品化(23年时间),平台生态圈发展期垂直整合,“入口”能力释放(持续发展),开发能采集用户大数据的智能产品、完善运营大数据的采集能力形成大数据采集、存储和管理的技术平台内外部数据梳理和整合,形成统一的用户大数据和运营大数据整合数据挖掘资源和能力, 应用内外大数据支撑产品领先和消费体验领先战略发展,大数据技术平台成熟基于用户的大数据内生和应用平台形成形成12个领先型大数据产品拥有强大的数据挖掘资源和能力,对大数据进行价值挖掘和应用,数据价值开始显著发挥,形成网络化的大数据
22、采集体系整合相关资源形成开放生态圈平台,成为平台生态圈发展的主导者基于生态圈平台,能为用户提供多元化的精确性服务,抢占用户的心理份额、生活份额、钱包份额,数据源,内部结构化数据,外部其他渠道,网络/应用 日志,EDW(内外部结构化数据),用户基本信息数据库,Hadoop(内外部非结构化数据),网络日志分析,内容分析,交互数据分析,个体分析,用户购买记录数据库,用户维修记录数据库,内部非结构化数据,数据应用仓库,用户在线浏览据库,用户安装配送数据库,。,其他数据集,数据应用/服务,营销/关怀活动自动化管理,商业智能,管理驾驶舱,业务报表,专题分析,嵌入运营系统的大数据应用,信息可视化工具,CRM
23、,SCM,MES,PLM,平台化企业,需要大数据架构的支撑,【案例】阿里大数据平台生态圈发展史,内部建设云梯1技术平台业务需求驱动,分析PV,UV等行业基础指标,优化用户消费体验在小网站联盟投放广告,并进行精准投放分析需求,发展聚集用户,发展入口,2006,20072011,2012,入口爆发式增长,用户大数据形成数据开放,形成系列化产品应用:为商户提供“活动直播间”、“数据魔方”、 “量子恒道”等付费服务;为用户提供“一淘”、“双11”、“聚划算”等免费服务或活动;为内部提供“淘数据”,“KPI系统”等产品技术平台向Hadoop开源平台迁移,投资sina微博,开展微博社会化网购投资高德,整合位置地理信息资源联合基金公司,发展用户互联网金融为企业和用户提供信贷,发展供应链金融投资UC,强化移动互联入口 ,平台生态圈成熟期垂直整合发展,平台生态圈发展期入口聚集用户,服务产品化发展,平台建设初期聚集用户,发展入口,