什么是大数据?.pptx

上传人:李司机 文档编号:4617278 上传时间:2023-05-01 格式:PPTX 页数:42 大小:14.14MB
返回 下载 相关 举报
什么是大数据?.pptx_第1页
第1页 / 共42页
什么是大数据?.pptx_第2页
第2页 / 共42页
什么是大数据?.pptx_第3页
第3页 / 共42页
什么是大数据?.pptx_第4页
第4页 / 共42页
什么是大数据?.pptx_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《什么是大数据?.pptx》由会员分享,可在线阅读,更多相关《什么是大数据?.pptx(42页珍藏版)》请在三一办公上搜索。

1、什么是大数据?,前言,赢在大数据时代,“大数据”是指以多元形式,许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。,内容,02,01,03,04,大数据(big data)的定义,01,个人认为,大数据是具备容量大、价值低、实时性强且形式多样复杂的物质与信息作为意识的基础,意识决定物质与信息集中表现在社会总支出与社会总产量的比值。,E,大数据(big data)的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数

2、据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。,网络定义,只是一个空洞的商业术语,不是说大数据没有意义,知乎定义,大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义。,对于不同的人有不同的含义,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。,大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。,百度百科定义,大数据(big data,mega data)或称巨量资料,指的是需

3、要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托迈尔舍恩伯格及肯尼斯库克耶编写的大数据时代中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。,个人对大数据的定义,个人认为,大数据是具备容量大、价值低、实时性强且形式多样复杂的物质与信息作为意识的基础,意识决定物质与信息集中表现在社会总支出与社会总产量的相对比值。,02,它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。(在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的大数据时代4中大数据指不用随机分析法(抽样调查)这样的捷径,

4、而采用所有数据的方法)大数据的4大特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),概论,概论,早在1980年,著名未来学家阿尔文托夫勒便在第三次浪潮一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至

5、空气中化学物质的变化,也产生了海量的数据信息。3,概论,大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。,概论,借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的

6、目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。,大数据时代已经来临,它将在众多领域掀起变革的巨浪。但我们要冷静的看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信,在国家的统筹规划与支持下,通过各地方政府因地制宜制定大数据产业发展策略,通过国内外IT龙头企业以及众多创新企业的积极参与

7、,大数据产业未来发展前景十分广阔。,概论,概论,大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神化它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。,03,+,+,=,经济,思维,工具,数据资产,大数据的意义,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。,科技发达,信息流通,交流密切,生活方便,意义,现在的社会,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越

8、来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。,有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。,1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销2)做小而美模式的中长尾企业可以利用大数据做服务

9、转型3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值,大数据的价值体现在以下几个方面:,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希冯米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。,在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策

10、等等。,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:1)及时解析故障、问题和缺陷的根源,每年可能为企业节省高额开支。2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。3)分析所有SKU,以利润最大化为目标来定价和清理库存。4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。5)从大量客户中快速识别出金牌客户。6)使用点击流分析和数据挖掘来规避欺诈行为。,随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。著云台的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花

11、费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。,大数据的4个“V”,或者说特点有四层面:,大数据的4个“V”,或者说特点有四层面:第一,数据体量巨大从TB级别,跃升到PB级别。第二,数据类型繁多前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”Volume,Variety,Value,Velocity。物联网、云计算、

12、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。,大数据的处理加工,一、Hadoop 二、HPCC 三、Storm 四、Apache Drill 五、Rapid Miner六、Pentaho BI,1。可视化分析。2。数据挖掘算法。3。预测性分析。4。语义引擎。5。数据质量和数据管理。,一、HadoopHadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处

13、理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hado

14、op带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。,技术,二、HPCCHPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由五部分组成:1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;2、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具

15、、计算计算及高性能计算研究中心等;3、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;,技术,4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支 持这些调查和研究活动;5、信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。三、StormStorm是自由的开源软件,一个分布式的、容错的实时计算系统。四、Apache Drill为了帮助

16、企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Googles Dremel.,技术,五、RapidMinerRapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。六、Pentaho BIPentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。Hadoop 上的应用程序也可以使用其他语言编写,比如 C+。,技术,特殊技术,大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术

17、,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。,04,数据源和所处位置、数据定义和管控、数据字典、数据健康智能可视化、客户数据整合、数据保密,如何奠定数据基础,数据基础,发展:随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。,问题:大数据时代存储所面对的问题有:容量、延迟、安全、成本、数据的积累、灵活性、应用感知以及小用户怎么办?,总结:为什么要发展大数据?发展大数据是时代所需,也是人民日益增长所渴望走出数据笼罩下的生活问题,是让人们生产生活中社会总支出与社会总需求的最大化轻松获得高速且持续增长必经途径和方法,从容解决当今社会所面临的一切市场经济及宏观调控的难题。,这是一个最好的时代,也是一个最坏的时代;这是一个智慧的年代,这是一个愚蠢的年代;这是一个信任的时期,这是一个怀疑的时期;这是一个光明的季节,这是一个黑暗的季节;这是希望之春,这是失望之冬;人们面前应有尽有,人们面前一无所有;人们正踏上天堂之路,人们正走向地狱之门。双城记狄更斯,Thanks,POWERPOINT PRESENTATION,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号