大数据概述及其数据分析案例.pptx

上传人:李司机 文档编号:4588595 上传时间:2023-04-29 格式:PPTX 页数:34 大小:10.76MB
返回 下载 相关 举报
大数据概述及其数据分析案例.pptx_第1页
第1页 / 共34页
大数据概述及其数据分析案例.pptx_第2页
第2页 / 共34页
大数据概述及其数据分析案例.pptx_第3页
第3页 / 共34页
大数据概述及其数据分析案例.pptx_第4页
第4页 / 共34页
大数据概述及其数据分析案例.pptx_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《大数据概述及其数据分析案例.pptx》由会员分享,可在线阅读,更多相关《大数据概述及其数据分析案例.pptx(34页珍藏版)》请在三一办公上搜索。

1、大数据概论,目 录,1.,2.,3.,4.,大数据总述,大数据处理框架,大数据分析、挖掘,大数据可视化展示,5.,大数据应用案例,大数据总述,大数据概念,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。,大数据指的是所涉及的数据规模大到无法通过人脑甚至主流软件工具,在合理时间内达到采集、存储、分析、并整理成为帮助企业更好地经营决策的资讯。,“大数据”这一概念的提出。全球知名咨询公司麦肯锡大数据:下一个创新、竞争和生产率前沿提出:数据已经渗透到当今每一个行业和业务领域,成为重要的生产因素。麦肯

2、锡应该是比较早进行研究和应用大数据的公司,但并不是首次提出这个概念的。DT,大数据特点,大容量-Volumn,数据规模大,而且大规模增长,数据来源渠道广泛,类型复杂多变,不仅是采集速度快,而且要求处理速度快,数据的准确度和数据价值密度是否高,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据的重点不在于“大”,而在于数据本身。,人工智能(AI),机器学习(ML),深度学习(DL),大数据(Big Data),几大领域间的图谱关

3、系,大数据处理框架,大数据主流处理框架,Hadoop,分布式文件系统是Hadoop最核心的部件,主管数据存储。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。,MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。,HBase是一个针对结构化数据的面向列的数据库。提供了对大规模数据的随机、实时读写访问。HB

4、ase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。,Hadoop 程序运行原理,Spark,Spark提供了多种高级工具:Spark SQL应用于即时查询、Spark Streaming应用于流式计算、Mllib应用于机器学习、GraphX应用于图处理。Spark可以基于自带的standalone集群管理器独立运行,也可以部署在Apach Mesos和Hadoop YARN等集群管理器上运行。Spark可以访问存储在HDFS、Hbase、本地文件系统等上的数据,支持文本文件以及任何Hadoop的InputFormat。,Spark 特点,Spark可以

5、与Hadoop无缝结合:使用YARN作为它的资源管理器。并可以读取HDFS、Hbase等一切Hadoop的数据。,Spark基于内存的计算比Hadoop的MR快近100倍。基于硬盘的计算比MR快10倍。,Spark可以提供full-stack的解决方案:Spark的内存计算、基于Spark SQL的交互式查询、基于Spark streaming的流式计算、基于Mllib的机器学习。,Spark提供了大量的数据操作算子,不像Hadoop,只有map和reduce两种操作。Spark支持Java、Scala、Python API。支持交互式的Python和Scala是Shell。,Spark Rd

6、d,RDD-Resilient Distributed Datasets(弹性分布式数据集),意为容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。,RDD是在集群节点上的不可变的、已分区的集合对象。可以通过并行转换的方式来创建如(map,filter 等等),它必须是可序列化的。,RDD提供了两种类型的操作:transformation和action。transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD。action是得到一个值,或者一个结果

7、所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。,大数据分析与挖掘,数据分析工具介绍,SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件。SPSS for Windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。它和SAS、BMDP并称为国际上最有影响的三大统计软件。,Excel 是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、

8、金融等众多领域。,MATLAB主要专注于工程和科学计算。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等。,Python完全免费,众多开源的科学计算库都提供了Python的调用接口。Python有着丰富的扩展库,可以轻易完成各种高级任务,开发者可以用Python实现完整应用程序所需的各种功能。,R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;完整连贯的统计分析工具;优秀的统计作图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。,SAS(Statistical Analysis Sy

9、stem)是一个模块化、集成化的大型应用软件系统。SAS由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。SAS已被广泛应用于政府,科研,教育和金融等不同领域。,数据分析方法,探索性分析,数据质量分析:数据质量分析的主要任务是检查原始数据中是否存在脏数据。数据特征分析:对数据进行质量分析以后,可以通过绘制图表、计算某些特征量等进行数据的特征分析。,数据清洗:删除原始数据集中的无关数据、重复数据,噪声数据平滑、处理缺失值、异常值等。数据变换:对数据进行规范化处理,数据归一、连续属性离散化、属性构造。数据规约:数据规约

10、后产生更小但保持原数据完整性的新数据集,提高建模效率和准确性。,根据分析目标和数据形式,选用合适的机器学习算法,建立分类与预测、聚类分析、关联规则、偏差检测等模型等等。,模型分类与预测的评价方法有:绝对误差、均方误差、混淆矩阵等等。,机器学习监督学习,机器学习分类算法,机器学习回归算法,机器学习聚类算法,机器学习关联分析算法,深度学习,深度学习模型的“深”意味着神经网络的结构深,由至少3层组成,深度模型一层的输出作为下一层的输入。通过这种方式,可以实现对输入信息进行分级表达。深度学习与传统模式识别方法的最大不同在于它所采用的特征是从大数据中自动学习得到,而非采用手工设计。,目前,已经涌现出很多

11、相对成熟的深度学习框架,如Caffe,CNTK,DeepLearning4j,Keras,MXNet和TensorFlow等等。DeepLearning4j是一个面向生产环境和商业应用的高成熟度深度学习框架,可与Hadoop和Spark集成,即插即用。TensorFlow框架本身并不是分布式的,但可以通过Spark实现分布式。TensorFlowOnSpark 为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。通过结合深度学习框架 TensorFlow 和大数据框架 Apache Spark、Apache Hadoop 的显著特征,TensorFlowOn

12、Spark 能够在GPU和CPU服务器集群上实现分布式深度学习。,深度学习简单介绍,大数据可视化展示,数据可视化意义,数据可视化是指将数据以视觉形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。文本形式的数据很混乱(更别提有多空洞了),而可视化的数据可以帮助人们快速、轻松地提取数据中的含义。用可视化方式,您可以充分展示数据的模式,趋势和相关性,而这些可能会在其他呈现方式难以被发现。,大数据可视化形式,数据可视化图例,数据可视化图例,数据可视化图例,大数据应用案例,场景描述,某餐饮公司的困惑?通过前期信息化的建设(客户关系管理系统、前厅管理系统、后厨管理系统、财务管理系统、物资管理系统),此餐饮公司已经积累了大量的历史数据。能不能找到一种方法可帮助公司从这些数据中洞察商机,提取价值?,分析挖掘过程,感谢各位聆听 谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号