大数据技术基础ppt课件.pptx

上传人:牧羊曲112 文档编号:1972650 上传时间:2022-12-29 格式:PPTX 页数:28 大小:4.11MB
返回 下载 相关 举报
大数据技术基础ppt课件.pptx_第1页
第1页 / 共28页
大数据技术基础ppt课件.pptx_第2页
第2页 / 共28页
大数据技术基础ppt课件.pptx_第3页
第3页 / 共28页
大数据技术基础ppt课件.pptx_第4页
第4页 / 共28页
大数据技术基础ppt课件.pptx_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《大数据技术基础ppt课件.pptx》由会员分享,可在线阅读,更多相关《大数据技术基础ppt课件.pptx(28页珍藏版)》请在三一办公上搜索。

1、第二章:大数据技术基础,大 数 据 分 析 及 应 用 实 践,目录,CONTENTS,2.1基础架构支持,2.2云计算,2.3数据采集,2.4数据存储,2.1.1 Hadoop,Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主

2、流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop,2.1.1 Hadoop,经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示)除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务,Hadoop技术架构,Hadoop技术架构图,2.1.1 Hadoop,1:日志采集;2:传输日志;3:将日志写入HDFS;4:从HDFS中将日志

3、装载入数据仓库中;5:对装载的数据进行分析;6:调用Hadoop集群的M/R执行并行计算,并返回结果;7:将结果中有价值的数据写入HBASE数据库;8:报表系统&应用程序端通过HBASE查询数据并展现;,项目架构,2.1.2 HBase,HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的、可扩展的大数据仓库,是一个构建在HDFS上的分布式列存储系统;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。,HBase表特点:a.大 b.无模式 c.面向列 d.稀疏 e.数据多版

4、本 f.数据类型单一,2.1.3 MapReduce,MapReduce是一种编程模型,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。,Map映射 Reduce归纳 MapReduce就是“任务的分解与结果的汇总”,MapReduce处理流程,2.1.4 Hive,Hive是建立在 Hadoop 上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序,Hive与Hadoop关系,2.1.5 Pig,Pig是一个基于Hadoop的大规模数据分析平台,Pi

5、g包含两个部分:Pig Interface,Pig Latin。它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。,Pig 简介,2.1.6 R语言,R是一套完整的数据处理、计算和制图软件系统。,功能,2.2.1 云计算的特点,云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随

6、地获得所需的各种IT资源,1.可扩展性:实现动态的,可伸缩的扩展2.按需提供资源服务:按需求提供资源,按使用量付费3.虚拟化:基于虚拟化技术快速部署资源或获得服务4.超大规模:通过互联网提供、面向海量信息处理5.高可靠性和安全性:服务器使用数据多副本容错,计算节点同构可互换等措施,保障服务的可靠性和安全性。,云计算的特点:,云计算的服务模式和类型,商业模式驱动,应用需求驱动,云计算为大数据提供了技术基础,大数据为云计算提供了用武之地,云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘

7、活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。,2.2.2 云计算与大数据,2.3 数据采集,数据采集:其实就是大数据抽取、转换和加载的过程数据采集的工具:摄像头、麦克风等都是数据采集的工具。数据采集的意义:足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖掘中重要的一环,它是计算机与外部物理世界连接的桥梁。数据采集的方法:,2.3.1 数据采集的意义,数据采集:其实就是大数据抽取、转换和加载的过程数据采集的工具:摄像头、麦克风等都是数据采集的工具。数据采集的意义:足够的数据量是

8、企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖掘中重要的一环,它是计算机与外部物理世界连接的桥梁。数据采集的方法:,系统日志采集方法,网络数据采集方法,其他数据采集方法,基于物联网的采集方法,2.3.2 数据采集的方法,1.基于物联网的采集方法,数据的采集有基于物联网传感器的采集,也有基于网络信息的数据采集。基于物联网的采集,例如在智能交通中,数据的采集有:基于GPS的定位信息采集、基于交通摄像头的视频采集、基于交通卡口的图像采集、基于路口的线圈信号采集等。基于GPS的定位信息采集,基于GPS的定位信息采集,基于交通摄像头的视频采集,基于交通卡口的图像采集,基于

9、路口的线圈信号采集,智能交通中基于物联网的数据采集,2.3.2 数据采集的方法,2.系统日志采集方法,很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。,系统日志的采集,Facebook的Scribe,Hadhoop 的Chukwa,Cloudra的Flume,Facebook的ScribeScribe是Facebook开源的日志手机系统,它能够从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中统计分析处理

10、。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。,Hadoop的Chukwachukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和鲁棒性。Chukwa 还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。,Cloudera的FlumeFlume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力,2.3.2 数据采集的

11、方法,3.网络数据的采集方法,1)四个主要模块及功能,网络爬虫,从Internet上抓取网页内容,并抽取出需要的属性内容。,URL队列,为爬虫提供需要抓取数据网络的URL,数据处理,对爬虫抓取的内容进行处理,数据,1.Site Url,需要抓取数据网站的Url信息;2.Spider Data,爬虫从网页中抽取出来的数据;3.DP Data,经过dp处理之后的数据,2)网络数据采集和处理的基本步骤,2.3.2 数据采集的方法,4.其他数据的采集方法,对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。,2.4.1数据存储的概

12、念,概念:数据以某种格式记录在计算机内部或外部存储介质上。数据存储方式与数据文件组织密切相关,其关键在于建立记录的逻辑与物理顺序间对应关系,确定存储地址,以提高数据存取速度。,2.4.2 数据的存储方式,开放系统的直连式存储(Direct Attached Storage,DAS),网络附加存储(Network Attached Storage,NAS),直接连接于主机服务器的 一种储存方式。每一台主机服务器有独立的储存设备,可以说是一种应用较为早的技术实现。DAS缺点:效率比较低无法共享数据保护流程复杂,是一种用高速(光纤)网络联接专业主机服务器的一种储存方式。NAS优点:即插即用存储简单存

13、储设备位置灵活,大数据存储方式,2.4.3 常见数据源类型,1、文本类型:Excel、TXT、CSV等。,2、数据库类型:MySQL、SQLSever、Oracle、PostgreSQL等。,3、数据集群类型:Hive、Spark等。,本章小结,进行大数据的大分析,需要一定的架构支撑和技术支持。本章介绍了大数据处理过程中需要涉及的几个重要技术平台。Hadoop被视为事实上的大数据处理标准,本章介绍了Hadoop的发展历程,并着重介绍了Hadoop的基础架构:HBase、MapReduce、Hive、Pig、R语言。云计算技术师硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型,它具有可扩展性、按需提供资源服务、虚拟化、超大规模、高可靠性和安全性等特点,云计算与大数据相辅相成,相得益彰。本章最后介绍了数据采集的作用及方法,并介绍了数据存储的方式和常见数据源的类型。,THANKS!,THANKS!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号