Hadoop基础知识培训.ppt

上传人:小飞机 文档编号:5432855 上传时间:2023-07-06 格式:PPT 页数:48 大小:6.32MB
返回 下载 相关 举报
Hadoop基础知识培训.ppt_第1页
第1页 / 共48页
Hadoop基础知识培训.ppt_第2页
第2页 / 共48页
Hadoop基础知识培训.ppt_第3页
第3页 / 共48页
Hadoop基础知识培训.ppt_第4页
第4页 / 共48页
Hadoop基础知识培训.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《Hadoop基础知识培训.ppt》由会员分享,可在线阅读,更多相关《Hadoop基础知识培训.ppt(48页珍藏版)》请在三一办公上搜索。

1、PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop基础知识培训,江西电信大数据支撑团队,2014年中国电信大数据技术与应用培训,PDF created with pdfFactory Pro trial version,2企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,主要内容,第一篇 Hadoop综述 第二篇 HDFS 分布式文件系统第三篇 MapReduce 分布式计算框架 第四篇 常用Hadoop组件介绍,PDF created with pdfFactory Pro

2、 trial version,3企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第一篇Hadoop综述,:什么是Hadoop:Hadoop生态系统:Hadoop的厂商:Hadoop的部署,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop是什么?,Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户 提供了底层细节透明的分布式基础设施。yHDFS的高容错性、高伸缩性等优点,允许用户将H

3、adoop部署 在廉价的硬件上,构建分布式系统。yMapReduce分布式计算框架允许用户在不了解分布式底层细节 的情况下开发并行、分布的应用程序,利用大规模计算资源,解 决传统高性能单机无法解决的大数据处理问题Hadoop NutchLucene,高性能全文 索引工具包,高性能搜索 引擎工具包,版本演进,对应Cloudera公司的CDH3u5,对应Cloudera 公司的CDH4,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop的特点,Hadoop运用于海量数据处理,主要有如下几

4、个优势:方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群 上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP生态系统,y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的

5、软件生 态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所 示:,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,发展目标,HADOOP生态系统,(1)实时应用场景(05s):Storm、S4等;(2)交互式场景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有:Cloudera Impala、Apache Drill、Shark等;(3)非交互式场景(1m1h):通常运行时间较长,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、H

6、ive、Pig、Stinger等;(4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HADOOP厂商,Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop 厂商通过技术创新各显神通。,PDF created with pdfFact

7、ory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,物理上的Hadoop集群,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,逻辑部署的Hadoop集群,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,简介:江西电信Hadoop批处理平 台共由62台PC服务器构成,形成物理上独立的3个RACK,按照功能角色分组,主控 节点、数据节点、Hive接

8、入 节点、元数据节点、监控告 警节点和ETL节点。主控节点6台(2台Namenode、1台 Jobtracker、3台 Zookeeper)数据节点56台,江西电信物理部署的Hadoop集群,PDF created with pdfFactory Pro trial version,12企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第二篇HDFS,一:HDFS简介二:HDFS 架构三:漫画HDFS之读写机制 四:漫画HDFS之容错性 五:漫画HDFS之复制策略,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为

9、中国电信企业核心竞争力之一,1HDFS简介,HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。它是谷歌的GFS提出之后出现的一种用户级文件系统。有一定的容错性,能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2 HDFS 架构,Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在多个datanod

10、e上存储多份副本,默认3份,基 本 概 念,Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系,Datanode:负责存储数据,数据以block的形式存在,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写(

11、续),PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 HDFS 之漫画读写,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro t

12、rial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,4 HDFS 之漫画容错,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心

13、竞争力之一,5 HDFS 之漫画复制策略,PDF created with pdfFactory Pro trial version,24企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第二篇 MapReduce,一:MapReduce基础二:MapReduce优劣 三:MapReduce工作原理,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1 MapReduce基础,MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作 由Map(映射)和Reduce(归约)组

14、成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上,典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等阶段,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1 MapReduce示例,1.输入端根据输入文本大小进行切片形成适合Map处理的数据片,2.分片后的数据申请Map资源,执行本地单词映射操作,3.通过交换将map生成的结果按照单词进行归并重组

15、,4.重组后的结果,申请Reduce资源,进行单词的合并统计,5.对Reduce的结果进行记录合并生成输出文件,MapReduce过程示例,对输入的文 本进行单词 统计,对输入的文 本进行单词 统计,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2 MapReduce 执行过程,从MapReduce在整个Hadoop框架 的位置可以看出作为Hadoop最成熟 的批处理框架,MapReduce起到承 上启下的作用,一方面可以操作 HDFS中的数据,另一方面可以被封 装,提供Hive、Pig这样

16、的上层组件 的调用,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,MapReduce优劣,MapReduce的缺点,通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和 灾备管理等,这样将极大地简化开发者工作MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就 能将差不多的计算能力接入到集群中,而过去的大多数分布式处理框 架,在伸缩性方面都与MapReduce相差甚远。MapReduce的缺点MapRe

17、duce最大的不足则在于,其不适应实时应用的需求,目前还 无法满足用户交互式的需求。,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,3 MapReduce+YARN,PDF created with pdfFactory Pro trial version,30企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,第四篇 Hadoop常用组件简介,:Hadoop常用组件Hbase简介:Hadoop常用组件Hive简介:Hadoop常用组件Pig简介:Hadoop常用组件Zookeeper

18、简介:Hadoop常用组件Sqoop简介:Hadoop常用组件Hue简介,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,1 Hbase简介,HBase是一个分布式的、多版本的、面向列的开源数 据库 利用Hadoop HDFS作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统利用Hadoop MapReduce来处理HBase中的海量数据利用Zookeeper作为协同服务,PDF created with pdfFactory Pro trial version,企

19、业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HBase 简介(续),大:一个表可以有上亿行,上百万列 面向列:面向列(族)的存储和权限控制,列(族)独立检索 稀疏:对于为空的列,并不占用存储空 间,因此,表可以设计的非常稀疏 多版本:每条记录中的数据可以有多个版本 无类型:存在HBase中的数据都是字符 串,无其他类型,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HBase与RDBMS对比,Hbase的优点y1 列的可以动态增加,并且列为空就不存储数据,节省存储空间.y2 可以

20、自动切分数据,使得数据存储自动具有水平扩展.y3 可以提供高并发读写操作的支持Hbase的潜在缺点y1 不能支持条件查询,只支持按照Row key来查询y2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,2 HBase 体系结构,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hbase应用场景,成

21、熟的数据分析主题,业务场景简单,不需要关系数据库中很多特性,查询模式已经确定并且不易改变,传统的关系型数据库已经无法承受负荷,高速插入,有大 量读取清单的需求,并且有快速随机访问的需求适合海量的,但是同时也是简单的操作,具备低延时的数 据返回,比如说key-value的操作,是生产环境对外访问可 行的方式,海量数据存储的驱使,具备动态扩展系统容量的需求,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hadoop常用组件Hive简介,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的

22、数据文件映射为一 张数据库表,并提供完整的类sql查询功能,可以将类sql语句转换为 MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速 实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数 据仓库的统计分析。,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,当前数据分析方法,百万级,千万级,亿万级以上,Unix/Linux工具 awk、grep、sort、join等RDBMS,如MysqlPerl、python、java等,RDBMS,

23、如 Mysql、Mongodb Oracle、DB2等,分布式:Oracle RAC、Greenplum Hadoop(开源免费)MPP,主要基于单机计算,基于集群并行计算,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,HIVE VS SQL,数据存储HDFS/HBaseRaw Device/Loacl FS数据格式用户自定义系统决定 数据更新不支持(覆盖之前数据)支持 索引有(0.8版本新增)有执行MapReduceExecutor执行延迟高低可扩展性高(UDF、UDAF、UDTF)低数据

24、规模大(数据大于TB)小数据检查读时模式写时模式,列分隔符(通常为空格、”t”、”x001)行分隔符(”n”),随时间变化的如MYSQL:MyISAM、InnoDB、MEMORYSQL:,需要经常进行修改的,面向用户的数据添加数据,,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Pig是Hadoop上层的衍生架构,对比Hive(一种声明式的语言),Pig是 一种过程语言,类似于存储过程一步一步的对数据进行转化Pig对MapReduce算法实现了一套shell,类似SQL语句,在Pig中称为

25、Pig Latin,可以对数据进行排序、过滤、求和、分组(group by)、关联(Joining)等操作Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的 UDF(user-defined functions)。,Hadoop常用组件Pig简介,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Pig和Hive的对比,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Pig的设计哲

26、学,Pig语言可以操纵各种类型的数据,无论数据是否是元数据、是否结构化,都没有问题,甚至可以扩展到对键/值 数据的操作,Pigs eat anything,Pig设计是独立成体系的,可以在Hadoop上的HDFS上实现运行,也可以在其它的文件系统运行,Pig live anywhere,Pig可以快速的处理数据,今后对pig的持续改进,将不会让它为 了实现某种功能而降低性能,目的就是为了让Pig可以自由的飞 翔,Pigs fly,Pig被设计为易于操作和修改,用户可以自己定义函数实现很多 数据操作的功能,为了更好的让数据操作函数共享,pig发起了 一个全球的pig bank的计划,上面会有全球

27、pig开发工程师共享的 数据操作函数,这些函数可以免费共享和使用,Pigs are domestic animals,Pig什么都能吃,Pig 哪儿都能活,Pig哪儿都能养,让pig飞翔,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。,Hadoop常用组件ZooKeep

28、er简介,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,sqoop主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们 可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出 到关系数据库。,Hadoop常用组件Sqoop简介,sqoop架构非常简单,其整合了 Hive、Hbase和Oozie,通过 map-reduce任务来传输数据,从 而提供并发特性和容错。,sqoop架构非常简单,其整合了 Hive、Hbase和Oozie,通过 map-reduce任务来传

29、输数据,从 而提供并发特性和容错。,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,推荐采用:Pentaho Data Integrate中的大数据组件集成了 Sqoop,使得我们可以在界面通 过拖拽使用sqoop组件,提高大 家的开发效率,PentahoSqoop的拓展,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,Hue是专门为运营和开发人员开发的,执行Hadoop相关应用的图形化用户界

30、面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,用户可以通过B/S方式使用,Hadoop常用组件Hue简介,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,江西电信Hue部署,y推荐:数据分析人员通过Hue来使用 Hive可视化的界面和说明可以使没接触 过Hadoop的分析人员迅速上手,PDF created with pdfFactory Pro trial version,企业信息化部,把信息化打造成为中国电信企业核心竞争力之一,企业级hadoop平台应用模式,共勉:人类从依靠自身判断做决定到依靠数据做决定的转变,是大数据做出的最大贡献之一,也是我们为之奋斗的目标。,吗?fMiE,谢谢,才巴,信息化打造成为中国电信企业核心竞争力之一PDF created with pdfFactory Pro trial version lC!ww.od仔actolV.com,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号