《Spark大数据技术与应用案例教程》教案第2课搭建Spark集群环境.docx

资源描述

《《Spark大数据技术与应用案例教程》教案第2课搭建Spark集群环境.docx》由会员分享，可在线阅读，更多相关《《Spark大数据技术与应用案例教程》教案第2课搭建Spark集群环境.docx（7页珍藏版）》请在三一办公上搜索。

1、课题搭建Spark集群环境课时2课时(90min)教学目标知识技能目标：(1)了解SPark的生态系统(2)熟悉SPark的运行架构(3)熟悉SPark运行的基本流程(4)座Spark的部署模式素质目标：增强学生遵守规则的意识，养麒规矩行事的习惯。加强学生基础知识的学习，实现从量变到质变的转化，为个人的长远发展打下基础。教学重难点教学重点：熟悉Spark的运行架构、部署模式以及Spark运行的基本流程教学睚点：能独立搭建Spark集群环境教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务，和学生负责人取得联系，

2、让其提醒同学通过APP或其他学习软件，完成课前任务请大家了解Spaik的生态系统【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题：Spark集群环境是如何组成的？【学生】举手回答传授新知【教师】通过学生的回答引入新知，介绍Spark的生态系统、运行架构，以及Spark的运行的基本流程和Spark的部署模式等知识一、Spark的生态系统【教师】介绍Spark的生态系统SPark的设计遵循Y软件找满足不同应用场景的理念，因此逐渐形成了一套成熟的生态系统。Spark的生态系统又称为伯努利分析栈(Berkerleydataanalyticss

3、tack,BDAS),它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台系统.Spark生态系统(见图1-4)以SParkCore为核心，专注于数据的处理分析。它支持Local、Standalone.YARN和Kubemetes等多种部署模式，可以借助HDFS.MySQL、HBase和AmazonS3等实现数据存储，还提供了SparkSQL、SparkStreamingsSparkMLlib和SparkGraphX等多种组件。其中,SparkCore和SPark组件的详细介绍如下。图1-4SPark的生态系统(DSparkCore.SParkCOre可以实现SPark的基本功能，

4、包括任务调度、内存管理、存储管理和故障恢复等。SparkCore建立在统一的抽象数据集(RDD)之上，并提供了用于创建分布式数据处理应用程序的APLSparkCore旨在提高数据处理应用程序的执行效率，通过内存计算而非基于磁盘的传统批处理，提高计算性能，并允许在更广泛的问题域中执行交互式杳询和分析.(2)SparkSQLeSparkSQL是用于操作结构化数据的组件。它将SQL与Spark应用程序无缝衔接，可以使用Python.ScalaxJava或R语言的API实现，具有易整合的特点。此外，SparkSQL提供了访问各种数据源的通用方法，可以以相同的方式连接到MySQL、Hive、HBaSe等

5、多种数据源。(3)SparkStreaming.SparkStreaming是用于实时流处理的组件。(4)SparkMLlib.SparkMLlib是用于在分布式计食环境中进行机器学习任务的组件。(5)SparkGraphXeSparkGraphX是用于处理和分析大规模图数据的组件,它能够通过Spark的分布式计算能力有效解决传统单机处理大规模图数据的效率问题。(详见教材)二、SPark的运行架构【教师】利用多媒体展示Spark的运行架构图，并讲解Spark的运行架构一般情况下，Spark的运行架构包括每个应用的驱动器、集群资源管理器、运行作业任务的工作节点和每个工作节点上负责具体任务的执行器

6、，如图1-5所示.DriVer SparkContextCluster ManagerWorker NodeHDFS,HBase图1-5SPark的运行架构Spark运行架构中涉及的概念及其解释如下。(】)应用(Application)：用户编写的Spark应用程序，包括实现DriVel功能的代码和在集群多个节点上运行的程序代码。(2)驱动器(Driver)：运行应用程序的main函数,创建SparkContext对象，其目的是为Spark应用程序准备运行环境。在Spark中，由SparkContext负责与ClUSterManager通信，进行资源申请、任务的分配和监控等.当Executor

7、部分运行完毕后，Driver同时负责将SparkContext关闭.(3)集群资源管理器(ClusterManager)：负责资源管理和调度,根据应用程序的需求来分配集群中的计算节扁呐存资源。(4)工作节点(Worker):集群中运行Spark应用程序的节点。Worker就是物理节点，可以在上面启动Executor进程。(5)执行器(Executor)：在每个Worker上为某应用程序启动的一个进程，该进程负责运行Task,并且负责将数据保存在内存或者磁盘上，每个任务都有各自独立的Executor.Executor是一个执行Task的容器。(6)弹性分布式数据集(resilientdistri

8、buteddatasets.RDD)：Spark中的基本数据结构,是一组不可变的分布式对象集合。(7)有向无环图(directedacyclicgraph,DAG)：当用户提交一个作业时，Spark会将其转化为一组有向无环图的形式，反映RDD之间的依赖关系。(8)任务(TaSk)：被送到某个Executor上的工作单元，是运行应用的基本单位。(9)作业(Job)：一个作业包含多个RDD及作用于相应RDD上的各种操作，支持多个任务的并行计算，(10)阶段(Stage)：业调度的基本单位，每个阶段可分为多个任务，这些任务相互依赖。.(详见教材)图1-6SPark中各概念之间的关系三、SPark运行

9、的基本流程【教师】利用多媒体展示SPark运行的基本流程图，并进行讲解SPark运行的基本流程如图1-7所示。下面对SPark运行的原理进行详细介绍。(1)注册并申请资源。启动Spark应用程序，为这个应用程序构建基本的运行环境，即根据Spark应用程序提交的参数在相应位置创建Driver进程,由Driver进程根据参数信息初始化SparkContext对象。SparkContext对象根据参数向ClusterManager注册并申请资源。(2)分配资源.QUSlerManager接收到应用的注册请求后，使用自己的资源调度算法，为应用程序启动Spark集群中Worker节点上的多个Execut

10、or进程。(3)资源反馈。(4)注册并申请任务。(5)发送任务.(6)注销并释放资源。(详见教材)图1-7Spark运行的基本流程【学生】认真听课、积极互动四、Spark的部署模式课堂实践【教师】讲解SPark的两种部署模式使用spaik进行大规模数据计算与分析时，需要将开发好的应用程序部署到Spark上运行。Spark的部署模式可以分为两种类型，一种是本地部署模式，另一种是集群部署模式。1 .本地部署模式本地部署模式即Local部署模式，它是指将Spark应用程序部署在单个计算机上，所有的Spark组件都在同一个JVM进程中。在Local部署模式下，Spark应用程序可以利用单台计算机上的所

11、有资源并行处理数据。通常情况下，Local部署模式适用于开发、测试和调试Spark应用程序时的本地开发环境，并不适合部署到生产环境中使用。2 .集群部署模式集群部署模式是指在一个由多台计算机组成的集群中运行Spark应用程序的模式。在集群部署模式下，SPark的各个组件分布式地运行在多台计算机上，使SPark可以在多个节点上并行处理大规模数据。集群部署模式适用于企业的实际生产环境。SPark集群部署模式包括StandaIOne部署模式、YARN部署模式和Kubemetes部署模式，它们的详细介绍如下。(1)Standalone部署模式是指在Spark集群中没有使用资源管理框架(如YARN)的部

12、署模式.在这种部署模式下，由Spark的Master节点管理整个集群的计算资源，并将任务分发给Worker节点进行执行。(详见教材)(2)YARN部署模式是指将Spark应用程序部署到运行着YARN的集群中。在这种部署模式下,由YARN管理集群上的所有资源，并允许Spark应用程序向YARN请求资源以完成任务。(洋见教材)(3)Kubernetes部署模式是将Spark应用程序部署到运行着Kubemetes的集群中。Kubernetes是一种开源容器编排系统，它可以管理分布式应用程序在容器化环境中的部署、扩展和维护。(洋见教材)【学生】聆听、思考、理解、记录【教师】介绍“搭建SPark伪分布式

13、集群环境和“搭建SPark完全分布式集群环境”的大概流程，安排学生扫描微课二维码观看视频”搭建Spark伪分布式集群环境”和搭建Spark分布式集群环境”(详见教材)，要求学生搭建“Spark伪分布式集群环境”和Spark分布式集群环境”一、搭建SPark伪分布式集群环境Spark腌洞凝挪境T殳与Hadoop彳粉桅牒黯濯在T,具楠操俏历却吓，步骤IA参考任务一中的任务实施，搭建Spark单机环境。参考本书配套素材“项目一/搭建Hadoop伪分布式集群文档，搭建Hadoop伪分布式集群。步骤2A执行以下命令，查询自己计算机的IP地址，用于设置配置信息。IP地址的查询结果,如图18所示0hadp(

14、bogon$ifconfigensl60:flag.4163mtuISOOine4192：168：22.134IneteaSk255.255.255.0broadcast192.168.22.255inet6fe80:250:56ff:fe31:cla8prefixlen64scopeid0x20ether00:50:56:31:cl:a8txqueuelen1000(Ethernet)RXpackets1430bytes1767172(1.6MiB)RXerrors0dropped0overruns0fra*e0TXpackets777bytes54310(53.0KiB)TXerrors0

15、dropped0overruns0carrier0collisions0图1-8IP地址的直询结果(详见教材)二、搭建SPark完全分布式集群环境Spark完全分布式集群一般与Hadoop完全分布式集群部署在一起，具体操作方法如下。步骤IA参考任务一中的任务实施,搭建Spark单机环境。参考项目一/搭建Hadoop完全分布式集群文档，搭建Hadoop完全分布式集群。步骤2A在MaSter节点上执行以下命令，打开.bashrc”配置文件，添加以下配置信息。hadoopMaSter$Vim.bashrc#配置信息exportSPARK_HOME=/usr/local/sparkexportPATH=SPATH:$SPARK_HOME/bin:$SPARK_HOME/sbin(洋见教材)【学生】自行扫码观看配套微课，按照要求进行操作，如遇问题可询问老师【教师】巡堂辅导，及时解决学生遇到的问题课堂小结【教师】简要总结本节课的要点Spark的生态系统Spark的运行架构Spark运行的基本流程Spark的部署模式【学生】总结回顾知识点作业布置【教师】布置课后作业(1)完成项目一项目实训中与本课相关的习题(2)根据课堂所学知识,课后自己尝试搭建Spark单机环境。【学生】完成课后任务教学反思

展开阅读全文