大数据处理框架之.ppt

上传人：牧羊曲112 文档编号：6462980 上传时间：2023-11-02 格式：PPT 页数：13 大小：2.05MB

返回下载相关举报

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

第4页 / 共13页

第5页 / 共13页

点击查看更多>>

资源描述

《大数据处理框架之.ppt》由会员分享，可在线阅读，更多相关《大数据处理框架之.ppt（13页珍藏版）》请在三一办公上搜索。

1、大数据处理框架之spark,分享人：黄宇鹏,目录,背景Hadoop回顾Spark简介Spark原理Spark on YarnYarn 生态系统建议,背景,大数据时代Hadoop在数据挖掘中的不足多次迭代，I/O延时大中间结果的序列化和反序列化简单的MR模式 VS 复杂的数据挖掘算法函数式编程图计算,Hadoop回顾,MapReduce过程Map()函数Reduce()函数执行一次，结果写入磁盘Shuffle过程序列化和反序列化写磁盘,Spark简介,基于内存的分布式计算框架适合多次迭代的计算支持多种操作，例如：map，filter，join等提供多种数据处理工具，SQL，Streaming等支

2、持多种开发语言Scala，java，python.与hadoop结合进行数据处理对hdfs,hive,hbase进行访问处理速度快,Spark 简介,运行模式Standalone模式Spark On Mesos模式Spark On Yarn模式,Spark 原理,Spark主从结构Driver任务调度容错处理Worker执行各种操作保存数据,Spark 原理,RDD（Resilient Distributed Datasets）弹性分布式数据集：一个只读、可分区的记录集合（对象）可进行多种操作：transformation(map,filter等）和action（count，save等）可持久化和进行分区DAG(Directed Acyclic Graph)RDD依赖关系,Spark原理,Spark调度过程,Spark on Yarn,Spark在Yarn的执行,Yarn简介,资源管理器任务调度（多种调度算法）资源分配（cpu，内存等）可以运行多种分布式计算平台HadoopSparkStorm,Yarn 生态系统,建议,大数据处理平台计算机基础深入底层源码读论文、结合应用模型和算法数学基础（高数、统计学、线代等）深入模型与求解方法多读论文、结合应用（利用大数据平台）,

展开阅读全文