《大数据处理框架之.ppt》由会员分享,可在线阅读,更多相关《大数据处理框架之.ppt(13页珍藏版)》请在三一办公上搜索。
1、大数据处理框架之spark,分享人:黄宇鹏,目录,背景Hadoop回顾Spark简介Spark原理Spark on YarnYarn 生态系统建议,背景,大数据时代Hadoop在数据挖掘中的不足多次迭代,I/O延时大中间结果的序列化和反序列化简单的MR模式 VS 复杂的数据挖掘算法函数式编程图计算,Hadoop回顾,MapReduce过程Map()函数Reduce()函数执行一次,结果写入磁盘Shuffle过程序列化和反序列化写磁盘,Spark简介,基于内存的分布式计算框架适合多次迭代的计算支持多种操作,例如:map,filter,join等提供多种数据处理工具,SQL,Streaming等支
2、持多种开发语言Scala,java,python.与hadoop结合进行数据处理对hdfs,hive,hbase进行访问处理速度快,Spark 简介,运行模式Standalone模式Spark On Mesos模式Spark On Yarn模式,Spark 原理,Spark主从结构Driver任务调度容错处理Worker执行各种操作保存数据,Spark 原理,RDD(Resilient Distributed Datasets)弹性分布式数据集:一个只读、可分区的记录集合(对象)可进行多种操作:transformation(map,filter等)和action(count,save等)可持久化和进行分区DAG(Directed Acyclic Graph)RDD依赖关系,Spark原理,Spark调度过程,Spark on Yarn,Spark在Yarn的执行,Yarn简介,资源管理器任务调度(多种调度算法)资源分配(cpu,内存等)可以运行多种分布式计算平台HadoopSparkStorm,Yarn 生态系统,建议,大数据处理平台计算机基础深入底层源码读论文、结合应用模型和算法数学基础(高数、统计学、线代等)深入模型与求解方法多读论文、结合应用(利用大数据平台),