大数据处理框架之.ppt

上传人:牧羊曲112 文档编号:6462980 上传时间:2023-11-02 格式:PPT 页数:13 大小:2.05MB
返回 下载 相关 举报
大数据处理框架之.ppt_第1页
第1页 / 共13页
大数据处理框架之.ppt_第2页
第2页 / 共13页
大数据处理框架之.ppt_第3页
第3页 / 共13页
大数据处理框架之.ppt_第4页
第4页 / 共13页
大数据处理框架之.ppt_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《大数据处理框架之.ppt》由会员分享,可在线阅读,更多相关《大数据处理框架之.ppt(13页珍藏版)》请在三一办公上搜索。

1、大数据处理框架之spark,分享人:黄宇鹏,目录,背景Hadoop回顾Spark简介Spark原理Spark on YarnYarn 生态系统建议,背景,大数据时代Hadoop在数据挖掘中的不足多次迭代,I/O延时大中间结果的序列化和反序列化简单的MR模式 VS 复杂的数据挖掘算法函数式编程图计算,Hadoop回顾,MapReduce过程Map()函数Reduce()函数执行一次,结果写入磁盘Shuffle过程序列化和反序列化写磁盘,Spark简介,基于内存的分布式计算框架适合多次迭代的计算支持多种操作,例如:map,filter,join等提供多种数据处理工具,SQL,Streaming等支

2、持多种开发语言Scala,java,python.与hadoop结合进行数据处理对hdfs,hive,hbase进行访问处理速度快,Spark 简介,运行模式Standalone模式Spark On Mesos模式Spark On Yarn模式,Spark 原理,Spark主从结构Driver任务调度容错处理Worker执行各种操作保存数据,Spark 原理,RDD(Resilient Distributed Datasets)弹性分布式数据集:一个只读、可分区的记录集合(对象)可进行多种操作:transformation(map,filter等)和action(count,save等)可持久化和进行分区DAG(Directed Acyclic Graph)RDD依赖关系,Spark原理,Spark调度过程,Spark on Yarn,Spark在Yarn的执行,Yarn简介,资源管理器任务调度(多种调度算法)资源分配(cpu,内存等)可以运行多种分布式计算平台HadoopSparkStorm,Yarn 生态系统,建议,大数据处理平台计算机基础深入底层源码读论文、结合应用模型和算法数学基础(高数、统计学、线代等)深入模型与求解方法多读论文、结合应用(利用大数据平台),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号