暨南大学并行计算实验室MapReduce研究现状.ppt

上传人:小飞机 文档编号:6300111 上传时间:2023-10-15 格式:PPT 页数:18 大小:256KB
返回 下载 相关 举报
暨南大学并行计算实验室MapReduce研究现状.ppt_第1页
第1页 / 共18页
暨南大学并行计算实验室MapReduce研究现状.ppt_第2页
第2页 / 共18页
暨南大学并行计算实验室MapReduce研究现状.ppt_第3页
第3页 / 共18页
暨南大学并行计算实验室MapReduce研究现状.ppt_第4页
第4页 / 共18页
暨南大学并行计算实验室MapReduce研究现状.ppt_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《暨南大学并行计算实验室MapReduce研究现状.ppt》由会员分享,可在线阅读,更多相关《暨南大学并行计算实验室MapReduce研究现状.ppt(18页珍藏版)》请在三一办公上搜索。

1、暨南大学并行计算实验室MapReduce研究现状,专 业:计算机软件与理论姓 名:周敏 丁光华指导教师:周继鹏 教授,摘要,MapReduce研究 调试、监控等优化、扩展等常用APIHadoop改造数据挖掘项目RedpollCanopy,k-meansNaive bayes,SVM,调试,标准输出,标准出错Web显示(50030,50060,50070)NameNode,JobTracker,DataNode,TaskTracker日志本地重现:Local RunnerDistributedCache中放入调试代码,Profiling,目的:查性能瓶颈,内存泄漏,线程死锁等工具:jmap,js

2、tat,hprof,jconsole,jprofiler mat,jstack对JobTracker的Profile对各slave节点TaskTracker的Profile对各slave节点某Child进程的Profile(可能存在单点执行速度过慢),监控,目的:监控集群或单个节点I/O,内存及CPU工具:Ganglia,调优点(1),I/OShuffle,调优点(2),数据压缩推测性执行(同时执行同一Task,杀死运行慢的)同一节点的Child重用jvm重写Partitioner,使分布到各Reducer的数据均匀设置堆空间大小,常用API,Mapper,ReducerWritable,Co

3、mparableWritableInputFormat,OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python),Hadoop改造,JobTracker与作业调度耦合性太强JobHistory应独立为一个jvm进程,逻辑不应与JobTracker耦合太强在HDFS之上整合MPI,统一作业调度Shuffle过程只需一次I/O单块磁盘失效导致整个节点失效问题(改DFSClient),Hadoop改造,文件系统兼容posix使Map的key输出不排序,只分区NameNode单点故障问题RPC支持大数据(如文件)传输

4、集群资源分配权限管理,大规模数据挖掘:Redpoll,文本数据挖掘分布式分词分布式向量空间模型距离度量语料搜狗新闻20 news groupwikipedia,前提:假定一个属性值对分类的影响独立于其他属性的值。(类条件独立)朴素贝叶斯分类工作过程每个数据样本用一个n维特征向量 表示,分别描述对n个属性 样本的n个度量假设有m个类。给定一个未知的数据样本X,分类法将预测具有最高后验概率(条件X下)的类。即是找最大化的。根据贝叶斯定理有,朴素贝叶斯分类,P(X)对所有类为常数,最大化,对 的考虑分析:等概率,或类条件独立的朴素假定:,(k=1,2,n)可以由训练样本估值 是分类属性,则根据样本估

5、值 是连续值属性,则通常假定其服从高斯分布,因而,朴素贝叶斯分类(续),Canopy,大容量,高维数据集聚类使用两步聚类不同的距离度量节省计算时间适用范围较广K-meansEMGAC,大规模支持向量机,解的稀疏性及问题的凸性将大规模的原问题分解成小规模的子问题,迭代求解子问题,直到收敛至原问题的解.选块算法分解算法序列最小最优化法(sequential minimal optimization,SMO),并行实现,Thinking in MapReduce,B,A,D,A,A,C,B,C,B,C,D,Group,Co-group,Function,Stream Flow,Filter,Filter,Aggregate,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号