零基础学习hadoop编程篇.doc

上传人:李司机 文档编号:1089932 上传时间:2022-06-22 格式:DOC 页数:8 大小:638.50KB
返回 下载 相关 举报
零基础学习hadoop编程篇.doc_第1页
第1页 / 共8页
零基础学习hadoop编程篇.doc_第2页
第2页 / 共8页
零基础学习hadoop编程篇.doc_第3页
第3页 / 共8页
零基础学习hadoop编程篇.doc_第4页
第4页 / 共8页
零基础学习hadoop编程篇.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《零基础学习hadoop编程篇.doc》由会员分享,可在线阅读,更多相关《零基础学习hadoop编程篇.doc(8页珍藏版)》请在三一办公上搜索。

1、-1.hadoop编程需要哪些根底?2.hadoop编程需要注意哪些问题?3.如何创立mapreduce程序及其包含几局部?4.如何远程连接eclipse,可能会遇到什么问题?5.如何编译hadoop源码?阅读此篇文章,需要些根底下面两篇文章零根底学习hadoop到上手工作线路指导初级篇零根底学习hadoop到上手工作线路指导中级篇如果看过的话,看这篇不成问题,此篇讲hadoop编程篇。hadoop编程,hadoop是一个Java框架,同时也是编程的一次革命,使得传统开发运行程序由单台客户端单台电脑转换为可以由多个客户端运行多台机器运行,使得任务得以分解,这大大提高了效率。hadoop既然是一

2、个Java框架,因为我们必须要懂Java,网上有大量的资料,所以学习Java不是件难事。但是学到什么程度,可能是我们零根底同学所关心的。语言很多情况下都是相通的,如果你是学生,还处于打根底的阶段,则难度对于你来说还是不小的。1.初学者要求必须有理论根底,并且能够完成一个小工程,最起码能够完成几个小例子,例如图书馆里等。初学者根本的要求:1懂什么是对象、接口、继续、多态2必须熟悉Java语法3掌握一定的常用包4会使用maven下载代码5会使用eclipse,包括里面的快捷键,如何翻开工程传统程序员,因为具有丰富的编程经历,因此只要能够掌握开发工具:1会使用maven下载代码2会使用eclipse

3、,包括里面的快捷键,如何翻开工程3简单熟悉Java语法上面的只是根底,如果想开发hadoop,还需要懂得下面内容1会编译hadoop2会使用hadoop-eclipse-plugin插件,远程连接集群3会运行hadoop程序。上面列出大概的内容,下面我们具体说一些需要学习的内容。无论是传统开发人员还是学生,零根底下面都是需要掌握的:我们就需要进入开发了。开发零根底,该如何,咱们提供了相关的内容分别介绍下面文章学习hadoop-java零根底学习线路指导视频(1)这一篇我们使用什么开发工具,甚至考虑使用什么操作系统。然后就是Java根底知识篇,包括变量、函数等。学习hadoop-Java初级快读

4、入门指导2第一篇是属于思想篇,则这一篇属于实战篇,通过不同的方式,交给你怎么编写第一个小程序。Java零根底:一步步教你如何使用eclipse创立工程及编写小程序实例由于上面没有真正抽象出eclipse的使用,所以这里专门介绍了使用eclipse如何创立工程,及如何编写小程序实例java根底:eclipse编程不得不知道的技巧eclipse根本知识会了之后,我们在工程,这些技巧相当有用,而且经常用到一、考虑开发环境上面是我们打根底,有了这些根底,我们就开场学习开发hadoop了,但是我们该怎么搭建环境,我们知道Windows有32、64位之分,jdk也有,则该如何解决,我们在window32位

5、上需要使用32位jdk,64位则使用64位jdk,同样如果Linu*则使用Linu*32位于64位。更详细,可以参考零根底利用Java开发hadoop需要考虑的问题二、使用J2SE、J2EE使用Java我们需要整体了解Java语言,Java包含下面三种 J2EE java企业版,主要用于web开发 J2SE java 标准版,主要用于WEB开发,但是缺少企业版的一些特性,一般情况下java下的应用都是指J2SE的开发。 J2MEjava微小版,主要用于手机等的开发因此如果我们想处理、并展示数据,可以使用J2EE,更详细参考hadoop开发-Java零根底之J2EE、J2SE、J2ME的区别三、

6、对Java有了一定的认识,我们开场使用Java1.环境变量配置对于惯用集成环境的开发者来讲,这有点不适应,比方.net,安装开发环境vs,直接开发就好了,为啥还需要配置环境变量。环境变量可以让我们找到jdk的命令,这个或许.net的一点好处,就是都封装起来了。别的不用关心了。对于环境变量,我们需要配置java_home,path路径,更详细参考:hadoop开发-Java零根底之开发工具环境变量配置2.开发工具选择开发工具有很多种,不同的人习惯不同,开发工具也不一样,这里列出个人认为比拟常用更多工具参考hadoop开发Java零根底,开发选择什么开发工具比拟适宜而其中maven可以和eclip

7、se一起使用,也可以单独使用,后面开发中它还是比拟常用的,比方我们下载hadoop源码,编译hadoop,都是需要maven来完成的。maven的学习可以参考源码编译maven系列视频教程汇总3.Java编译Java可以一处编译处处运行,原因是因为jvm。编译后的效果,可以查看:Java零根底,学习hadoop:为什么要编译Java源代码,编译后会有什么效果4.如何翻开Java工程Java工程的开发,还是比拟特别的,是通过导入的方式,折合其它比方.net工程,直接点击图标就能翻开,Java工程,例如通过eclipse的import导入,详细参考下面帖子:零根底教你如何导入Java工程到ecli

8、pse中5.Java资源下载:上面补充了一些根本的知识,可能还不够全面,如果缺少这方面的知识,有两种方法:1.百度,查看视频,缺什么看什么视频2.如果想自己什么时候,都能看,可以下载下面的资源javaWeb图书馆管理系统源码mysql版本Java使用hadoop开发根底:Javaweb视频共享几百GJava文件共享java百G内容下载:包含自学,入门,高级应用,案例等Java根底完毕,我们终于可以开发了,其实开发也并不怎么困难,经常遇到的问题如下:1.使用插件连接不上集群windows下连接集有两个原因1.用户名不一致解决方法:1、如果是测试环境,可以取消hadoop hdfs的用户权限检查。

9、翻开conf/hdfs-site.*ml,找到dfs.permissions属性修改为false默认为trueOK了。1.2.1 版本只有这个方法可行,如何操作可以参考第一个问题。2、修改hadoop location参数,在advanced parameter选项卡中,找到项,将此项改为启动hadoop的用户名即可3 修改window 机器的用户名为 hadoop 用户名。2.运行mapreduce程序的时候,会检查权限根据hadoop开发方式总结及操作指导我们知道hadoop开发可以使用插件,也可以不使用插件,如果不使用插件开发可能会遇到下面问题解决方法修改下权限就好了windows ec

10、lipse运行mapreduce遇到权限问题该如何解决3.缺少hadoop.dll,以及winutils.e*e1缺少winutils.e*e回报如下错误:Could not locate e*ecutable null binwinutils.e*e in the hadoop binarieswindows通过hadoop-eclipse-plugin插件远程开发hadoop运行mapreduce遇到问题及解决2缺少hadoop.dll错误如下:Unable to load native-hadoop library for your platform. using builtin-jav

11、aclasses where applicable解决方法:1.首先将hadoop.dll放到hadoop的bin目录下,如下列图所示2.配置hadoop home及pathpath,这里使用的是绝对路径,path里面配置的是hadoop的bin路径。配置完毕,切忌重启机器如下列图所示包及插件的下载,可以在这里面找hadoop家族、strom、spark、Linu*、flume等jar包、安装包汇总下载(持续更新)上面总结了我们开发环境中经常遇到的问题,上面问题打了预防针,我们后面在连接的时候,就会顺利多了。上面主要讲的window远程连接集群,还有另外一种就是Linu*连接集群,这个遇到的问

12、题不多,后面也有所涉及开发hadoop,可以在Linu*下,也可以在window下面这里主要讲的是window下面:该如何远程连接hadoop集群对于不同版本不同的配置,远程连接的配置有所不同,特别是端口的配置,但是总体的步骤是差不多的,下面分别是hadoop1.*与hadoop2.*1.插件远程连接hadoop1.*hadoop开发方式之一:利用插件开发指导hadoop2.*新手指导:Windows上使用Eclipse远程连接Hadoop进展程序开发hadoop2.2 eclipsehdfs(hadoop)配置Hadoop 2.*开发环境Eclipse2.远程连接问题连接中存在问题上面总结了

13、一局部,比方插件、缺.dll、版本等问题Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4经历总结windows 7 使用 eclipse 下hadoop应用开发环境搭建及问题总结3.运行mapreduce已经连接上集群,我们开场运行可以编程了,这里面我们可以操作hdfs,如下例:hadoop实战:Java对hdfs的编程Java创立hdfs文件实例Java操作HDFS错误总结当然操作hdfs,会遇到权限问题,修改hdfs-site.*ml即可,我们不在重复。除了操作hdfs上传下载文件等操作,我们还需要完成一定的功能,比方wordcount等简单功能。这里面编程完成

14、三方面内容:1.map函数,起到分割的作用2.reduce函数,处理然后汇总3.main驱动。4.如何带参数还需要继续Tool接口,带参数详细参考如何编写运行带参数输入输出路径hadoop程序(1)创立mapreduce运行mapreduce参数参考下面:我们首先可以完成一定的功能,功能的实现,可以参考MapReduce初级案例1:使用MapReduce去重MapReduce初级案例2:使用MapReduce数据排序MapReduce初级案例3:使用MapReduce实现平均成绩通过上面的实现,这里有一个例子,可以放到工程中,直接运行,当然你需要创立数据文件,及根据自己的实际情况修改uri,也

15、就是hdfs:/。需要修改成自己的内容。新手指导,该如何在开发环境中,创立mapreduce程序如果我们对mapreduce有一个深度的了解,我们可以把大局部程序转换为mapreduce来实现,详细参考如何让传统程序转换成mapreducehadoop编程需要注意的问题虽然hadoop是Java语言编写的,但是其有自己的数据类型,及并且可能会遇到编码问题,同时由于mapreduce的分区,采用的是hash算发,下面的内容,可以了解一下hadoop编程根底:数据类型介绍及与Java数据类型之间转换eclipse 调试hadoop需要注意编码问题hadoop根底:Java中的Hash值介绍(2)运

16、行mapreduce创立完毕,我们有两种方式运行mapreduce,一种打包到集群运行,一种在eclipse中运行。hadoop集群,如何运行Java jar包-如何运行mapreduce程序打包集群运行:参考下面内容java零根底:将java源码打成jar包各种方法介绍hadoop编程:解决eclipse能运行,打包放到集群上ClassNotFoundE*ception:经历总结(3)运行中会遇到的问题在开头已经说了一些经典的问题,这里在列出一些相关帖子。1.eclipse中开发Hadoop2.*的Map/Reduce工程汇总阐述了下面问题:1.如何创立MR程序?2.如何配置运行参数?3.H

17、ADOOP_HOME为空会出现什么问题?的作用是什么?扩展:是什么?2.Win7 Eclipse调试Centos Hadoop2.2-Mapreduce出现问题解决方案阐述下面问题:1.建一个MapReduce Project,运行时发现出问题:Could not locate e*ecutable null,该如何解决?2.Could not locate e*ecutabl.hadoop-2.2.0hadoop-2.2.0binwinutils.e*e in the Hadoop binaries.该如何解决?3.win7下使用hadoop-eclipse-plugin插件开发添加了had

18、oop.dll不生效4.通过eclipse中的Java API上传至集群为什么replication默认3份,该如何设置5.eclipse运行出现 Call From to master:8020 failed on connection e*ception:6.hadoop eclipse插件出现问题7.Linu*下面eclipse连接报错,请教大神(4)mapreduce调试:调试的方法有多种,这里说一种最简单、原始的一种。记得Javascript刚开场之初是不能调试的,于是我们就采用alert的方法,看看结果是不是我们想要的,这里我们调试mapreduce采用的是类似的方法。我们通过Co

19、unter countPrint1 = conte*t.getCounter(Map中循环strScore, 输出信息);来输出调试信息,getCounter可以把程序里面的变量输出到Java控制台,这样就到达了调试效果。详细参考:Hadoop中调试mapreducemap与redcue信息的输出方法当然还有其他调试方法,可以参考下面Win7 Eclipse调试Centos Hadoop2.2-Mapreduce出现问题解决方案调试Hadoop源代码:eclipse调试及日志打印4.获取源码、阅读源码获取源码可以通过git,maven等方式。1mavenmaven可以单独使用,也可以作为插件放

20、在eclipse中,由于hadoop src采用的是maven的方式,所以我们需要学习和使用maven。eclipse maven plugin 插件安装和配置及maven实战书籍下载源码编译maven系列视频教程汇总如果看了上面的内容,则我们对maven已经算是很熟悉了,可以通过maven获取hadoop源码了,在获取的源码的时候,最起码要保持网络畅通,如何获取,以及查看hadoop源码,查看的时候,我们还需要关联一些包,否则会出现下面情况,source not found。更多内容,详细可参考:从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码Eclips

21、e查看hadoop源代码出现Source not found,是因为没有添加.zip在eclipse中编辑源代码指导源码获取了,我们该如何查看阅读源码,如何通过eclipse查看类的定义,函数的实现,通过下面帖子即可到达我们的目的。如何通过eclipse查看、阅读hadoop2.4源码2其它获取源码工具git、svn源码管理、获取网络源码工具:TortoiseSVN使用手册Eclipse上GIT插件EGIT使用手册5.编译hadoop源码源码编译,刚开场还是比拟复杂的,需要安装不少的软件包括maven、protobuf、CMake、ant等工具的安装,编译完毕之后,我们就可以安装了。更详细,可

22、以查看下面内容从零教你在Linu*环境下ubuntu如何编译hadoop2.4Hadoop 源代码 eclipse 编译教程对于编译的.class文件,如果想查看源码,可以通过反编译工具实现java的class文件反编译和Eclipse、MyEclipse反编译插件安装、使用6.插件制作eclipse开发,有的同学,感兴趣,想制作插件,可以查看下面内容Hadoop2.4.0 Eclipse插件制作Hadoop2.4.0 Eclipse插件制作及问题记录编译hadoop-eclipse-plugin插件7.资源:由于一些同学经常找不到安装包、插件等,这里汇总一些资源:hadoop家族、strom、spark、Linu*、flume等jar包、安装包汇总下载(持续更新)hadoop2.4汇总:hadoop2.4插件下载、完全分布式、伪分布、eclipse插件开发大全插件包分享. z.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号