精华内容
下载资源
问答
  • 自己整理生成了一套基于HADOOP2.8.2的插件,经测试可用,应该是全网第一个基于HADOOP2.8.2的ECLIPSE插件,我使用的环境JDK1.7 64位,MYECLIPSE2014 或 ECLIPSE4.4 下载包中有配置好的截图照片。
  • 搭建Eclipce下的hadoop2.8.2开发环境相关步骤,对应的安装包和配置文件可以在我的资源中下载
  • centos 安装 hadoop2.8.2

    2017-11-04 21:01:48
    首先安装hadoop前要先安装jdk: ... hadoop下载链接:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.2/hadoop-2.8.2.tar.gz 通过wget就能够下载 wget h

    首先安装hadoop前要先安装jdk:

    http://blog.csdn.net/qq_34954457/article/details/78446038点击打开链接

    hadoop下载链接:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.2/hadoop-2.8.2.tar.gz

    通过wget就能够下载

    wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.2/hadoop-2.8.2.tar.gz

    首先要先解压hadoop

    tar -zxvf hadoop-2.8.2.tar.gz

    把下载包删除节省空间

    rm -f hadoop-2.8.2.tar.gz

    把文件移动到local目录下

    mv hadoop-2.8.2/ /usr/local/hadoop

    下面要更改配置文件了(更改公共的配置文件)

    vim /usr/local/hadoop/etc/hadoop/core-site.xml


    <configuration>

            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://主机ip:9000/</value>
            </property>

            <property>
                    <name>hadoop.tmp.dir</name>
                    <value>/usr/local/hadoop/data/</value>
            </property>


    </configuration>


    配置hdfs运行文件 hdfs-site.xml

    vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

    <configuration>

            <property>
                    <name>dfs.replication</name>
                    <value>1</value>
            </property>        

    </configuration>

    配置yum文件(mapred-site.xml.template)

    先要更改文件名字,要不然无法运行

    mv /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

    vim /usr/local/hadoop/etc/hadoop/mapred-site.xml

    <configuration>
            <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
            </property>
    </configuration>

    配置yarn文件(yarn-site.xml)

    vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

    <configuration>

    <!-- Site specific YARN configuration properties -->

            <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>主机ip</value>
            </property>

            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
            </property>

    </configuration>

    配置下jdk环境变量

    vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

    找到JAVA_HOME

    更改为自己的路径:/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.151-1.b12.el7_4.x86_64




    另外如果是阿里云服务器别忘了把安全组中的端口打开


    可以启动hadoop了

    进入到hadoop的目录下

    cd /usr/local/hadoop/bin/

    第一次要格式化hadoop

    ./hadoop namenode -format

    这句话出现就代表格式化成功了

    cd ..

    cd sbin/

    格式完就可以启动了

    ./start-dfs.sh

    ./start-yarn.sh

    或者直接用./start-all.sh启动


    http://ip:50070就可以进入了

    hdfs管理界面 50070
    yarn管理界面 8088


    好了,这就算成功了!

    无密登入:http://blog.csdn.net/qq_34954457/article/details/78447030点击打开链接


    展开全文
  • 下载Hadoop 解压并移动到/software目录: tar -zxvf hadoop-2.8.2.tar.gz mv hadoop-2.8.2 /software/hadoop 在/etc/profile文件添加: export HADOOP_HOME=/software/hadoop export HADOOP_INSTALL=$HADOOP_HOME ...

    下载Hadoop

    解压并移动到/software目录:

    tar -zxvf hadoop-2.8.2.tar.gz
    mv hadoop-2.8.2 /software/hadoop

    /etc/profile文件添加:

    export HADOOP_HOME=/software/hadoop
    export HADOOP_INSTALL=$HADOOP_HOME
    export HADOOP_MAPRED_HOME=$HADOOP_HOME
    export HADOOP_COMMON_HOME=$HADOOP_HOME
    export HADOOP_HDFS_HOME=$HADOOP_HOME
    export YARN_HOME=$HADOOP_HOME
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
    export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

    保存并且更新/etc/profile文件:source /etc/profile

    编辑hadoop-env.sh文件:vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh,在最后加上:

    export JAVA_HOME=/software/jdk

    修改Configuration文件:vim $HADOOP_HOME/etc/hadoop/core-site.xml

    <configuration>
            <property>
                    <name>fs.default.name</name>
                    <value>hdfs://localhost:9000</value>
            </property>
    </configuration>
    

    修改hdfs-site.xml:vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml

    <configuration>
            <property>
                    <name>dfs.replication</name>
                    <value>1</value>
            </property>
    </configuration>

    修改mapred-site.xml:

    cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
    vim $HADOOP_HOME/etc/hadoop/mapred-site.xml
    <configuration>
            <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
            </property>
    </configuration>

    修改yarn-site.xml:vim $HADOOP_HOME/etc/hadoop/yarn-site.xml

    <configuration>
            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
            </property>
    </configuration>

    初始化hadoop:

    hdfs namenode –format

    1252953-20171118160035906-909393588.png
    1252953-20171118160045265-1338870938.png

    启动

    $HADOOP_HOME/sbin/start-all.sh

    输入jps查看是否成功:
    1252953-20171118160209359-1017071216.png

    检查WebUI,浏览器打开端口:http://localhost:8088
    1252953-20171118160252577-989061104.png
    这里是用宿主机访问虚拟机,所以ip是虚拟机的ip。

    停止

    $HADOOP_HOME/sbin/stop-all.sh

    安装完成。

    但是在启动时候有一个警告,提示hadoop不能加载本地库:
    1252953-20171118160433437-1291343646.png

    解决方法:
    在/etc/profile中添加:

    HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

    保存并更新文件:source /etc/profile
    并且在hadoop-env.sh添加: vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

    export HADOOP_HOME=/software/hadoop
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

    转载于:https://www.cnblogs.com/NexTen/p/7856897.html

    展开全文
  • 目标这个文档介绍怎么使用Hadoop集群,从几个节点到几千个节点。想要玩转Hadoop,你可能需要先...从Apache镜像下载稳定版的Hadoop。 安装安装一个Hadoop集群需要在不同的机器上解压软件。把不同的硬件(服务器)拆分为

    目标

    这个文档介绍怎么使用Hadoop集群,从几个节点到几千个节点。想要玩转Hadoop,你可能需要先尝试一下单节点模式:see(单节点模式
    这个文档不包括一些高级主题,比如:安全性和高可用性。

    需求

    • 安装java正确版本。(单节点模式中介绍了如何选择正确java版本)
    • 从Apache镜像下载稳定版的Hadoop。

    安装

    安装一个Hadoop集群需要在不同的机器上解压软件。把不同的硬件(服务器)拆分为不同的功能是非常重要的。
    通常一台集群中的一台机器指定作为NameNode,另外一台作为ResourceManager,这是主节点。其他的服务,比如Web App代理服务和MapReduce任务历史服务,通常运行在专门的机器上或者共享的机器上,这需要根据负载因素考虑。
    急群中剩下的机器作为DataNode和NodeManager,这是从节点。

    配置Hadoop为非安全模式

    Hadoop的java配置有两个重要的类型:

    • 只读的默认配置:core-default.xml, hdfs-default.xml, yarn-default.xml 和 mapred-default.xml.
    • 具体地址配置:etc/hadoop/core-site.xml, etc/hadoop/hdfs-site.xml, etc/hadoop/yarn-site.xml 和 etc/hadoop/mapred-site.xml.

    另外,你可以通过修改etc/hadoop/hadoop-env.sh和etc/hadoop/yarn-env.sh中的内容来代替设置具体地址配置。
    为了配置Hadoop集群,你需要配置Hadoop运行的环境,也就是Hadoop运行需要的参数。
    HDFS进程包括:NameNode,SecondaryNameNode和DataNode。
    YARN进程包括:ResourceManager,NodeManager和WebAppProxy。
    如果用到MapReduce的话,MapReduce任务历史服务也需要运行。为了集群能够更大,这些东西一般都运行在不同的机器上。

    配置Hadoop进程的环境

    管理员可以用etc/hadoop/hadoop-env.sh或者etc/hadoop/mapred-env.sh和etc/hadoop/yarn-env.sh 脚本来自定义具体地址配置。
    至少,你必须指定JAVA_HOME的值。
    管理员可以使用下面的选项单独配置每一个进程,选项如下:

    进程 环境变量
    NameNode HADOOP_NAMENODE_OPTS
    DataNode HADOOP_DATANODE_OPTS
    Secondary NameNode HADOOP_SECONDARYNAMENODE_OPTS
    ResourceManager YARN_RESOURCEMANAGER_OPTS
    NodeManager YARN_NODEMANAGER_OPTS
    WebAppProxy YARN_PROXYSERVER_OPTS
    Map Reduce Job History Server HADOOP_JOB_HISTORYSERVER_OPTS

    举个例子,让Namenode进程使用parallelGC回收器,下面的配置就需要加入 hadoop-env.sh中。

    export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC"

    更多的配置可以查看etc/hadoop/hadoop-env.sh 文件。下面列几个常用到的参数。

    • HADOOP_PID_DIR :进程id文件存放的目录。
    • HADOOP_LOG_DIR :进程的日志文件存放的目录。
    • HADOOP_HEAPSIZE / YARN_HEAPSIZE:最大堆大小,单位MB。如果这个参数设置为1000,那么堆就是1000MB。默认就是1000。

    通常情况,你应该指定HADOOP_PID_DIR 和HADOOP_LOG_DIR ,并且使得这些目录只有指定用户才有权限操作。否则会有潜在符号链接攻击的危险。
    配置HADOOP_PREFIX 也是很常用的,举个例子,在/etc/profile.d中添加一个简单的脚本:

    HADOOP_PREFIX=/path/to/hadoop
    export HADOOP_PREFIX

    还有一些设置堆大小的参数如下所示:

    进程 环境变量
    ResourceManager YARN_RESOURCEMANAGER_HEAPSIZE
    NodeManager YARN_NODEMANAGER_HEAPSIZE
    Secondary NameNode YARN_PROXYSERVER_HEAPSIZE
    Map Reduce Job History Server HADOOP_JOB_HISTORYSERVER_HEAPSIZE

    配置Hadoop进程

    这个章节介绍一些配置文件中重要的参数。

    etc/hadoop/core-site.xml

    参数 备注
    fs.defaultFS NameNode地址 hdfs://host:port/
    io.file.buffer.size 131072 SequenceFiles的读写缓冲区大小

    etc/hadoop/hdfs-site.xml

    配置NameNode:

    参数 备注
    dfs.namenode.name.dir NameNode存放命名空间和事务日志的路径 逗号分开的路径,为了冗余,名称表会存在在多个路径中
    dfs.hosts /dfs.hosts.exclude 允许和排除的DataNode列表 如果需要,使用这些文件控制那些Datanode是被允许的。
    dfs.blocksize 268435456 大的文件系统HDFS块大小为256M
    fs.namenode.handler.count 100 多个NameNode服务线程处理大量DataNodes的RPC调用

    配置DataNode:

    参数 备注
    dfs.datanode.data.dir 数据块的本地存储路径,逗号分开 如果是逗号分开的多个路径,那么数据会存储在所有的目录中,通常在不同的设备上

    etc/hadoop/yarn-site.xml

    配置ResourceManager 和NodeManager:

    参数 备注
    yarn.acl.enable true/false 使得ACLs可用,默认是false
    yarn.admin.acl Admin ACL ACL指定集群的管理员,默认是*。逗号分开用户空间和组
    yarn.log-aggregation-enable false 日志聚合开关

    配置ResourceManager:

    参数 备注
    yarn.resourcemanager.address ResourceManager 主机:端口,客户端用来提交任务。 如果不设置,默认是yarn.resourcemanager.hostname的值
    yarn.resourcemanager.scheduler.address ResourceManager 主机:端口,ApplicationMasters向Scheduler获得资源 如果不设置,默认是yarn.resourcemanager.hostname的值
    yarn.resourcemanager.resource-tracker.address ResourceManager 主机:端口,NodeManagers使用 如果不设置,默认是yarn.resourcemanager.hostname的值
    yarn.resourcemanager.admin.address ResourceManager 主机:端口,管理员命令 如果不设置,默认是yarn.resourcemanager.hostname的值
    yarn.resourcemanager.webapp.address ResourceManager 主机:端口,web-ui访问 如果不设置,默认是yarn.resourcemanager.hostname的值
    yarn.resourcemanager.hostname ResourceManager主机 设置yarn.resourcemanager*address的默认地址,使用默认端口
    yarn.resourcemanager.scheduler.class ResourceManager调度器 CapacityScheduler(推荐),FairScheduler(推荐)和FifoScheduler
    yarn.scheduler.minimum-allocation-mb 最小内存限制 单位MB
    yarn.scheduler.maximum-allocation-mb 最大内存限制 单位MB
    yarn.resourcemanager.nodes.include-path / yarn.resourcemanager.nodes.exclude-path 允许和排除的NodeManager 如果需要,可以设置被允许的NodeManager

    配置NodeManager:

    参数 备注
    yarn.nodemanager.resource.memory-mb NodeManager资源的物理内存 定义了NodeManager总可用资源可用运行容器
    yarn.nodemanager.vmem-pmem-ratio 可超过物理内存的虚拟内存的最大比例 每个任务的虚拟内存可超过物理内存,但必须在这个比例限制下。
    yarn.nodemanager.local-dirs 逗号分开的本地路径,存放中间数据 多路径传播磁盘I/O
    yarn.nodemanager.log-dirs 逗号分开的日志路径 多路径传播磁盘I/O
    yarn.nodemanager.log.retain-seconds 10800 默认日志文件保留时间,仅在log-aggregation是false时可用
    yarn.nodemanager.remote-app-log-dir /logs HDFS目录,存储应用日志,需要设置相应的权限,仅在log-aggregation为true时可用
    yarn.nodemanager.remote-app-log-dir-suffix logs 远程日志目录的后缀,格式为yarn.nodemanager.remoteapplogdir/{user}/${thisParam} ,仅在log-aggregation为true时可用
    yarn.nodemanager.aux-services mapreduce_shuffle Map Reduce应用的Shuffle服务

    配置历史服务(需要移动到任务地方):

    参数 备注
    yarn.log-aggregation.retain-seconds -1 聚合日志的保存时间,-1表示不可用,如果设置的太小会向namenode发送垃圾邮件
    yarn.log-aggregation.retain-check-interval-seconds -1 聚合日志的检查时间间隔,如果是0或者负数,那么就是聚合日志保存时间的十分之一。如果设置的太小会向namenode发送垃圾邮件。

    etc/hadoop/mapred-site.xml

    配置MapReduce应用:

    参数 备注
    mapreduce.framework.nam yarn 执行框架设置为Hadoop YARN
    mapreduce.map.memory.mb 1536 map所需要的内存资源
    mapreduce.map.java.opts -Xmx1024M map 子 JVM的堆大小
    mapreduce.reduce.memory.mb 3072 reduce锁需要的内存资源
    mapreduce.reduce.java.opts -Xmx2560M reduce 子 JVM的堆大小
    mapreduce.task.io.sort.mb 512 为了排序效率更高,可以使用更高的内存
    mapreduce.task.io.sort.factor 100 排序文件一次合并的流数量
    mapreduce.reduce.shuffle.parallelcopies 50 reduce从map的结果中拷贝数据的并行数量

    配置MapReduce JobHistory服务:

    参数 备注
    mapreduce.jobhistory.address 主机:端口 默认端口是10020
    mapreduce.jobhistory.webapp.address WEB-UI的主机:端口 默认端口19888
    mapreduce.jobhistory.intermediate-done-dir /mr-history/tmp MapReduce任务的历史文件目录
    mapreduce.jobhistory.done-dir /mr-history/done MR JobHistory管理的历史文件目录

    NodeManager的健康监测

    Hadoop提供了一个监测节点是否健康的机制,管理员通过配置NodeManager运行一个间隔执行的脚本就可以做到做到。
    管理员选择脚本中提供的功能就可以监测节点的健康状态,如果脚本监测到节点处于一个非健康状态,就会打印一个ERROR开头的日志到标准输出,NodeManager间隔执行脚本并检查它的输出。如果脚本的输出包含一个ERROR,那么就会报告这个节点处于非健康状态,然后ResourceManager就会把这个节点加入黑名单,任务不会再让这个节点处理。此后NodeManager依旧会执行这个脚本,来检测这个节点是否恢复健康,恢复健康后ResourceManager 会自动的移除黑名单。节点的健康是根据脚本的输出来检测的,我们可以通过ResourceManager 的Web接口来查看它的健康状态。
    下面配置中的参数,可以控制节点的的健康检测脚本,配置文件etc/hadoop/yarn-site.xml。

    参数 备注
    yarn.nodemanager.health-checker.script.path 节点健康脚本路径 这个脚本检查节点的健康状态
    yarn.nodemanager.health-checker.script.opts 脚本选项 脚本的各个选项
    yarn.nodemanager.health-checker.interval-ms 间隔时间 运行脚本的间隔时间
    yarn.nodemanager.health-checker.script.timeout-ms 超时 脚本执行的超时时间

    如果本地应该坏了的话,这个脚本不应该打印ERROR。NodeManager有能力检测硬盘是否正常工作(具体检测nodemanager-local-dirs和nodemanager-log-dirs),如果达到了yarn.nodemanager.disk-health-checker.min-healthy-disks配置的数量,整个节点就会被标记为非健康的,这个信息也会发送给ResourceManager。

    Slaves 文件

    在conf/slaves文件中列出所有slave的主机名或者IP地址,一行一个。辅助脚本(如下所述)将使用Hadoop/slaves文件同时在多台主机上运行命令。它不用于任何基于java的Hadoop的配置。为了使用这一功能,必须为运行Hadoop的账号建立SSH信任(通过免密码SSH或其他手段,如Kerberos)。

    Hadoop机架感知

    许多Hadoop的组件是具有机架感知的,它有利于网络拓扑结构的高性能和安全。Hadoop守护进程通过调用一个管理员配置模块获取集群中Slaves的机架信息。
    HDFS和Map/Reduce的组件是能够感知机架的。查看Rack Awareness获取更多特定信息。

    非常推荐你在启动HDFS前配置机架感知。

    日志

    Hadoop使用Apache log4j来记录日志,它由Apache Commons Logging框架来实现。编辑conf/log4j.properties文件可以改变Hadoop守护进程的日志配置(日志格式等)。

    操作Hadoop集群

    一旦所有必须的配置都完成,复制这些配置到所有机器上的HADOOP_CONF_DIR中。在所有机器上这些目录都应该是相同的。
    通常,建议HDFS和YARN使用不同的用户来启动,在多数的安装中,HDFS进程使用”hdfs”,YARN通常使用‘yarn账号’。

    Hadoop启动

    为了启动Hadoop集群,你应该先启动HDFS和YARN集群。
    首先启动HDFS,必须格式化,格式化一个新的分布式文件系统如下:

    [hdfs]$ $HADOOP_PREFIX/bin/hdfs namenode -format <cluster_name>

    启动HDFS的NameNode,使用下面的命令在每一个hdfs节点上执行:

    [hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs start namenode

    启动HDFS的DataNode,使用下面的命令在每一个hdfs节点上执行:

    [hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemons.sh --config $HADOOP_CONF_DIR --script hdfs start datanode

    如果etc/hadoop/slaves和ssh访问已经配置好了(查看单节点安装),所有的HDFS进程可以使用一个脚本启动,使用hdfs用户:

    [hdfs]$ $HADOOP_PREFIX/sbin/start-dfs.sh

    在指定的ResourceManager上启动YARN,使用下面的命令:

    [yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh --config $HADOOP_CONF_DIR start resourcemanager

    在每一个yarn节点上执行下面的脚本启动NodeManager :

    [yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemons.sh --config $HADOOP_CONF_DIR start nodemanager

    启动一个单独的WebAppProxy 服务,使用yarn方式启动WebAppProxy 服务,如果为了负载均衡启动多个服务,那么需要在每一个上都要执行:

    [yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh --config $HADOOP_CONF_DIR start proxyserver

    如果etc/hadoop/slaves和ssh访问已经配置好了(查看单节点安装),所有的YARN进程可以使用一个脚本启动,使用yarn用户:

    [yarn]$ $HADOOP_PREFIX/sbin/start-yarn.sh

    在指定的服务器上启动MapReduce JobHistory服务,使用mapred用户:

    [mapred]$ $HADOOP_PREFIX/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR start historyserver

    关闭Hadoop

    在NameNode节点上停止NameNode使用下面的命令。用hdfs用户:

    [hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs stop namenode

    执行脚本停止DataNode。

    [hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemons.sh --config $HADOOP_CONF_DIR --script hdfs stop datanode

    如果etc/hadoop/slaves和ssh访问已经配置好了(查看单节点安装),所有的HDFS进程可以使用一个脚本停止,使用hdfs用户:

    [hdfs]$ $HADOOP_PREFIX/sbin/stop-dfs.sh

    在ResourceManager 节点上停止ResourceManager 使用下面的命令,使用yarn用户:

    [yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh --config $HADOOP_CONF_DIR stop resourcemanager

    在slave上执行一个脚本停止NodeManager ,yarn用户:

    [yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemons.sh --config $HADOOP_CONF_DIR stop nodemanager

    如果etc/hadoop/slaves和ssh访问已经配置好了(查看单节点安装),所有的YARN进程可以使用一个脚本停止,使用yarn用户:

    [yarn]$ $HADOOP_PREFIX/sbin/stop-yarn.sh

    指定服务器上,停止MapReduce JobHistory服务,使用下面命令,mapred用户:

    [mapred]$ $HADOOP_PREFIX/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR stop historyserver

    Web接口

    一旦Hadoop集群启动了,你可以使用下面的web-ui查看各种组件,

    进程 web接口 备注
    NameNode http://nn_host:port/ 默认端口50070
    ResourceManager http://rm_host:port/ 默认端口8088
    MapReduce JobHistory Server http://jhs_host:port/ 默认端口19888
    展开全文
  • 下载所需的安装包,建立相应的文件夹,将安装包发送到对应的安装包中去。 安装JDK 1. 解压安装包 2. cd 进入解压后的文件夹,pwd获取JAVA_HOME路径 /home/pangying/java/jdk1.8.0_151 3. 配置环境...

    分布式搭建

    下载所需的安装包,建立相应的文件夹,将安装包发送到对应的安装包中去。

    安装JDK

    1. 解压安装包

    2. cd 进入解压后的文件夹,pwd获取JAVA_HOME路径

    /home/pangying/java/jdk1.8.0_151

    3. 配置环境变量

    4. 使配置生效

    5. 检查是否配置成功

    安装Hadoop

    1. 解压安装包


    2. cd进入解压后的文件夹,pwd获取hadoop路径

    3. 配置hadoop环境变量

    4. 使配置生效

    5. 配置hadoop的配置文件

    6. 修改hadoop-env.sh将原来的JAVA_HOME配置替换掉

    7. 修改core-site.xml文件


    8. 修改hdfs-site.xml

    9. 修改mapred-site.xml,先复制一份mapred-site.xml.template模板,并重命名为mapred-site.xml


    10. 配置yarn-site.xml

    11. 配置集群中的datanode节点:


    12. 格式化文件系统:

    检查是否安装成功的一个较为简单但是不完全可靠的方法是,访问浏览器master对应IP的8088和50070端口,查看活跃节点是否对应你所配的节点数。

    安装Spark

    1. 解压安装包


    2. 进入解压后的安装包,pwd获取安装路径


    /home/pangying/spark/scala-2.12.4

    3. 解压spark的安装包,同样获取其安装路径:

    /home/pangying/spark/spark-2.1.0-bin-hadoop2.7

    4. 配置环境变量:


    5. 使配置生效

    6. 进入spark的conf文件夹下配置spark-env.sh文件

    7. 复制模板并重命名

     

    8. 配置spark-defaults.conf

    9. 配置slaves



    同样的,最简单但是不可靠的检测是否安装成功的方式是浏览器访问master节点对应IP的8085端口(如果你在spark-env.sh配了这个端口的话)

    注意:上述所有的安装与配置在所有节点中的操作都是一样的!

    说明:本文省略了ssh免密登录配置,和hostname主机名的配置,有需要的话可以参考[大数据]-hadoop2.8和spark2.1完全分布式搭建这篇文章,写的很详细,我最初也是参考着它做的。

    问题与解决方案

    问题1: Unable to load native-hadoop library for yourplatform... using builtin-java

    解决方案:

    网上很多解决方法都是说hadoop编译的版本和Java编辑的版本或者系统位数不相符,应该自己去编译的一个64位的hadoop库,可是我直觉并检查我的版本没有问题,都是64位的,于是我使用个下述方法解决了这个问题:

    在文件hadoop-env.sh中增加:

    export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native" 

    参考文献:Hadoop错误。。。

    问题2:inator stopped!

    18/01/03 17:47:13 INFO spark.SparkContext: Successfully stopped SparkContext
    Exception in thread "main" java.net.ConnectException: Call From master/192.168.217.128 to master:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
    	at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    	at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    	at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    	at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    	at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:792)
    	at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:732)
    	at org.apache.hadoop.ipc.Client.call(Client.java:1479)
    	at org.apache.hadoop.ipc.Client.call(Client.java:1412)
    	at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:229)
    	at com.sun.proxy.$Proxy13.getFileInfo(Unknown Source)
    	at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:771)
    	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    	at java.lang.reflect.Method.invoke(Method.java:498)
    	at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:191)
    	at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)
    	at com.sun.proxy.$Proxy14.getFileInfo(Unknown Source)
    	at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:2108)
    	at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1305)
    	at org.apache.hadoop.hdfs.DistributedFileSystem$22.doCall(DistributedFileSystem.java:1301)
    	at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
    	at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1317)
    	at org.apache.spark.scheduler.EventLoggingListener.start(EventLoggingListener.scala:93)
    	at org.apache.spark.SparkContext.<init>(SparkContext.scala:531)
    	at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2313)
    	at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:868)
    	at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:860)
    	at scala.Option.getOrElse(Option.scala:121)
    	at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:860)
    	at org.apache.spark.examples.SparkPi$.main(SparkPi.scala:31)
    	at org.apache.spark.examples.SparkPi.main(SparkPi.scala)
    	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    	at java.lang.reflect.Method.invoke(Method.java:498)
    	at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
    	at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
    	at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
    	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
    Caused by: java.net.ConnectException: Connection refused
    	at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    	at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
    	at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)
    	at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531)
    	at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495)
    	at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:614)
    	at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:712)
    	at org.apache.hadoop.ipc.Client$Connection.access$2900(Client.java:375)
    	at org.apache.hadoop.ipc.Client.getConnection(Client.java:1528)
    	at org.apache.hadoop.ipc.Client.call(Client.java:1451)
    	... 34 more
    

    解决方案:

    将spark-default.conf文件中的spark.eventLog.enabled 改成false

    问题3:焦头烂额,解决中。。。

    参考文献:提交spark sample作业失败


    展开全文
  • RHEL7.2 安装Hadoop-2.8.2

    2017-11-06 22:28:00
    创建三台虚拟机,IP地址为:192.168.169.101,192.168.169.102,192.168.169.103 将192.168.169.102为...关闭防火墙,安装JDK1.8,设置SSH无密码登录,下载Hadoop-2.8.2.tar.gz到/hadoop目录下。 1 安装name...
  • eclipse hadoop插件 ,基于hadoop2.8.2,亲测可用,不想用分下载的可以直接到这位大大的地盘去下载编译:https://github.com/jiaoyilun/hadoop2x-eclipse-plugin
  • 首先需要保证hadoop已经在电脑上安装。然后接下来只需要下载hhase配置就行了。 Step1: 下载hbasehttp://archive.apache.org/dist/hbase/1.2.6/ 选择hbase-1.2.6-bin.tar.gz Step2: 解压hbase到指定目录 Step3: ...
  • hadoop-spark集群搭建

    2018-06-13 13:02:00
    hadoop-spark集群搭建 ...下载hadoophttp://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.2/hadoop-2.8.2.tar.gz下载的我放在桌面的:desktopcp /home/hserver1/desktop/hadoop-2...
  • window10安装hadoop

    千次阅读 2017-11-02 18:17:11
    1. 解压从官网下载的binary文件下载地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.2/hadoop-2.8.2.tar.gz然后将该tar.gz解压之本地目录,我的目录是:D:\IDEAProject\hadoop-2.8.22. 设置...
  • hadoop的配置

    2019-02-22 15:24:51
    一、环境选择 1,服务器选择 阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ...Hadoop:2.8.2 (hadoop-2.8.2.tar.gz) 3,下载地址 官网地址: JDK:http://...
  • 大数据学习系列之一 ----- Hadoop环境搭建(单机)

    万次阅读 多人点赞 2017-11-26 16:18:38
    一、环境选择1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ip:39.108.77.250 ...Hadoop:2.8.2 (hadoop-2.8.2.tar.gz)3,下载地址官网地址: JDK:
  • 一、Hadoop搭建

    2018-08-13 17:11:26
    一、环境选择 1,服务器选择 阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ...Hadoop:2.8.2 (hadoop-2.8.2.tar.gz) 3,下载地址 官网地址: JDK:http://...
  • hadoop集群环境搭建

    2017-12-19 15:37:24
    前言本文只介绍hadoop集群环境的搭建,hadoop单机...hadoop版本为hadoop-2.8.2(可自行下载其他版本) 因本人电脑配置原因,暂选2个节点作为集群环境 节点名称 操作系统 ip master ubuntu 192.168.78.139 salve
  • Hadoop环境搭建(单机)

    2019-12-09 14:15:12
    一、环境选择 1,服务器选择 阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ...Hadoop:2.8.2 (hadoop-2.8.2.tar.gz) 3,下载地址 官网地址: JDK:http://...
  • 一、环境选择1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ip:39.108.77.250 2,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz) Hadoop:2.8.2 ...
  • 1下载hadoop对应版本的jar包 2.将jar包内容解压到指定的非中文目录下 3.配置环境变量HADOOP_HOME F:\software\hadoop-2.8.2 4.新建工程 创建一个simple的maven工程 com.bigData HDFS main 方法 package ...
  • Hadoop的客户端配置

    2020-07-14 19:19:02
    2.下载与集群上版本号相同的hadoop压缩包 解压 然后配置环境变量 HADOOP_HOME 解压目录 Path中添加 %HADOOP_HOME%\bin 3.在eclipse中建立Maven项目打开pom.xml 引入如下依赖 junit junit RELEASE org.apache....
  • maven的安装、路径配置、修改库文件路径和eclipse中的配置,解决Eclipse使用Maven下载慢的问题 1.3、创建一个maven工程HDFS 1.4、 导入相应的依赖坐标加日志添加 junit junit RELEASE org.apache.logging....
  • 一、环境选择 1,服务器选择 阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ...Hadoop:2.8.2 (hadoop-2.8.2.tar.gz) 3,下载地址 官网地址: JDK:http...
  • 参考网址: http://hadoop.apache.org/docs/r2.8.2/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 需提前配置好java环境,下载安装包并解压好,进入加压后的文件夹 配置...
  • https://blog.csdn.net/vtopqx/article/details/778824912、hbase 各版本下载地址:http://archive.apache.org/dist/hbase/3、需安装hadoop(本人机器 已安装2.8.2版本)4、安装zookeeper(本人机器已安装zookeeper...
  • Hadoop伪分布模式(HDFS)

    2018-03-24 02:39:30
    http://hadoop.apache.org/docs/r2.8.2/ 官网学习部署方式:1.单机模式standalone 1个java进程,用来做debug的 下载即可使用 (一般忽略)2.伪分布模式Pseudo-Distributed Mode 开发|学习 多个java进程 (重点了解)3....

空空如也

空空如也

1 2
收藏数 29
精华内容 11
关键字:

hadoop2.8.2下载